推荐算法电影排序的一点改进

Filed in php心得, 机器学习

之前在同一clustering下,推荐电影是按照imdb的评分来的,但是这有一个问题,就是有些电影,他的评分很高,但是评价的人很少,这样这种评分高的电影就没有任何意义(过度小众,或恶意刷分)

因此,借鉴了IMDB top250 的排序方法,引入true Bayesian estimate 来进行评价,即:

weighted rating (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C

R = average for the movie (mean) = (Rating)
v = number of votes for the movie = (votes)
m = minimum votes required to be listed in the Top 250 (currently 25000)
C = the mean vote across the whole report (currently 7.0)

依照这样的算法,评价人数多且评分高的,加权平均后评分依然高,评价人数多且评分低的, 加权平均后评分依然低, 而评价人数少的,无论评分高低,都会趋近与平均值7.0,因为信息熵不足以估计他的实际得分,所以他的实际得分趋近与平均值的likelyhood最大。 评价人数越多,越趋近于他的实际平均评分。(estimator 更趋近于 parameter)

这样,在同一聚类下,真正评分(parameter)高的就会先推荐给用户。

经过以上改进,出现在我的推荐里的就都是我喜欢的电影了。

发表评论

电子邮件地址不会被公开。 必填项已用*标注


*

最近评论
Click to view/hide
 
Click to view/hide
2014年三月
« 1月   4月 »
 12
3456789
10111213141516
17181920212223
24252627282930
31  
站点功能
Click to view/hide