REVRANK:A Fully Unsupervised Algorithm for Selecting the Most Helpful Book Reviews
We present an algorithm for automatically ranking user- generated book reviews according to review helpfulness.
基础:根据评论的helpfulness数进行评论质量预测。
方法:REVRANK方法识别一组关键词来形成虚拟的最佳评论,然后其他评论与该最佳评论的距离构成了排序关系。
特点:无监督方法,不需要大量的人工标注
评价:对比Amazon的用户投票评论排序系统
####Amazon采用的用户投票排序系统 方法:
通过对用户询问“was this review helpful to you? Yes/No”的方法来获得用户的投票数,然后进行排序操作。
存在问题:
刘冰的论文对这种投票的方式进行了点评,有各种偏差,如winer circle bias, early bird bias, imbalance vote bias这几种情况
####本文的方法
- REVRANK识别一组特征词来定义一个虚拟的最佳评论 a. 按照频率来对词打分 b. 识别低频词,但是相对于特定产品却又很高贡献值的词(也就是对评论对象词有关联关系的词)
- 用上述词来形成一个特征表示,然后计算其他句子与该最佳句子的距离。
####与前人研究点的不同
- 方法是完全无监督的,不需要人工标注数据集。(原因:刘冰他们雇了4个人进行标注,标注了很多。但是,几千个评论由一个人来评阅,这肯定是有问题的。),也没有使用预先定义好的情感词(其他采用实体识别工具的方法,也都是依赖了人工标注)。避免人工标注的影响。
- 其他研究都是基于电子商品的,本研究是基于书本的。电子商品的特征相对比较少,而书的评论则是表达人类的感受,范围会更广。
- 与大多数算法的评价方法不同,但是采用了刘冰他们的方法,也就是人工打分来判断。
- 抽取特征词这个工作,提出自己的方法,比前人的TextRank和CollabRank都要简单
####具体算法
主要创新点:如何定义、计算并使用一个虚拟的最佳评论来解决评论质量排序问题
书评中包含:
- direct references to the book and the plot(这本书和热点的直接引证)
- references to similar books or to other books by the same author(与本书类似的书或者这个作者的其他书)
- other important contextual aspects(其他特点)
与传统TFIDF不同之处
传统tfidf:
- 在关键词抽取阶段,把同一本书的书评作为一个文档对待。(方便增加一个词在文档中数tf时的数字较大)
- 在计算idf时,采用外部平衡文档的数据来计算,而不是自身的idf(idf是用外部文档的数值)
- 计算外部平衡文档中的词频综述(tf中的分母是外部文档的数值)
由于传统idf是注重寻找词语在不同文档中的差异,而抽取特征词则是为了寻找不同文档中相同词的部分,所以不用tfidf。
通过更改了tf的分母,就可以让tf反映出该词是否在平衡文档中和评论中的分布不一样。
通过更改idf,可以确定一个词的真实权重,是否是较少出现还是较多出现,来使得传统的高频词的权重下降,而在评论中才会出现的高频词的权重就上升了。
新的tfidf就可以反映出哪些词是评论中的重要词,而不是区分度最高的词。
REVRANK的三个步骤:
a. 识别关键词 b. 根据识别的词将每个评论映射成vector c. 计算相似度来排序评论
####虚拟最佳评论
就是词t在reviews库里的词频,就是该词在外部文件中平均每一百万个词中出现的次数。c是个系数,来控制粒度。试验中用的c = 3.
这样就能算出来每个词的权重,然后排序,得到所谓的核心词表。再选前m个词来用作核心,构成最佳评论。
####虚拟最佳评论的表示
用m个词来做个特征向量表示,只用0,1来区分,于是最佳评论的向量就是VCFV=(1,1,1,1,1,1….)
####评论排序
其中,,也就是向量与最佳向量的点积,|r|是评论中有多少个词,p(|r|)是个惩罚因子,来处理评论太长或者太短的。
####评论的评价方法
- 刘冰提出的人工审核的办法。根据人制定出的评分细则进行人工打分,这样就只需要少量的人就可以评分很多。
- 大量的人来评分,每人根据评分要求来评很少的几条。
####如何验证
验证思路
- 确认用户投票产生的有用性帮助是有偏差的
- 描述REVRANK可以找到有用的评论,而且是那些没有投票的
- 证明REVRANK的结果比原有的要好,甚至是对比前2%
验证步骤
- 对五本书的每一本都做6条评论,其中两条来自现有投票系统的前2或前5中随机选,两条来自REVRANK系统选出的前2或前5中随机,两条来自于非前2或前5的随机挑选
- 让3个用户对这5本书各6条评论进行排序打分
- 对3个人的结果进行对比分析