Sonyfe25cp的玩具

home

对用户评论的无监督质量重排序算法

25 Mar 2015

REVRANK:A Fully Unsupervised Algorithm for Selecting the Most Helpful Book Reviews

We present an algorithm for automatically ranking user- generated book reviews according to review helpfulness.

基础:根据评论的helpfulness数进行评论质量预测。

方法:REVRANK方法识别一组关键词来形成虚拟的最佳评论,然后其他评论与该最佳评论的距离构成了排序关系。

特点:无监督方法,不需要大量的人工标注

评价:对比Amazon的用户投票评论排序系统

####Amazon采用的用户投票排序系统 方法:

通过对用户询问“was this review helpful to you? Yes/No”的方法来获得用户的投票数,然后进行排序操作。

存在问题:

刘冰的论文对这种投票的方式进行了点评,有各种偏差,如winer circle bias, early bird bias, imbalance vote bias这几种情况

####本文的方法

  1. REVRANK识别一组特征词来定义一个虚拟的最佳评论 a. 按照频率来对词打分 b. 识别低频词,但是相对于特定产品却又很高贡献值的词(也就是对评论对象词有关联关系的词)
  2. 用上述词来形成一个特征表示,然后计算其他句子与该最佳句子的距离。

####与前人研究点的不同

  1. 方法是完全无监督的,不需要人工标注数据集。(原因:刘冰他们雇了4个人进行标注,标注了很多。但是,几千个评论由一个人来评阅,这肯定是有问题的。),也没有使用预先定义好的情感词(其他采用实体识别工具的方法,也都是依赖了人工标注)。避免人工标注的影响。
  2. 其他研究都是基于电子商品的,本研究是基于书本的。电子商品的特征相对比较少,而书的评论则是表达人类的感受,范围会更广。
  3. 与大多数算法的评价方法不同,但是采用了刘冰他们的方法,也就是人工打分来判断。
  4. 抽取特征词这个工作,提出自己的方法,比前人的TextRank和CollabRank都要简单

####具体算法

主要创新点:如何定义、计算并使用一个虚拟的最佳评论来解决评论质量排序问题

书评中包含:

与传统TFIDF不同之处

传统tfidf:

由于传统idf是注重寻找词语在不同文档中的差异,而抽取特征词则是为了寻找不同文档中相同词的部分,所以不用tfidf。

通过更改了tf的分母,就可以让tf反映出该词是否在平衡文档中和评论中的分布不一样。

通过更改idf,可以确定一个词的真实权重,是否是较少出现还是较多出现,来使得传统的高频词的权重下降,而在评论中才会出现的高频词的权重就上升了。

新的tfidf就可以反映出哪些词是评论中的重要词,而不是区分度最高的词。

REVRANK的三个步骤:

a. 识别关键词 b. 根据识别的词将每个评论映射成vector c. 计算相似度来排序评论

####虚拟最佳评论

就是词t在reviews库里的词频,就是该词在外部文件中平均每一百万个词中出现的次数。c是个系数,来控制粒度。试验中用的c = 3.

这样就能算出来每个词的权重,然后排序,得到所谓的核心词表。再选前m个词来用作核心,构成最佳评论。

####虚拟最佳评论的表示

用m个词来做个特征向量表示,只用0,1来区分,于是最佳评论的向量就是VCFV=(1,1,1,1,1,1….)

####评论排序

其中,,也就是向量与最佳向量的点积,|r|是评论中有多少个词,p(|r|)是个惩罚因子,来处理评论太长或者太短的。

####评论的评价方法

  1. 刘冰提出的人工审核的办法。根据人制定出的评分细则进行人工打分,这样就只需要少量的人就可以评分很多。
  2. 大量的人来评分,每人根据评分要求来评很少的几条。

####如何验证

验证思路

  1. 确认用户投票产生的有用性帮助是有偏差的
  2. 描述REVRANK可以找到有用的评论,而且是那些没有投票的
  3. 证明REVRANK的结果比原有的要好,甚至是对比前2%

验证步骤

  1. 对五本书的每一本都做6条评论,其中两条来自现有投票系统的前2或前5中随机选,两条来自REVRANK系统选出的前2或前5中随机,两条来自于非前2或前5的随机挑选
  2. 让3个用户对这5本书各6条评论进行排序打分
  3. 对3个人的结果进行对比分析