对用户评论的无监督质量重排序算法

REVRANK:A Fully Unsupervised Algorithm for Selecting the Most Helpful Book Reviews

We present an algorithm for automatically ranking user- generated book reviews according to review helpfulness.

基础：根据评论的helpfulness数进行评论质量预测。

方法：REVRANK方法识别一组关键词来形成虚拟的最佳评论，然后其他评论与该最佳评论的距离构成了排序关系。

特点：无监督方法，不需要大量的人工标注

评价：对比Amazon的用户投票评论排序系统

####Amazon采用的用户投票排序系统方法：

通过对用户询问“was this review helpful to you? Yes/No”的方法来获得用户的投票数，然后进行排序操作。

存在问题：

刘冰的论文对这种投票的方式进行了点评，有各种偏差，如winer circle bias, early bird bias, imbalance vote bias这几种情况

####本文的方法

REVRANK识别一组特征词来定义一个虚拟的最佳评论 a. 按照频率来对词打分 b. 识别低频词，但是相对于特定产品却又很高贡献值的词（也就是对评论对象词有关联关系的词）
用上述词来形成一个特征表示，然后计算其他句子与该最佳句子的距离。

####与前人研究点的不同

方法是完全无监督的，不需要人工标注数据集。（原因：刘冰他们雇了4个人进行标注，标注了很多。但是，几千个评论由一个人来评阅，这肯定是有问题的。），也没有使用预先定义好的情感词（其他采用实体识别工具的方法，也都是依赖了人工标注）。避免人工标注的影响。
其他研究都是基于电子商品的，本研究是基于书本的。电子商品的特征相对比较少，而书的评论则是表达人类的感受，范围会更广。
与大多数算法的评价方法不同，但是采用了刘冰他们的方法，也就是人工打分来判断。
抽取特征词这个工作，提出自己的方法，比前人的TextRank和CollabRank都要简单

####具体算法

主要创新点：如何定义、计算并使用一个虚拟的最佳评论来解决评论质量排序问题

书评中包含：

direct references to the book and the plot(这本书和热点的直接引证)
references to similar books or to other books by the same author(与本书类似的书或者这个作者的其他书)
other important contextual aspects（其他特点）

与传统TFIDF不同之处

传统tfidf：

$tf_{i,j} = \frac{n_{i,j}}{\sum_kn_{k,j}}$ $idf_i = log\frac{|D|}{|{j:t_i \in d_j}|}$

由于传统idf是注重寻找词语在不同文档中的差异，而抽取特征词则是为了寻找不同文档中相同词的部分，所以不用tfidf。

通过更改了tf的分母，就可以让tf反映出该词是否在平衡文档中和评论中的分布不一样。

通过更改idf，可以确定一个词的真实权重，是否是较少出现还是较多出现，来使得传统的高频词的权重下降，而在评论中才会出现的高频词的权重就上升了。

新的tfidf就可以反映出哪些词是评论中的重要词，而不是区分度最高的词。

REVRANK的三个步骤：

a. 识别关键词 b. 根据识别的词将每个评论映射成vector c. 计算相似度来排序评论

####虚拟最佳评论

$D_{R_p}(t)=f_{R_p}(t) c \frac{1}{logB(t)}$

$f_{R_p}(t)$ 就是词t在reviews库里的词频， $B(t)$ 就是该词在外部文件中平均每一百万个词中出现的次数。c是个系数，来控制粒度。试验中用的c = 3.

这样就能算出来每个词的权重，然后排序，得到所谓的核心词表。再选前m个词来用作核心，构成最佳评论。

####虚拟最佳评论的表示

用m个词来做个特征向量表示，只用0，1来区分，于是最佳评论的向量就是VCFV=(1,1,1,1,1,1….)

####评论排序

$S(r) = \frac{1}{p(|r|)} \frac{d_r}{|r|}$ 其中， $d_r = v_r VCFV$ ，也就是向量与最佳向量的点积，|r|是评论中有多少个词，p(|r|)是个惩罚因子，来处理评论太长或者太短的。

####评论的评价方法

####如何验证

验证思路

验证步骤

Sonyfe25cp的玩具