Sonyfe25cp的玩具

home

Acl Sentiment Review

18 Aug 2015

Semantic Analysis and Helpfulness Prediction of Text for Online Product Reviews

作者认为评论的有用性取决于文本的内部,而不是外部因素。

Ground Truth:用户的scoring of helpfulness

人工标注400条

###Introduction写作逻辑:

产品评论开始影响用户的购买决策。随着产品评论的增多,开始用推荐或者排序的方法来展示。

现有的方法大多引入了很多外部因素,如时间、产品类型等,使得模型不具有可移植性。

于是需要将这些外部因素与内在因素区分开,从内部来解决这个问题,使得模型可以更好的移植。这同样使得该方法对评论摘要也有帮助。

近期的NLP研究探讨了文本风格与其属性(如可读性、信息性、可信程度)之间的关系。我们假定有用性也是文本内部的一种属性。

为了理解文本中的内容,实现了现有的句法和词典,并将评论表示为语义向量。而且还引入了两个新的特征,LIWC和INQUIRER。引入这俩的原因在于,人们通常将情感和推理引入到文本中,这使得文本更具有价值。

先前的工作一般采用了X of Y helpfulness的方式来当做标注数据,由于这里面存在大量的偏差,于是我们还是让人工标注了一批。

我们将这个预测文本有用性的问题作为一个回归问题。实验证明,只用文本上的特征也可以取得很好的结果。而新引入的两个特征显著的提升了结果。然后我们还分析了语义特征并且发现Psychological Process对文本有用性起到了很重要的作用。反映思考的词有助于有用性,而情感则并没有。最后,在人工标注的数据上实验结果更好。

###数据

Amazon Review Dataset共包含35million的评论,覆盖1995到2013年。其中一个子集为696696条,覆盖4个领域:Books,Home,Outdoors,Electronics。

对每一个分类,选择评论最多的100个产品来分析,每一个评论都要至少有5个vote,剩下115880条,构成了自动标注数据集。

然后每个分类中随机选择100个评论,构成了人工标注数据集,已公开。

###特征

STR:total number of tokens, total number of sentences, average of tokens, total number of sentences, average length of sentences, number of exclamation marks and percentage of question sentences.

UGR:去掉停词和低频词,TF-IDF特征。

GALC:36种有效状态。构建了一个特征向量,包含每个表情的出现次数和额外的情感词。

LIWC:LIWC是一个词典,用来决定句子的正负面情感程度。

INQUIRER:General Inquirer是一个词典,其中的词按照类别分组。不同的词被映射到不同的语义标签。如,absurd 被映射到 NEG和VICE。

###实验

目的:1,一个类比训练好的模型是否可以直接应用于第二个类别;2,什么元素使得文本的有用性比较高。

先来组合特征并对比,传统的STR和UGR特征只是作为baseline,把GALC,LIWC,INQUIRER作为一组,把全部作为另一组。

模型:SVM regression with RBF kernel

标注:vote产生的自动标注和人工标注

评价标准:RMSE 和 皮尔逊相关系数

####自动标注数据集上的实验

从A上训练的模型移植到B上的结果衡量标准不应该直接这么看,而是应该对比该模型在A上的效果。 于是,先计算model_A在B上的结果,然后除model_A在A上的结果,这样做一个正则化。

由于从图上来看STR跟INQUIRER的效果一直领先其他,而UGR几乎最差,这就说明了UGR基本是不可迁移,因为它在独立测试时效果很好;STR是可迁移的,而它再独立测试时效果一般;那么就说明了,INQUIRER跟LIWC是起了作用的。

####什么起了决定性因素

LIWC和INQUIRER不仅提供了更好的结果,而且还有助于理解什么使得评论内容有用。

在LIWC中的因素分析情况如下:

经分析Relativity、Time、Inclusive、Postive Emotion和Cognitive Processes这5类对LIWC和INQUIRER是最相关,而它们都属于心理过程,也就是说人们在比较有思路的时候写的东西是有帮助的。

在INQUIRER中的情况如下: