Sonyfe25cp的玩具

home

Review Quality

09 Jun 2015

###数据中的问题

####评论人自身的问题

###评论质量

###Spam detection的解决办法

###Helpfulness prediction

####Review

####各种存在的问题

如果按照特征的多少进行排序,很容易就造成各种重复。

来个例子

* Lexicon based
手工持续添加特征,针对同一个领域还可以接受,若是多个领域就瞎了,需要大量的expert参与
* Unsupervised
如何过滤掉没用的东西就很重要,总会有些奇葩的噪音在。

###新的尝试–两步

什么是质量?

以Unsupervised的方法为主,通过对句子进行词性和依存句法进行分析,找到潜在的评论对象和评论词,然后对目标词进行统计分析,进而形成lexicon。

然后对每一句话中的特征和情感进行识别并排序,优先特征,然后是情感符合整体趋势的程度。