###TF-IDF特征
####高频词
- 高频词分为两类,一类是它出现在特别多的类目中,例如各种停词;另一类是在某些特定的类中出现特别频繁,例如某类独有词,当该类在整个文档集中的数目较多时,该累词也会成为高频词。
对于已经标注的多类数据集,先将各类内的词进行统计。
特征词:
-
属于该类的高频词,但该词出现的类目数相对少
-
属于该类的低频词,但不属于其他类的高频词
处理数据:
- 把词在类内的数量/词在全体中的次数,找粗相对本类来说相对次数较多的词
###TF-IDF特征
####高频词
对于已经标注的多类数据集,先将各类内的词进行统计。
特征词:
属于该类的高频词,但该词出现的类目数相对少
属于该类的低频词,但不属于其他类的高频词
处理数据: