Sonyfe25cp的玩具

home

Cs224d Word_vector

13 May 2016

##CS224D-Word Vector

###词语离散表示

可以作为补充资源,例如同义词。

缺点:

  1. 缺少新词的关系
  2. 客观
  3. 需要人工标注
  4. 难于计算相似度

问题:

在01向量表示中,一个词的向量中有太多0。

[0,0,0,0,0,0,1,0,0,0,0,0,0],长度可能是整个字典的长度。

计算相似度时:

hotel=[0,0,0,0,0,0,1,0,0,0,0,0,0]

motel=[0,0,0,0,0,0,0,0,0,1,0,0,0]

Sim = 0

这不科学

###基于表示的分布相似性

利用上下文来计算词语的相似性

如何用邻居来表示词语?基于共现率矩阵

####滑动窗口的共现矩阵

例子:

0513/dl-vector-sample1.png

这样的矩阵有什么问题?

解决方法:低维向量表示

思路:存储最重要的信息在固定、较小维度的向量中:dense vector

通常25-1000维度

如何降维?

从现在开始,全部的词都是一个dense向量X了。

###Hacks to X

问题:个别词(he, has, was)出现频率太高,导致syntax有太多影响。

其他方法:

如何可视化这些词语关系?

SVD存在的问题?

思路:直接学习如何低纬度表示

主流方法:word2vec

  1. 直接计数出现次数
  2. 预测每个词的上下文
  3. 跟GloveVector差不多
  4. 引入新句子或者新文档的时候很快

####Details of Word2vec

0513/dl-vector-details.png