关于word embedding总结
词向量
表示词语的向量都可以称为词向量,one shot向量和distributed向量都可以表示为词向量
热编码表示(one shot)
优点
- 解决了分类器不好解决离散数据的问题,
- 起到了扩充特征的作用
缺点:
- 首先,它是一个词袋模型,不考虑词与词之间的顺序(文本中词的顺序信息非常重要)
- 其次假设词与词之间是独立的(大多数情况下,词与词之间是相互影响的)
- 最后得到的特征是系数的
分布式表示
核心思想
通过训练将某种语言中的每一个词映射成一个固定长度的短向量(当然这里的“短”是相对于 one-hot representation 的“长”而言的),将所有这些向量放在一起形成一个词向量空间,而每一向量则为该空间中的一个点,在这个空间上引入“距离”,则可以根据词之间的距离来判断它们之间的(词法、语义上的)相似性了。
基于矩阵的分布表示
基于聚类的分布表示
基于神经网络的分布表示
1、基本概念
基于神经网络的分布表示一般称为word embedding(词嵌入)或者distributed representation
2、word2vec
两种方式
CBOW:输入一个词上下文,输出这个词
Skip-Gram:输入一个词输出这个词的上下文
embedding layer:和word2vec一样
embedding layer和word2vec
参考资料
1、DeepNLP的表示学习·词嵌入来龙去脉·深度学习(Deep Learning)·自然语言处理(NLP)·表示(Representation)
3、秒懂词向量本质