word embedding作用及用法

关于word embedding总结

词向量

表示词语的向量都可以称为词向量，one shot向量和distributed向量都可以表示为词向量

热编码表示(one shot)

优点

解决了分类器不好解决离散数据的问题，
起到了扩充特征的作用

缺点：

首先，它是一个词袋模型，不考虑词与词之间的顺序(文本中词的顺序信息非常重要)
其次假设词与词之间是独立的(大多数情况下，词与词之间是相互影响的)
最后得到的特征是系数的

分布式表示

核心思想

通过训练将某种语言中的每一个词映射成一个固定长度的短向量（当然这里的“短”是相对于 one-hot representation 的“长”而言的），将所有这些向量放在一起形成一个词向量空间，而每一向量则为该空间中的一个点，在这个空间上引入“距离”，则可以根据词之间的距离来判断它们之间的（词法、语义上的）相似性了。

基于矩阵的分布表示

基于聚类的分布表示

基于神经网络的分布表示

1、基本概念

基于神经网络的分布表示一般称为word embedding(词嵌入)或者distributed representation

2、word2vec

两种方式

CBOW:输入一个词上下文，输出这个词

Skip-Gram：输入一个词输出这个词的上下文

embedding layer：和word2vec一样

embedding layer和word2vec

参考资料

1、DeepNLP的表示学习·词嵌入来龙去脉·深度学习（Deep Learning）·自然语言处理（NLP）·表示（Representation）

2、word2vec 中的数学原理详解

3、秒懂词向量本质