0%

word embedding作用及用法

关于word embedding总结

词向量

表示词语的向量都可以称为词向量,one shot向量和distributed向量都可以表示为词向量

热编码表示(one shot)

优点

  • 解决了分类器不好解决离散数据的问题,
  • 起到了扩充特征的作用

缺点:

  • 首先,它是一个词袋模型,不考虑词与词之间的顺序(文本中词的顺序信息非常重要)
  • 其次假设词与词之间是独立的(大多数情况下,词与词之间是相互影响的)
  • 最后得到的特征是系数的

分布式表示

核心思想

通过训练将某种语言中的每一个词映射成一个固定长度的短向量(当然这里的“短”是相对于 one-hot representation 的“长”而言的),将所有这些向量放在一起形成一个词向量空间,而每一向量则为该空间中的一个点,在这个空间上引入“距离”,则可以根据词之间的距离来判断它们之间的(词法、语义上的)相似性了。

基于矩阵的分布表示

基于聚类的分布表示

基于神经网络的分布表示

1、基本概念

基于神经网络的分布表示一般称为word embedding(词嵌入)或者distributed representation

2、word2vec

两种方式

CBOW:输入一个词上下文,输出这个词

Skip-Gram:输入一个词输出这个词的上下文

embedding layer:和word2vec一样

embedding layer和word2vec

参考资料

1、DeepNLP的表示学习·词嵌入来龙去脉·深度学习(Deep Learning)·自然语言处理(NLP)·表示(Representation)

2、word2vec 中的数学原理详解

3、秒懂词向量本质

坚持原创技术分享,您的支持将鼓励我继续创作!