【RNN】理解word2vec中的 Skip-Gram

本文介绍了word2vec中的Skip-Gram模型,包括训练样本、网络结构和输出结果。通过设置窗口大小,word2vec模型利用输入词预测上下文词,通过反向传播优化参数,得到词向量表示,使词之间具有相似性和类比关系。隐藏层的参数决定了词向量的数量,而负采样和层序softmax是提高训练效率的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在处理文字模型的时候,将文字转化成可以放进模型的数字,最简单方法是用 one-hot 编码。但是这种方法有弊端,转化后的每个词之间在数字上都是相互独立的,任何一对词的one-hot向量的余弦相似度都为0,任何词之间都没有关系。

Google团队发表的 word2vec 工具。word2vec工具主要包含两个模型:跳字模型(skip-gram)和连续词袋模型(continuous bag of words,简称CBOW)。值得一提的是,word2vec词向量可以较好地表达不同词之间的相似和类比关系。

下面就介绍一下Skip-Gram。

训练样本

确认窗口大小,比如这里设置为2。指定某个词后,例 brown,与其窗口为2的范围内的其他词可组成一对Training Sample,例 (brown,the) (brown,quick) (brown,fox) (brown,jumps)。这样每组Training Sample就对应每次训练的 (输入,输出)

采样

网络结构

上面确定好了输入与输出后,接下来需要将输入与输出的词转化为向量表示。这里我们均使用 one-hot 方法转换。假设词库中有10000个words,输入 x x x 和输出 y y y 都是长度为10000的 one-hot 向量。

网络中包括一个隐藏层,和一个softmax输出层。隐藏层数量自己设置,但这里的隐藏层数量决定最终word2vec 后的vector的数量(后面会详细解释)。softmax输出层的数量必须与词库大小相同,这里是10000。

网络结构确定后,把 x x </

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值