Skip to content

Latest commit

 

History

History
16 lines (7 loc) · 658 Bytes

Word2vec的负采样.md

File metadata and controls

16 lines (7 loc) · 658 Bytes

Word2vec的负采样

负采样的特点

首先对基于负采样的技术,我们更新的权重只是采样集合,减少了训练量,同时效果上来说,中心词一般来说只和上下文有关,更新其他词的权重并不重要,所以在降低计算量的同时,效果并没有变差。

负采样具体实施细节

我自己的总结就是创建两个线段,第一个线段切开词表大小的份数,每个份数的长度和频率正比。

第二个线段均分M个,然后随机取整数,整数落在第二个线段那里,然后取第一个线段对应的词,如果碰到是自己,那么就跳过。

欢迎拍砖