Word2vec的负采样
负采样的特点
首先对基于负采样的技术,我们更新的权重只是采样集合,减少了训练量,同时效果上来说,中心词一般来说只和上下文有关,更新其他词的权重并不重要,所以在降低计算量的同时,效果并没有变差。
负采样具体实施细节
我自己的总结就是创建两个线段,第一个线段切开词表大小的份数,每个份数的长度和频率正比。
第二个线段均分M个,然后随机取整数,整数落在第二个线段那里,然后取第一个线段对应的词,如果碰到是自己,那么就跳过。
欢迎拍砖
Word2vec的负采样
负采样的特点
首先对基于负采样的技术,我们更新的权重只是采样集合,减少了训练量,同时效果上来说,中心词一般来说只和上下文有关,更新其他词的权重并不重要,所以在降低计算量的同时,效果并没有变差。
负采样具体实施细节
我自己的总结就是创建两个线段,第一个线段切开词表大小的份数,每个份数的长度和频率正比。
第二个线段均分M个,然后随机取整数,整数落在第二个线段那里,然后取第一个线段对应的词,如果碰到是自己,那么就跳过。
欢迎拍砖