NLP学习,第一章homework、第二章homework
数据地址:https://aistudio.baidu.com/aistudio/competition/detail/3
对数据做预处理:如去除缺失数据、去除噪音词(无用词)汇或者特殊符号 (见clean_data.py)
使用jieba分词进行中文分词处理
应用分词后的数据建立Vovab词汇表,并保存到vocab.txt (见build_vocab_dict.py) 词汇表格式为:词 词的index
即Homework-week1中的sentences.txt(注意不是vocab.txt)
见train_word2vec_model.py中的build_skip_gram_model函数
读取上一步计算的词向量和构建的vocab词表,以vocab中的index为key值构建embedding_matrix
eg: embedding_matrix[i] = [embedding_vector]