Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于Language Model训练结果的一些问题 #10

Open
18438602970 opened this issue Nov 22, 2021 · 2 comments
Open

关于Language Model训练结果的一些问题 #10

18438602970 opened this issue Nov 22, 2021 · 2 comments

Comments

@18438602970
Copy link

首先感谢作者团队的贡献!作者的思路给我了很大的启发,在复现过程中发现一些问题:
1、一个带有标签的低频单词被unk遮掉后,形成的【tag,unk】会不会影响最终的整体效果;
2、单纯了训练了一下Language Model看结果我不知道是好是坏,本来是CV,忽然NLP可能不太理解。所以期待作者能帮我解答一下
微信图片_20211122133215

@18438602970
Copy link
Author

QQ图片20211122201351
这个emding文件是自动生成么,还是需要我自己训练一套embeding
QQ图片20211122201710
这个是我最后生成的out文件,这个文件怎么被利用呢。

@Bosheng2020
Copy link

Bosheng2020 commented Dec 4, 2021

非常感谢您的问题。

  1. 带标签的低频次替换成不影响生成带标签数据的效果
  2. 语言模型可以用perplexity这个指标去衡量。In natural language processing, perplexity is a way of evaluating language models. A language model is a probability distribution over entire sentences or texts.
  3. LSTM框架的NER tagger需要用预训练好的word embedding 如果你用BERT之类的预训练模型的话就不用另外加载embedding了。
  4. 你生成的文件,可以使用我们在tools里面的脚本 用line2col.py这个文件把数据转换成NER训练数据的格式。具体的筛选步骤请参考我们的论文。另外,在我们ACL的论文里面发现,可以用NER模型对生成数据进行筛选。可以参考这个文章。https://aclanthology.org/2021.acl-long.453/

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants