-
Notifications
You must be signed in to change notification settings - Fork 15
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于训练sequence tagging model的数据集 #8
Comments
您好 谢谢您的留言。直接下载的非英语数据集的编码不是utf-8 encoding,你可以参考这个文章去修改编码格式 https://www.jianshu.com/p/36286fa7a9ed。 NER数据的格式并不需要txt格式,但是我们实验的时候用的是bioes格式 直接下载的格式是iob格式 你可以把下载的数据转换一下。如果你想保留iob格式也是可以的。 另外,您第二个问题提到的 训练CONLL_03_SPANISH语料库的输入样例 是指训练NER模型还是语言模型的输入样例? |
你好 抱歉哈 最近在忙其他项目 回复的比较晚 这个是你环境的问题 可以重装一下sentencepiece。 NER模型的输入例子: -DOCSTART- O EU S-ORG Peter B-PER |
请问这个问题已经解决了吗?如果有其他问题可以留言或者发邮件给我 谢谢。 |
感谢作者团队的贡献!我打算复现这篇文章,但是在训练STM的过程中出现了一些问题。
首先尝试在--data_dir 的后面输入数据集的网址https://www.clips.uantwerpen.be/conll2002/ner/data/ ,报错为AssertError;
后来将数据集下载到本地,输入本地文件路径,报错为UnicodeDecodeError。
不知道该怎样正确的获取数据集,以及训练/验证数据文件的文件类型是否必须为.txt呢?
另外,对于readme文档中的其他输入(--model_dir ./model 和--embeddings_file PATH/TO/emb 的内容也不是很明确),可以麻烦给出训练CONLL_03_SPANISH语料库的输入样例吗?十分感谢!
The text was updated successfully, but these errors were encountered: