Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于训练sequence tagging model的数据集 #8

Open
Lucky-259 opened this issue Aug 27, 2021 · 4 comments
Open

关于训练sequence tagging model的数据集 #8

Lucky-259 opened this issue Aug 27, 2021 · 4 comments

Comments

@Lucky-259
Copy link

感谢作者团队的贡献!我打算复现这篇文章,但是在训练STM的过程中出现了一些问题。

首先尝试在--data_dir 的后面输入数据集的网址https://www.clips.uantwerpen.be/conll2002/ner/data/ ,报错为AssertError;
AssertError
后来将数据集下载到本地,输入本地文件路径,报错为UnicodeDecodeError。
UnicodeDecodeError
不知道该怎样正确的获取数据集,以及训练/验证数据文件的文件类型是否必须为.txt呢?

另外,对于readme文档中的其他输入(--model_dir ./model 和--embeddings_file PATH/TO/emb 的内容也不是很明确),可以麻烦给出训练CONLL_03_SPANISH语料库的输入样例吗?十分感谢!
readme

@Bosheng2020
Copy link

您好 谢谢您的留言。直接下载的非英语数据集的编码不是utf-8 encoding,你可以参考这个文章去修改编码格式 https://www.jianshu.com/p/36286fa7a9ed。
具体操作是在vi或者vim打开文件 输入:set fileencoding=utf-8。
如果有后续问题欢迎留言。

NER数据的格式并不需要txt格式,但是我们实验的时候用的是bioes格式 直接下载的格式是iob格式 你可以把下载的数据转换一下。如果你想保留iob格式也是可以的。

另外,您第二个问题提到的 训练CONLL_03_SPANISH语料库的输入样例 是指训练NER模型还是语言模型的输入样例?

@Lucky-259
Copy link
Author

非常感谢您的回复!对我很有帮助~

我尝试了预处理CONLL2003的数据集,实验有了一些进展。但是还是出现了一个问题,没能找到合适的解决方案,不知道您是否知道如何解决?
ImportError: /home/cky/anaconda3/envs/py36s/lib/python3.6/site-packages/sentencepiece/_sentencepiece.cpython-36m-x86_64-linux-gnu.so: undefined symbol: _ZNK13sentencepiece4util6Status8ToStringB5cxx11Ev
ImportError

另外,我是想看一下训练NER模型的具体输入样例~

@Bosheng2020
Copy link

Bosheng2020 commented Oct 8, 2021

你好 抱歉哈 最近在忙其他项目 回复的比较晚 这个是你环境的问题 可以重装一下sentencepiece。

NER模型的输入例子:

-DOCSTART- O

EU S-ORG
rejects O
German S-MISC
call O
to O
boycott O
British S-MISC
lamb O
. O

Peter B-PER
Blackburn E-PER

@Bosheng2020
Copy link

请问这个问题已经解决了吗?如果有其他问题可以留言或者发邮件给我 谢谢。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants