关于训练sequence tagging model的数据集 #8

Lucky-259 · 2021-08-27T04:40:16Z

感谢作者团队的贡献！我打算复现这篇文章，但是在训练STM的过程中出现了一些问题。

首先尝试在--data_dir 的后面输入数据集的网址https://www.clips.uantwerpen.be/conll2002/ner/data/ ，报错为AssertError；

后来将数据集下载到本地，输入本地文件路径，报错为UnicodeDecodeError。

不知道该怎样正确的获取数据集，以及训练/验证数据文件的文件类型是否必须为.txt呢？

另外，对于readme文档中的其他输入（--model_dir ./model 和--embeddings_file PATH/TO/emb 的内容也不是很明确），可以麻烦给出训练CONLL_03_SPANISH语料库的输入样例吗？十分感谢！

Bosheng2020 · 2021-09-01T09:38:33Z

您好谢谢您的留言。直接下载的非英语数据集的编码不是utf-8 encoding，你可以参考这个文章去修改编码格式 https://www.jianshu.com/p/36286fa7a9ed。
具体操作是在vi或者vim打开文件输入:set fileencoding=utf-8。
如果有后续问题欢迎留言。

NER数据的格式并不需要txt格式，但是我们实验的时候用的是bioes格式直接下载的格式是iob格式你可以把下载的数据转换一下。如果你想保留iob格式也是可以的。

另外，您第二个问题提到的训练CONLL_03_SPANISH语料库的输入样例是指训练NER模型还是语言模型的输入样例？

Lucky-259 · 2021-09-03T16:42:14Z

非常感谢您的回复！对我很有帮助~

我尝试了预处理CONLL2003的数据集，实验有了一些进展。但是还是出现了一个问题，没能找到合适的解决方案，不知道您是否知道如何解决？
ImportError: /home/cky/anaconda3/envs/py36s/lib/python3.6/site-packages/sentencepiece/_sentencepiece.cpython-36m-x86_64-linux-gnu.so: undefined symbol: _ZNK13sentencepiece4util6Status8ToStringB5cxx11Ev

另外，我是想看一下训练NER模型的具体输入样例~

Bosheng2020 · 2021-10-08T11:00:20Z

你好抱歉哈最近在忙其他项目回复的比较晚这个是你环境的问题可以重装一下sentencepiece。

NER模型的输入例子:

-DOCSTART- O

EU S-ORG
rejects O
German S-MISC
call O
to O
boycott O
British S-MISC
lamb O
. O

Peter B-PER
Blackburn E-PER

Bosheng2020 · 2021-10-08T11:01:05Z

请问这个问题已经解决了吗？如果有其他问题可以留言或者发邮件给我谢谢。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于训练sequence tagging model的数据集 #8

关于训练sequence tagging model的数据集 #8

Lucky-259 commented Aug 27, 2021

Bosheng2020 commented Sep 1, 2021

Lucky-259 commented Sep 3, 2021

Bosheng2020 commented Oct 8, 2021 •

edited

Loading

Bosheng2020 commented Oct 8, 2021

关于训练sequence tagging model的数据集 #8

关于训练sequence tagging model的数据集 #8

Comments

Lucky-259 commented Aug 27, 2021

Bosheng2020 commented Sep 1, 2021

Lucky-259 commented Sep 3, 2021

Bosheng2020 commented Oct 8, 2021 • edited Loading

Bosheng2020 commented Oct 8, 2021

Bosheng2020 commented Oct 8, 2021 •

edited

Loading