一些疑问🤔️ #1

jiangh0 · 2021-08-13T09:30:46Z

1、可否给出CoreNLP的预处理代码和相应的指令？
2、CoreNLP的分词结果和BERT的分词结果是完全一致的吗？如何解决不一致的情况？
3、用在中文数据上的话，使用以词为单位的BERT，如何保证CoreNLP和BERT的分词结果是一致的？

yuanheTian · 2021-08-19T00:46:26Z

您好，感谢您关注我们的文章。

1、可否给出CoreNLP的预处理代码和相应的指令？
==> 您可以在 data 目录下找到相关代码

2、CoreNLP的分词结果和BERT的分词结果是完全一致的吗？如何解决不一致的情况？
==> 由于我们使用的数据集本身是已经切好词的，所以不涉及相关的分词问题。具体数据的格式可以参考 data/sample_data 下面的例子。

3、用在中文数据上的话，使用以词为单位的BERT，如何保证CoreNLP和BERT的分词结果是一致的？
==> 关于 Stanford CoreNLP Toolkit 的中文分词问题，您可以参考 Stanford CoreNLP Toolkit 的官方网站 https://stanfordnlp.github.io/CoreNLP/

希望以上信息能帮到您。如果有其它问题，也欢迎提出。

谢谢，
Yuanhe

WangZhuoxian · 2021-08-25T11:54:22Z

去年我的这个项目也用了基于依存句法(SpaCy的模型)的GCN，但是记得好像最后就是因为tokenize有细微的不一致，导致最后效果没怎么提升。

Jmugh · 2021-08-26T11:40:55Z

去年我的这个项目也用了基于依存句法(SpaCy的模型)的GCN，但是记得好像最后就是因为tokenize有细微的不一致，导致最后效果没怎么提升。

这个问题我也没理解咋解决的，就是word piece分词和special token导致的不一致

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

一些疑问🤔️ #1

一些疑问🤔️ #1

jiangh0 commented Aug 13, 2021

yuanheTian commented Aug 19, 2021 •

edited

Loading

WangZhuoxian commented Aug 25, 2021

Jmugh commented Aug 26, 2021

一些疑问🤔️ #1

一些疑问🤔️ #1

Comments

jiangh0 commented Aug 13, 2021

yuanheTian commented Aug 19, 2021 • edited Loading

WangZhuoxian commented Aug 25, 2021

Jmugh commented Aug 26, 2021

yuanheTian commented Aug 19, 2021 •

edited

Loading