Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

一些疑问🤔️ #1

Open
jiangh0 opened this issue Aug 13, 2021 · 3 comments
Open

一些疑问🤔️ #1

jiangh0 opened this issue Aug 13, 2021 · 3 comments

Comments

@jiangh0
Copy link

jiangh0 commented Aug 13, 2021

1、可否给出CoreNLP的预处理代码和相应的指令?
2、CoreNLP的分词结果和BERT的分词结果是完全一致的吗?如何解决不一致的情况?
3、用在中文数据上的话,使用以词为单位的BERT,如何保证CoreNLP和BERT的分词结果是一致的?

@yuanheTian
Copy link
Contributor

yuanheTian commented Aug 19, 2021

您好,感谢您关注我们的文章。

1、可否给出CoreNLP的预处理代码和相应的指令?
==> 您可以在 data 目录下找到相关代码

2、CoreNLP的分词结果和BERT的分词结果是完全一致的吗?如何解决不一致的情况?
==> 由于我们使用的数据集本身是已经切好词的,所以不涉及相关的分词问题。具体数据的格式可以参考 data/sample_data 下面的例子。

3、用在中文数据上的话,使用以词为单位的BERT,如何保证CoreNLP和BERT的分词结果是一致的?
==> 关于 Stanford CoreNLP Toolkit 的中文分词问题,您可以参考 Stanford CoreNLP Toolkit 的官方网站 https://stanfordnlp.github.io/CoreNLP/

希望以上信息能帮到您。如果有其它问题,也欢迎提出。

谢谢,
Yuanhe

@WangZhuoxian
Copy link

去年我的这个项目也用了基于依存句法(SpaCy的模型)的GCN,但是记得好像最后就是因为tokenize有细微的不一致,导致最后效果没怎么提升。

@Jmugh
Copy link

Jmugh commented Aug 26, 2021

去年我的这个项目也用了基于依存句法(SpaCy的模型)的GCN,但是记得好像最后就是因为tokenize有细微的不一致,导致最后效果没怎么提升。

这个问题 我也没理解咋解决的 ,就是word piece分词和special token导致的不一致

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants