We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
1、可否给出CoreNLP的预处理代码和相应的指令? 2、CoreNLP的分词结果和BERT的分词结果是完全一致的吗?如何解决不一致的情况? 3、用在中文数据上的话,使用以词为单位的BERT,如何保证CoreNLP和BERT的分词结果是一致的?
The text was updated successfully, but these errors were encountered:
您好,感谢您关注我们的文章。
1、可否给出CoreNLP的预处理代码和相应的指令? ==> 您可以在 data 目录下找到相关代码
2、CoreNLP的分词结果和BERT的分词结果是完全一致的吗?如何解决不一致的情况? ==> 由于我们使用的数据集本身是已经切好词的,所以不涉及相关的分词问题。具体数据的格式可以参考 data/sample_data 下面的例子。
3、用在中文数据上的话,使用以词为单位的BERT,如何保证CoreNLP和BERT的分词结果是一致的? ==> 关于 Stanford CoreNLP Toolkit 的中文分词问题,您可以参考 Stanford CoreNLP Toolkit 的官方网站 https://stanfordnlp.github.io/CoreNLP/
希望以上信息能帮到您。如果有其它问题,也欢迎提出。
谢谢, Yuanhe
Sorry, something went wrong.
去年我的这个项目也用了基于依存句法(SpaCy的模型)的GCN,但是记得好像最后就是因为tokenize有细微的不一致,导致最后效果没怎么提升。
这个问题 我也没理解咋解决的 ,就是word piece分词和special token导致的不一致
No branches or pull requests
1、可否给出CoreNLP的预处理代码和相应的指令?
2、CoreNLP的分词结果和BERT的分词结果是完全一致的吗?如何解决不一致的情况?
3、用在中文数据上的话,使用以词为单位的BERT,如何保证CoreNLP和BERT的分词结果是一致的?
The text was updated successfully, but these errors were encountered: