-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
请问报告是中文的情况下要怎么训练? #3
Comments
你好。首先需要修改一下超参数。比较重要的有,生成报告的最大长度,单词出现的最低频率等。要根据数据集的特点对这些超参数进行设置。其次,如果数据集太小,那么不同随机数种子生成的结果波动会很大。 |
你好,好像主要还是关注分词器还有中英文数据集的差异,我看大佬你的代码是用的统计词频,中文的话建议用jieba吗?数据集层面主要是这三个代码:
dataset.py里的:
tokenizer主要是tokenizers.py这个代码:
定义了不同的数据集清洗方法,在 create_vocabulary 方法中,大佬你用分词清洗文本+统计词频+筛选的方法去创建词汇表,然后生成 token2idx(单词到索引的映射)和 idx2token(索引到单词的映射),主要疑惑:分词清洗文本的话中文数据集要这么做?以及直接把这一步tokenizer直接换成中文jieba分词器可以吗 |
jieba分词应该是可以的。 |
你好,我看了下代码,把代码的tokenizer换成了中文的jieba分词器,但是生成结果非常低,请问要怎么修改代码?需要改哪些内容呢?能否指导一下呢
The text was updated successfully, but these errors were encountered: