-
-
Notifications
You must be signed in to change notification settings - Fork 143
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
数据格式,请问一下在data_helpers.py中的content.txt与metadata.tsv是什么,具体格式是什么,能否提供一个样例 #12
Comments
(数据集中的一条记录,
|
Therefore, if you use other pre-trained word vectors, such as the word vectors from wiki corpus, you can ignore the
(They are two records in the dataset,
|
假如我进行multi label text classification的文本(此文本与领域相关)是:
为了提升多标签分类的效果,是不是需要自己使用content.txt训练词向量,而且content.txt最好需要包含这些类似的文本?毕竟在非领域相关的word-embedding语料中很多领域相关词语(空气炸锅,星特朗,瑞格尔...)属于未登录词?如果不是自己训练领域相关的word2vec语料,使用其他语料会导致多标签分类效果变差么,从理论上来说? 再问个问题,有哪些方法能够处理具有排序信息的多标签分类任务?例如,在电商领域中,苹果即可以属于手机,又可以属于水果,但是在与电子产品相关的电商(也卖水果,主营3C)中苹果属于手机的概率要比属于苹果的概率大;自己去了解了下,没有发现这个方向有比较好的解决办法 |
第一个问题,我的个人理解是的,如果使用的是非本领域的相关的 word2vec 语料,会一定程度上导致分类效果变差。原因是未登陆词的词向量会随机初始化,本质上来说随机初始化的词向量表基本上都是不如特定领域预料训练过的(因为加了先验知识)。典型的例子就是,wiki 的大语料库训练出来的word2vec model 在专业医学领域(具有很多专业医学名词)表现不如特定医学语料库。 第二个问题,具有排序信息的多标签分类任务。这个讲道理,我不是太懂你的意思。你的意思是说比如在一个电商大领域下,涉及 但如果你的意思是说,在一个很大很笼统的领域下(即所有可能的领域),涉及 |
TEXT_DIR = '../data/content.txt'
METADATA_DIR = '../data/metadata.tsv'
The text was updated successfully, but these errors were encountered: