Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

请问怎么在自己的数据集上做finetune和推理? #48

Closed
aliencaocao opened this issue Jan 13, 2022 · 4 comments
Closed

请问怎么在自己的数据集上做finetune和推理? #48

aliencaocao opened this issue Jan 13, 2022 · 4 comments

Comments

@aliencaocao
Copy link

我有一些同样是中文的产品信息和用户信息(图像和文本,还有用户最感兴趣的一个tag),请问该如何使用您发布的checkpoint进行推理?

另外,您的模型有没有可能进行fine tune?我在您的readme里找不到关于如何自行构建数据集的指示。

@qibinc
Copy link
Collaborator

qibinc commented Jan 13, 2022

Hi @aliencaocao ,

由于您的数据集和我们训练checkpoint的数据集中的tag类型不一样,所以无法直接在您的数据集上进行推理(除了只把产品标题作为输入的baseline模型)

关于构建数据集,readme里有详细的步骤,您可以把已有的信息整理成 https://github.com/THUDM/KOBE#dataset 中的格式,然后参考 https://github.com/THUDM/KOBE#preprocessing 中的预处理过程。

@aliencaocao
Copy link
Author

我这边的tag其实可以设为和您的一样。我看了issue #14 里面的tag列表,和我这边的数据基本吻合。关于预处理,我不确定如何创建.cond,.desc, .title和.fact文件。

另外关于knowledge base,我的理解是生成fact文件需要我自己有一个knowledge base,而这个knowledge base不在您提供的模型代码内,因此如果我没有这样一个 knowledge base,我只能使用基于aspect的模型,对吗?

另外,假如我只想使用baseline模型测试,请问该如何输入数据?

@qibinc
Copy link
Collaborator

qibinc commented Jan 14, 2022

我不确定如何创建.cond,.desc, .title和.fact文件。

用\n分隔,每行为一个sample。

如果我没有这样一个 knowledge base,我只能使用基于aspect的模型,对吗?

是的

假如我只想使用baseline模型测试,请问该如何输入数据?

最简单的方法是用你的数据替换掉相应的测试数据saved/raw/test.*并且进行相应的预处理和生成:
首先把您要您测试的样本整理成 test.desc, test.title文件,然后参考 https://github.com/THUDM/KOBE#tokenization 对其进行预处理,最后参考 https://github.com/THUDM/KOBE#evaluating-kobe 进行生成。

@aliencaocao
Copy link
Author

是的

那么我是该用这个模型吗?python -m kobe.train --mode kobe-attr --name kobe-attr

这个aspect信息是存储在.cond文件中对吧,我看里面有一个用户类别ID,但是还有一个a b c,请问这个是什么含义?如果我想用于自己的数据,该怎么理解和分类到这个 a b c?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants