请问怎么在自己的数据集上做finetune和推理？ #48

aliencaocao · 2022-01-13T16:30:31Z

我有一些同样是中文的产品信息和用户信息（图像和文本，还有用户最感兴趣的一个tag），请问该如何使用您发布的checkpoint进行推理？

另外，您的模型有没有可能进行fine tune？我在您的readme里找不到关于如何自行构建数据集的指示。

qibinc · 2022-01-13T17:59:34Z

由于您的数据集和我们训练checkpoint的数据集中的tag类型不一样，所以无法直接在您的数据集上进行推理（除了只把产品标题作为输入的baseline模型）

关于构建数据集，readme里有详细的步骤，您可以把已有的信息整理成 https://github.com/THUDM/KOBE#dataset 中的格式，然后参考 https://github.com/THUDM/KOBE#preprocessing 中的预处理过程。

aliencaocao · 2022-01-14T00:03:07Z

我这边的tag其实可以设为和您的一样。我看了issue #14 里面的tag列表，和我这边的数据基本吻合。关于预处理，我不确定如何创建.cond，.desc, .title和.fact文件。

另外关于knowledge base，我的理解是生成fact文件需要我自己有一个knowledge base，而这个knowledge base不在您提供的模型代码内，因此如果我没有这样一个 knowledge base，我只能使用基于aspect的模型，对吗？

另外，假如我只想使用baseline模型测试，请问该如何输入数据？

qibinc · 2022-01-14T19:14:56Z

我不确定如何创建.cond，.desc, .title和.fact文件。

用\n分隔，每行为一个sample。

如果我没有这样一个 knowledge base，我只能使用基于aspect的模型，对吗？

是的

假如我只想使用baseline模型测试，请问该如何输入数据？

最简单的方法是用你的数据替换掉相应的测试数据saved/raw/test.*并且进行相应的预处理和生成：
首先把您要您测试的样本整理成 test.desc, test.title文件，然后参考 https://github.com/THUDM/KOBE#tokenization 对其进行预处理，最后参考 https://github.com/THUDM/KOBE#evaluating-kobe 进行生成。

aliencaocao · 2022-01-15T04:47:37Z

是的

那么我是该用这个模型吗？python -m kobe.train --mode kobe-attr --name kobe-attr

这个aspect信息是存储在.cond文件中对吧，我看里面有一个用户类别ID，但是还有一个a b c，请问这个是什么含义？如果我想用于自己的数据，该怎么理解和分类到这个 a b c？

aliencaocao closed this as completed Mar 27, 2022

Provide feedback