Skip to content

Scripts of training Embedding Models, HF-like code

Notifications You must be signed in to change notification settings

Blackteaxx/SentenceEmbedding

 
 

Repository files navigation

SentenceEmbedding

  1. 一个非常轻量级的文本转向量训练代码,可用于召回模型的训练,非常适合新手入门。
  2. fork 自up主的库,并进行了一些修改。
  3. 参考bge项目、m3e项目

操作流程

下载模型

两种模型:

  1. 一种是类似于bert的模型,从这里下载模型https://huggingface.co/hfl/chinese-roberta-wwm-ext

  2. 一种是llama结构的模型,这里使用了Qwen1.5-0.5B-Chat模型,点击链接下载。

准备数据

将数据准备成json格式,参考bge的数据要求

{"query": str, "pos": List[str], "neg": List[str]}

如果是图片数据,参考如下数据要求

{"query_img_dir": str, "pos_img_dir": List[str], "neg_img_dir": List[str]}

开始训练

  1. 如果是使用类似于bert的模型,参考hz_run_embedding.sh脚本,进行训练
  2. 如果是使用类似于llama的模型,参考hz_run_embedding_qwen.sh脚本,进行训练

About

Scripts of training Embedding Models, HF-like code

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 51.7%
  • Python 45.0%
  • Shell 3.3%