GitHub - Blackteaxx/SentenceEmbedding: Scripts of training Embedding Models, HF-like code

SentenceEmbedding

两种模型：

将数据准备成json格式，参考bge的数据要求

{"query": str, "pos": List[str], "neg": List[str]}

如果是图片数据，参考如下数据要求

{"query_img_dir": str, "pos_img_dir": List[str], "neg_img_dir": List[str]}

Name		Name	Last commit message	Last commit date
Latest commit History 28 Commits
.vscode		.vscode
data/sample		data/sample
hz_train		hz_train
model		model
tutorial		tutorial
.gitignore		.gitignore
README.md		README.md
convert_sbert2onnx_infer.ipynb		convert_sbert2onnx_infer.ipynb
ds_zero2_no_offload.json		ds_zero2_no_offload.json
hz_run_embedding.sh		hz_run_embedding.sh
hz_run_embedding_qwen.sh		hz_run_embedding_qwen.sh
hz_run_self.py		hz_run_self.py