冻结vision tower剩下全参数一起DPO训练后推理乱码，如何进行DPO推理 #5965

Sisi0518 · 2024-11-08T07:42:42Z

作者你好，我冻结冻结vision tower剩下全参数一起DPO训练后，直接load模型参数
model_org = Qwen2VLForConditionalGeneration.from_pretrained(
model_path,
torch_dtype="auto",
attn_implementation="flash_attention_2",
device_map="auto",
)

直接预测为乱码
我的dpo训练参数是：
--deepspeed examples/deepspeed/ds_z0_config.json
--stage dpo
--do_train
--model_name_or_path 1030_mapgpt_mesh996_patchexpand_refer_norefer_aug_lr2e-5/checkpoint-14000
--dataset mapgpt_refer_dpo
--output_dir workdir/1107_simpo
--learning_rate 1e-5
--template qwen2_vl
--finetuning_type full
--freeze_vision_tower true
--pref_beta 0.1
--pref_loss simpo
--overwrite_cache
--overwrite_output_dir
--warmup_steps 100
--weight_decay 0.1
--preprocessing_num_workers 32
--per_device_train_batch_size 1
--gradient_accumulation_steps 4
--ddp_timeout 900000000
--lr_scheduler_type cosine
--logging_steps 1
--cutoff_len 14000
--save_steps 1000
--save_total_limit 100
--plot_loss
--num_train_epochs 10
--bf16

请问我应该如何加载DPO训练权重呢？

github-actions bot added the pending This problem is yet to be addressed label Nov 8, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

冻结vision tower剩下全参数一起DPO训练后推理乱码，如何进行DPO推理 #5965

冻结vision tower剩下全参数一起DPO训练后推理乱码，如何进行DPO推理 #5965

Sisi0518 commented Nov 8, 2024 •

edited

Loading

冻结vision tower剩下全参数一起DPO训练后推理乱码，如何进行DPO推理 #5965

冻结vision tower剩下全参数一起DPO训练后推理乱码，如何进行DPO推理 #5965

Comments

Sisi0518 commented Nov 8, 2024 • edited Loading

Sisi0518 commented Nov 8, 2024 •

edited

Loading