视觉理解模型微调的lora推理不正确的问题 #3000

zhuchen1109 · 2025-01-08T13:02:56Z

zhuchen1109
Jan 8, 2025

我使用swift微调Qwen2-VL-7B-Instruct模型，微调的 "target_modules": [ "up_proj", "attn.proj", "qkv", "down_proj", "mlp.0", "gate_proj", "k_proj","o_proj", "fc2", "q_proj", "mlp.2", "v_proj", "fc1" ]，包含了vision部分的attn.proj、mlp.0、mlp.2。
遇到第一个问题是，patch.py add_adapters方法里，mod.lora_adapters[target_name] = lora，这里target_name不能包含"."，我这里修改代码逻辑绕过的，这个逻辑修改能在后面load_lora_weights时正确的加载权重，修改如下截图所示：

遇到第二问题是，visual.merger.mlp这层因没有实现BaseLinear，mlp.0和mlp.2这二层不能加载lora权重，我将原来的nn.Linear修改为BaseLinear实现，修改如下截图所示：

经过上述修改后，我能正常的初始化模型并正常工作，但在我跑验证集的时候，发现结果都是错的。
想请教下，我这修改是有什么问题吗，我还需要做什么工作才能正常工作呢？

grimoire · 2025-01-09T03:07:44Z

grimoire
Jan 9, 2025
Collaborator

mlp.0 mlp.1 这俩应该不用 tp。
别的应该问题不大，如果结果对不上大概只能一层一层对结果了

0 replies

zhuchen1109 · 2025-01-10T13:17:12Z

zhuchen1109
Jan 10, 2025
Author

我排查发现，在vision的mlp.fc1层，其推理结果的tensor里包含了大量nan值。想请教下，这可能是什么原因呢？我使用transformer推理没有出现这样的问题。推理代码对应位置：

1 reply

grimoire Jan 10, 2025
Collaborator

build_xxx_linear 默认 is_tp=True 以及 all_reduce=True，这个地方应该都不需要

zhuchen1109 · 2025-01-17T08:21:14Z

zhuchen1109
Jan 17, 2025
Author

我梳理了继承于BaseLinear所有layer的is_tp和all_reduce，都修改为False。还是有nan值，想请教下，这个可能是什么原因导致的呢？

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

视觉理解模型微调的lora推理不正确的问题 #3000

Uh oh!

{{title}}

Uh oh!

Replies: 3 comments 1 reply

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

视觉理解模型微调的lora推理不正确的问题 #3000

Uh oh!

zhuchen1109 Jan 8, 2025

Replies: 3 comments · 1 reply

Uh oh!

grimoire Jan 9, 2025 Collaborator

Uh oh!

zhuchen1109 Jan 10, 2025 Author

Uh oh!

grimoire Jan 10, 2025 Collaborator

Uh oh!

zhuchen1109 Jan 17, 2025 Author

zhuchen1109
Jan 8, 2025

Replies: 3 comments 1 reply

grimoire
Jan 9, 2025
Collaborator

zhuchen1109
Jan 10, 2025
Author

grimoire Jan 10, 2025
Collaborator

zhuchen1109
Jan 17, 2025
Author