LLaMA-Factory微调DeepseekR1排坑

官方文档主流程

LLaMA-Factory Doc 官方文档
https://llamafactory.readthedocs.io/zh-cn/latest/

本地机器配置

OS : WIN11 专业版 24H2
CPU : Intel(R) Core(TM) i5-14600KF
GPU : 4070TI S (16G)
RAM : 32G

0.基础环境大坑注意:

(1).CUDA 与 Pytorch 的版本对应;
(2).CUDA 与 bitsandbytes 的版本对应;
(3).如果最后 LLaMA-Factory 启动后主界面右下角的损失图没有出来,要检查xformers的版本;
(4).Win环境下上启用量化 LoRA ,需要安装CUDA 版本选择适当的 bitsandbytes 发行版本。

经过大量捯饬,CUDA12.6,Pytorch2.6,xformers3个需要逐一对应,对应版本如下安装:

CUDA12.6
完成安装后,可以通过使用 CMD 输入 nvcc -V 来快速校验安装是否成功

Pytorch2.6
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

xformers
pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu126

Bitsandbytes
pip install --upgrade "bitsandbytes>=0.45.0"
运行中如果报错提示 bitsandbytes 的版本问题,那么就是版本不对,稳妥一些 CUDA 12.6 对应 0.43 以上版本(官方提示),本次直接 0.45

1.开始安装

创建一个新环境
conda activate llama_factory

克隆仓库
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git

移步下载路径
cd LLaMA-Factory

安装仓库内安装 LLaMA-Factory 及其依赖
pip install -e ".[torch,metrics]"

完成安装后,可以通过使用 CMD 输入 llamafactory-cli version 来快速校验安装是否成功

2.运行

2.1 启动Web UI界面

llamafactory-cli webui

2.2 挂载模型

挂载本地下载好的模型或者抱脸在线都行,可视化界面直接操作。
我本地是 DeepSeek-R1-7B-DIstill 核心目标是先跑起来,一个文科生,轮子转起来就行。

2.3 参数调整

这里还在摸索研究中,本次不进行阐述。

3.数据处理

llamafactory 支持 Alpaca 格式和 ShareGPT 格式的数据集,在data目录下的 dataset_info.json 可以挂载自定义的 json 数据集。

我是搞的 FreedomIntelligence/medical-o1-reasoning-SFT推理数据集,按照 dataset_info.json 里的数据集提示,自定义一个 medical__Chinese_demo ,以 columns 进行映射对应字段,关键是这个数据集里还有思维链Complex_CoT,先加 query 这里,感觉还是不太合适。

1
2
3
4
5
6
7
"medical__Chinese_demo": {  
"file_name": "路径\\medical_o1_sft_Chinese.json",
"columns": {
"prompt": "Question",
"query": "Complex_CoT",
"response": "Response"
}

这里有篇官方教程 LLaMA Factory:微调DeepSeek-R1-Distill-Qwen-7B模型实现新闻标题分类器各位也可以一并参考。

4.微调训练

如果显示和下图一样,那就是开始正常训练了,至少排完了训练之前的一些坑,至于训练参数和其他,先研究研究。


LLaMA-Factory微调DeepseekR1排坑
https://cxlcym.github.io/2025/04/20/LLaMA-Factory微调DeepseekR1排坑/
作者
JcakCao
发布于
2025年4月20日
许可协议