LLaMA-Factory微调DeepseekR1排坑

官方文档主流程

LLaMA-Factory Doc 官方文档
https://llamafactory.readthedocs.io/zh-cn/latest/

本地机器配置

OS : WIN11 专业版 24H2
CPU : Intel(R) Core(TM) i5-14600KF
GPU : 4070TI S (16G)
RAM : 32G

0.基础环境大坑注意：

(1).CUDA 与 Pytorch 的版本对应；
(2).CUDA 与 bitsandbytes 的版本对应；
(3).如果最后 LLaMA-Factory 启动后主界面右下角的损失图没有出来，要检查xformers的版本；
(4).Win环境下上启用量化 LoRA ，需要安装CUDA 版本选择适当的 bitsandbytes 发行版本。

经过大量捯饬，CUDA12.6，Pytorch2.6，xformers3个需要逐一对应，对应版本如下安装：

CUDA12.6
完成安装后，可以通过使用 CMD 输入 nvcc -V 来快速校验安装是否成功

Pytorch2.6
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

xformers
pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu126

Bitsandbytes
pip install --upgrade "bitsandbytes>=0.45.0"
运行中如果报错提示 bitsandbytes 的版本问题，那么就是版本不对，稳妥一些 CUDA 12.6 对应 0.43 以上版本(官方提示)，本次直接 0.45

1.开始安装

创建一个新环境
conda activate llama_factory

克隆仓库
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git

移步下载路径
cd LLaMA-Factory

安装仓库内安装 LLaMA-Factory 及其依赖
pip install -e ".[torch,metrics]"

完成安装后，可以通过使用 CMD 输入 llamafactory-cli version 来快速校验安装是否成功

2.运行

2.1 启动Web UI界面

llamafactory-cli webui

2.2 挂载模型

挂载本地下载好的模型或者抱脸在线都行，可视化界面直接操作。
我本地是 DeepSeek-R1-7B-DIstill 核心目标是先跑起来，一个文科生，轮子转起来就行。

2.3 参数调整

这里还在摸索研究中，本次不进行阐述。

3.数据处理

llamafactory 支持 Alpaca 格式和 ShareGPT 格式的数据集，在data目录下的 dataset_info.json 可以挂载自定义的 json 数据集。

我是搞的 FreedomIntelligence/medical-o1-reasoning-SFT推理数据集，按照 dataset_info.json 里的数据集提示，自定义一个 medical__Chinese_demo ，以 columns 进行映射对应字段，关键是这个数据集里还有思维链Complex_CoT，先加 query 这里，感觉还是不太合适。

"medical__Chinese_demo": {  
  "file_name": "路径\\medical_o1_sft_Chinese.json",  
  "columns": {  
    "prompt": "Question",  
    "query": "Complex_CoT",  
    "response": "Response"  
    }

这里有篇官方教程 LLaMA Factory：微调DeepSeek-R1-Distill-Qwen-7B模型实现新闻标题分类器各位也可以一并参考。

4.微调训练

如果显示和下图一样，那就是开始正常训练了，至少排完了训练之前的一些坑，至于训练参数和其他，先研究研究。

技术

#奇淫巧技 #工作

LLaMA-Factory微调DeepseekR1排坑

https://cxlcym.github.io/2025/04/20/LLaMA-Factory微调DeepseekR1排坑/

作者

JcakCao

发布于

2025年4月20日

许可协议

Word/Excel 批量文本脱敏处理下一篇