这篇文章距离上次修改已过289天，其中的内容可能已经有所变动。

Qwen-3 微调实战：用 Python 和 Unsloth 打造专属 AI 模型

在本篇教程中，我们将使用 Python 与 Unsloth 框架对 Qwen-3 模型进行微调，创建一个专属于你应用场景的 AI 模型。我们会从环境准备、数据集制作、Unsloth 配置，到训练、评估与推理，全流程演示，并配以丰富的代码示例、图解与详细说明，帮助你轻松上手。

一、项目概述

Qwen-3 模型：Qwen-3 是一款大型预训练语言模型，参数量约为 7B，擅长自然语言理解与生成。它提供了基础权重，可通过微调（Fine-tune）使其在垂直领域表现更优。
Unsloth 框架：Unsloth 是一款轻量级的微调工具，封装了训练循环、分布式训练、日志记录等功能，支持多种预训练模型（包括 Qwen-3）。借助 Unsloth，我们无需从零配置训练细节，一行代码即可启动微调。

目标示例：假设我们想要打造一个专供客服自动回复的模型，让 Qwen-3 在客服对话上更准确、流畅。通过本教程，你能学会：

怎样准备和清洗对话数据集；
如何用 Unsloth 对 Qwen-3 进行微调；
怎样监控训练过程并评估效果；
最终如何用微调后的模型进行推理。

二、环境准备

1. 系统和 Python 版本

推荐操作系统：Linux（Ubuntu 20.04+），也可在 macOS 或 Windows（WSL）下进行。
Python 版本：3.8+。
GPU：建议至少一块具备 16GB 显存的 Nvidia GPU（如 V100、A100）。如果显存有限，可启用梯度累积或使用混合精度训练。

2. 安装必要依赖

打开终端，执行以下命令：

# 创建并激活虚拟环境
python3 -m venv qwen_env
source qwen_env/bin/activate

# 升级 pip
pip install --upgrade pip

# 安装 PyTorch（以 CUDA 11.7 为例）
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117

# 安装 transformers、unsloth 及其他辅助库
pip install transformers unsloth tqdm datasets

transformers：提供预训练模型接口；
unsloth：负责微调流程；
tqdm：进度条；
datasets：加载与处理数据集。

如果你没有 GPU，可使用 CPU，但训练速度会明显变慢，不建议大规模训练。

三、数据集准备

1. 数据格式要求

Unsloth 对数据格式有一定要求。我们将用户与客服对话整理成 JSON Lines（.jsonl）格式，每行一个示例，包含：

prompt：用户输入；
completion：客服回复。

示例（chat_data.jsonl）：

{ "prompt": "我想咨询一下订单退款流程", "completion": "您好，订单退款流程如下：首先在个人中心找到订单页面，点击 '申请退款'..." }
{ "prompt": "为什么我的快递一直没到？", "completion": "抱歉给您带来不便，请提供订单号，我们会尽快查询物流情况。" }
...

每行示例中，prompt 与 completion 必须是字符串，不要包含特殊控制字符。数据量上，至少 1k 条示例能看到明显效果；5k+ 数据则更佳。

2. 数据清洗与分割

去重与去脏：去除重复对话，剔除过于冗长或不规范的示例。
分割训练/验证集：一般使用 90% 训练、10% 验证。例如：

# 假设原始 data_raw.jsonl
split -l 500 data_raw.jsonl train_temp.jsonl valid_temp.jsonl  # 每 500 行拆分，这里仅示意
# 或者通过 Python 脚本随机划分：

import json
import random

random.seed(42)
train_file = open('train.jsonl', 'w', encoding='utf-8')
valid_file = open('valid.jsonl', 'w', encoding='utf-8')
with open('chat_data.jsonl', 'r', encoding='utf-8') as f:
    for line in f:
        if random.random() < 0.1:
            valid_file.write(line)
        else:
            train_file.write(line)

train_file.close()
valid_file.close()

上述代码会将大约 10% 的示例写入 valid.jsonl，其余写入 train.jsonl。

四、Unsloth 框架概览

Unsloth 对训练流程进行了封装，主要流程如下：

加载数据集：通过 datasets 库读取 jsonl；
数据预处理：使用 Tokenizer 将文本转为 input_ids；
创建 DataCollator：动态 padding 和生成标签；
配置 Trainer：设置学习率、批次大小等训练超参数；
启动训练：调用 .train() 方法；
评估与保存。

Unsloth 的核心类：

UnslothTrainer：负责训练循环；
DataCollator：用于动态 padding 与标签准备；
ModelConfig：定义模型名称、微调策略等；

下面我们将通过完整代码演示如何使用上述组件。

五、微调流程图解

以下是本教程微调全流程的示意图：

+---------------+      +-------------------+      +---------------------+
|               |      |                   |      |                     |
| 准备数据集     | ---> | 配置 Unsloth      | ---> | 启动训练             |
| (train.jsonl,  |      |  - ModelConfig     |      |  - 监控 Loss/Step    |
|   valid.jsonl) |      |  - Hyperparams     |      |                     |
+---------------+      +-------------------+      +---------------------+
        |                         |                          |
        |                         v                          v
        |                +------------------+        +------------------+
        |                | 数据预处理与Token |        | 评估与保存        |
        |                |  - Tokenizer      |        |  - 生成 Validation|
        |                |  - DataCollator   |        |    Loss           |
        |                +------------------+        |  - 保存最佳权重   |
        |                                              +------------------+
        |                                                 |
        +-------------------------------------------------+
                          微调完成后推理部署

第一阶段：准备数据集，制作 train.jsonl、valid.jsonl。
第二阶段：配置 Unsloth，包括模型名、训练超参、输出目录。
第三阶段：数据预处理，调用 Tokenizer、DataCollator。
第四阶段：启动训练，实时监控 loss、learning_rate 等指标。
第五阶段：评估与保存，在验证集上计算 loss 并保存最佳权重。微调完成后，加载微调模型进行推理或部署。

六、Python 代码示例：Qwen-3 微调实操

以下代码展示如何用 Unsloth 对 Qwen-3 进行微调，以客服对话为例：

# file: finetune_qwen3_unsloth.py
import os
from transformers import AutoTokenizer, AutoConfig
from unsloth import UnslothTrainer, DataCollator, ModelConfig
import torch

# 1. 定义模型与输出目录
MODEL_NAME = "Qwen/Qwen-3-Chat-Base"  # Qwen-3 Base Chat 模型
OUTPUT_DIR = "./qwen3_finetuned"
os.makedirs(OUTPUT_DIR, exist_ok=True)

# 2. 加载 Tokenizer 与 Config
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
# Qwen-3 本身有特殊配置，可通过 AutoConfig 加载
model_config = AutoConfig.from_pretrained(MODEL_NAME)

# 3. 构建 ModelConfig，用于传递给 UnslothTrainer
unsloth_config = ModelConfig(
    model_name_or_path=MODEL_NAME,
    tokenizer=tokenizer,
    config=model_config,
)

# 4. 加载并预处理数据集
from datasets import load_dataset

dataset = load_dataset('json', data_files={'train': 'train.jsonl', 'validation': 'valid.jsonl'})

# 将对话拼接成 <prompt> + <sep> + <completion> 形式，交给 DataCollator

def preprocess_function(examples):
    inputs = []
    for p, c in zip(examples['prompt'], examples['completion']):
        text = p + tokenizer.eos_token + c + tokenizer.eos_token
        inputs.append(text)
    model_inputs = tokenizer(inputs, max_length=1024, truncation=True)
    # labels 同样是 input_ids，Unsloth 将自动进行 shift
    model_inputs['labels'] = model_inputs['input_ids'].copy()
    return model_inputs

tokenized_dataset = dataset.map(
    preprocess_function,
    batched=True,
    remove_columns=['prompt', 'completion'],
)

# 5. 创建 DataCollator，动态 padding

data_collator = DataCollator(tokenizer=tokenizer, mlm=False)

# 6. 定义 Trainer 超参数

trainer = UnslothTrainer(
    model_config=unsloth_config,
    train_dataset=tokenized_dataset['train'],
    eval_dataset=tokenized_dataset['validation'],
    data_collator=data_collator,
    output_dir=OUTPUT_DIR,
    per_device_train_batch_size=4,      # 根据显存调整
    per_device_eval_batch_size=4,
    num_train_epochs=3,
    learning_rate=5e-5,
    warmup_steps=100,
    logging_steps=50,
    evaluation_steps=200,
    save_steps=500,
    fp16=True,                         # 启用混合精度
)

# 7. 启动训练
if __name__ == "__main__":
    trainer.train()
    # 保存最终模型
    trainer.save_model(OUTPUT_DIR)

代码说明

加载 Tokenizer 与 Config：
- AutoTokenizer.from_pretrained 加载 Qwen-3 的分词器；
- AutoConfig.from_pretrained 加载模型默认配置（如隐藏层数、头数等）。
数据预处理：
- 通过 dataset.map 对每条示例进行拼接，将 prompt + eos + completion + eos，保证模型输入包含完整对话；
- max_length=1024 表示序列最大长度，超过则截断；
- labels 字段即为 input_ids 副本，Unsloth 会自动做下采样与 mask。
DataCollator：
- 用于动态 padding，保证同一 batch 内序列对齐；
- mlm=False 表示不进行掩码语言模型训练，因为我们是生成式任务。
UnslothTrainer：
- train_dataset 与 eval_dataset 分别对应训练/验证数据；
- per_device_train_batch_size：每卡的 batch size，根据 GPU 显存可自行调整；
- fp16=True 启用混合精度训练，能大幅减少显存占用，提升速度。
- logging_steps、evaluation_steps、save_steps：分别控制日志输出、验证频率与模型保存频率。
启动训练：
- 运行 python finetune_qwen3_unsloth.py 即可开始训练；
- 训练过程中会在 OUTPUT_DIR 下生成 checkpoint-* 文件夹，保存中间模型。
- 训练结束后，调用 trainer.save_model 将最终模型保存到指定目录。

七、训练与评估详解

1. 训练监控指标

Loss（训练损失）：衡量模型在训练集上的表现，值越低越好。每 logging_steps 输出一次。
Eval Loss（验证损失）：衡量模型在验证集上的泛化能力。每 evaluation_steps 输出一次，通常用于判断是否出现过拟合。
Learning Rate（学习率）：预热（warmup）后逐步衰减，有助于稳定训练。

在训练日志中，你会看到类似：

Step 50/1000 -- loss: 3.45 -- lr: 4.5e-05
Step 100 -- eval_loss: 3.12 -- perplexity: 22.75

当验证损失不再下降，或者出现震荡时，可考虑提前停止训练（Early stopping），以免过拟合。

2. 常见问题排查

显存不足：
- 降低 per_device_train_batch_size；
- 启用 fp16=True 或者使用梯度累积 (gradient_accumulation_steps)；
- 缩减 max_length。
训练速度过慢：
- 使用多卡训练（需在命令前加 torchrun --nproc_per_node=2 等）；
- 减小 logging_steps 会导致更多 I/O，适当调大可提升速度；
- 确保 SSD 读写速度正常，避免数据加载瓶颈。
模型效果不佳：
- 检查数据质量，清洗偏低质量示例；
- 增加训练轮次 (num_train_epochs)；
- 调整学习率，如果损失波动过大可适当降低。

八、推理与部署示例

微调完成后，我们可以用下面示例代码加载模型并进行推理：

# file: inference_qwen3.py
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# 1. 加载微调后模型
MODEL_PATH = "./qwen3_finetuned"

tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
model = AutoModelForCausalLM.from_pretrained(MODEL_PATH).half().cuda()

# 2. 定义生成函数

def generate_reply(user_input, max_length=256, temperature=0.7, top_p=0.9):
    prompt_text = user_input + tokenizer.eos_token
    inputs = tokenizer(prompt_text, return_tensors="pt").to("cuda")
    # 设置生成参数
    output_ids = model.generate(
        **inputs,
        max_new_tokens=max_length,
        temperature=temperature,
        top_p=top_p,
        do_sample=True,
        eos_token_id=tokenizer.eos_token_id,
        pad_token_id=tokenizer.eos_token_id,
    )
    # 解码并去除 prompt 部分
    generated = tokenizer.decode(output_ids[0][inputs['input_ids'].shape[-1]:], skip_special_tokens=True)
    return generated

# 3. 测试示例
if __name__ == "__main__":
    while True:
        user_input = input("用户：")
        if user_input.strip() == "exit":
            break
        reply = generate_reply(user_input)
        print(f"AI：{reply}")

推理说明

加载微调模型：调用 AutoTokenizer 与 AutoModelForCausalLM.from_pretrained 加载保存目录；
**.half() 转成半精度，有助于加速推理；
.cuda() 将模型加载到 GPU；
generate() 参数：
- max_new_tokens：生成最大 token 数；
- temperature 与 top_p 控制采样策略；
- eos_token_id、pad_token_id 统一使用 EOS。
进入交互式循环，用户输入后生成 AI 回复。

九、小技巧与常见问题

数据量与效果关系：
- 数据量越大，模型越能捕捉更多对话场景；
- 若你的场景较为单一，甚至数百示例就能达到不错效果。
梯度累积：当显存受限时，可配置：

trainer = UnslothTrainer(
    ...
    per_device_train_batch_size=1,
    gradient_accumulation_steps=8,  # 1*8=8 相当于 batch_size=8
    fp16=True,
)

学习率调节：常用范围 1e-5 ~ 5e-5；可以先尝试 5e-5，如果 loss 大幅波动则降低到 3e-5。
冻结部分层数：如果你希望更快收敛且保存已有知识，可以只微调最后几层。示例：

for name, param in model.named_parameters():
    if "transformer.h.[0-21]" in name:  # 假设总共有 24 层，只微调最后 2 层
        param.requires_grad = False

混合精度（FP16）：
- 在 trainer = UnslothTrainer(..., fp16=True) 即可开启；
- 可显著降低显存占用并加速训练，但需确认显卡支持。
分布式训练：
- 若有多卡可通过 torchrun 启动：
```
torchrun --nproc_per_node=2 finetune_qwen3_unsloth.py
```
- Unsloth 会自动检测并分配多卡。

十、闭环升级与展望

持续更新数据：随着线上对话不断积累，定期收集新的对话示例，将其追加至训练集，进行增量微调。
指令微调（Instruction Tuning）：可在对话外加入系统指令（如“你是客服机器人，请用简洁语句回答”），提升模型一致性。
多语言支持：Qwen-3 本身支持多语种，如需多语言客服，可混合不同语种示例进行训练。
模型蒸馏：若要部署到边缘设备，可通过蒸馏技术将 Qwen-3 蒸馏为更小的版本。

结语

通过本篇教程，你已经掌握了：

Qwen-3 的微调全流程；
Unsloth 框架的核心用法；
PyTorch 下训练与推理的最佳实践；
常见调参技巧与问题排查。

接下来，你可以根据自身业务场景，自由扩展数据与训练策略，打造属于自己的高质量 AI 模型。如果你希望进一步了解更复杂的流水线集成（如结合 FastAPI 部署、A/B 测试等），也可以继续交流。祝你微调顺利，项目成功！

Qwen-3 微调实战：用 Python 和 Unsloth 打造专属 AI 模型

Qwen-3 微调实战：用 Python 和 Unsloth 打造专属 AI 模型

一、项目概述

二、环境准备

1. 系统和 Python 版本

2. 安装必要依赖

三、数据集准备

1. 数据格式要求

2. 数据清洗与分割

四、Unsloth 框架概览

五、微调流程图解

六、Python 代码示例：Qwen-3 微调实操

代码说明

七、训练与评估详解

1. 训练监控指标

2. 常见问题排查

八、推理与部署示例

推理说明

九、小技巧与常见问题

十、闭环升级与展望

结语

评论已关闭

推荐阅读