Qwen-3 微调实战：用 Python 和 Unsloth 打造专属 AI 模型

2025-05-26

Qwen-3 微调实战：用 Python 和 Unsloth 打造专属 AI 模型

在本篇教程中，我们将使用 Python 与 Unsloth 框架对 Qwen-3 模型进行微调，创建一个专属于你应用场景的 AI 模型。我们会从环境准备、数据集制作、Unsloth 配置，到训练、评估与推理，全流程演示，并配以丰富的代码示例、图解与详细说明，帮助你轻松上手。

一、项目概述

Qwen-3 模型：Qwen-3 是一款大型预训练语言模型，参数量约为 7B，擅长自然语言理解与生成。它提供了基础权重，可通过微调（Fine-tune）使其在垂直领域表现更优。
Unsloth 框架：Unsloth 是一款轻量级的微调工具，封装了训练循环、分布式训练、日志记录等功能，支持多种预训练模型（包括 Qwen-3）。借助 Unsloth，我们无需从零配置训练细节，一行代码即可启动微调。

目标示例：假设我们想要打造一个专供客服自动回复的模型，让 Qwen-3 在客服对话上更准确、流畅。通过本教程，你能学会：

怎样准备和清洗对话数据集；
如何用 Unsloth 对 Qwen-3 进行微调；
怎样监控训练过程并评估效果；
最终如何用微调后的模型进行推理。

二、环境准备

1. 系统和 Python 版本

推荐操作系统：Linux（Ubuntu 20.04+），也可在 macOS 或 Windows（WSL）下进行。
Python 版本：3.8+。
GPU：建议至少一块具备 16GB 显存的 Nvidia GPU（如 V100、A100）。如果显存有限，可启用梯度累积或使用混合精度训练。

2. 安装必要依赖

打开终端，执行以下命令：

# 创建并激活虚拟环境
python3 -m venv qwen_env
source qwen_env/bin/activate

# 升级 pip
pip install --upgrade pip

# 安装 PyTorch（以 CUDA 11.7 为例）
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117

# 安装 transformers、unsloth 及其他辅助库
pip install transformers unsloth tqdm datasets

transformers：提供预训练模型接口；
unsloth：负责微调流程；
tqdm：进度条；
datasets：加载与处理数据集。

如果你没有 GPU，可使用 CPU，但训练速度会明显变慢，不建议大规模训练。

三、数据集准备

1. 数据格式要求

Unsloth 对数据格式有一定要求。我们将用户与客服对话整理成 JSON Lines（.jsonl）格式，每行一个示例，包含：

prompt：用户输入；
completion：客服回复。

示例（chat_data.jsonl）：

{ "prompt": "我想咨询一下订单退款流程", "completion": "您好，订单退款流程如下：首先在个人中心找到订单页面，点击 '申请退款'..." }
{ "prompt": "为什么我的快递一直没到？", "completion": "抱歉给您带来不便，请提供订单号，我们会尽快查询物流情况。" }
...

每行示例中，prompt 与 completion 必须是字符串，不要包含特殊控制字符。数据量上，至少 1k 条示例能看到明显效果；5k+ 数据则更佳。

2. 数据清洗与分割

去重与去脏：去除重复对话，剔除过于冗长或不规范的示例。
分割训练/验证集：一般使用 90% 训练、10% 验证。例如：

# 假设原始 data_raw.jsonl
split -l 500 data_raw.jsonl train_temp.jsonl valid_temp.jsonl  # 每 500 行拆分，这里仅示意
# 或者通过 Python 脚本随机划分：

import json
import random

random.seed(42)
train_file = open('train.jsonl', 'w', encoding='utf-8')
valid_file = open('valid.jsonl', 'w', encoding='utf-8')
with open('chat_data.jsonl', 'r', encoding='utf-8') as f:
    for line in f:
        if random.random() < 0.1:
            valid_file.write(line)
        else:
            train_file.write(line)

train_file.close()
valid_file.close()

上述代码会将大约 10% 的示例写入 valid.jsonl，其余写入 train.jsonl。

四、Unsloth 框架概览

Unsloth 对训练流程进行了封装，主要流程如下：

加载数据集：通过 datasets 库读取 jsonl；
数据预处理：使用 Tokenizer 将文本转为 input_ids；
创建 DataCollator：动态 padding 和生成标签；
配置 Trainer：设置学习率、批次大小等训练超参数；
启动训练：调用 .train() 方法；
评估与保存。

Unsloth 的核心类：

UnslothTrainer：负责训练循环；
DataCollator：用于动态 padding 与标签准备；
ModelConfig：定义模型名称、微调策略等；

下面我们将通过完整代码演示如何使用上述组件。

五、微调流程图解

以下是本教程微调全流程的示意图：

+---------------+      +-------------------+      +---------------------+
|               |      |                   |      |                     |
| 准备数据集     | ---> | 配置 Unsloth      | ---> | 启动训练             |
| (train.jsonl,  |      |  - ModelConfig     |      |  - 监控 Loss/Step    |
|   valid.jsonl) |      |  - Hyperparams     |      |                     |
+---------------+      +-------------------+      +---------------------+
        |                         |                          |
        |                         v                          v
        |                +------------------+        +------------------+
        |                | 数据预处理与Token |        | 评估与保存        |
        |                |  - Tokenizer      |        |  - 生成 Validation|
        |                |  - DataCollator   |        |    Loss           |
        |                +------------------+        |  - 保存最佳权重   |
        |                                              +------------------+
        |                                                 |
        +-------------------------------------------------+
                          微调完成后推理部署

第一阶段：准备数据集，制作 train.jsonl、valid.jsonl。
第二阶段：配置 Unsloth，包括模型名、训练超参、输出目录。
第三阶段：数据预处理，调用 Tokenizer、DataCollator。
第四阶段：启动训练，实时监控 loss、learning_rate 等指标。
第五阶段：评估与保存，在验证集上计算 loss 并保存最佳权重。微调完成后，加载微调模型进行推理或部署。

六、Python 代码示例：Qwen-3 微调实操

以下代码展示如何用 Unsloth 对 Qwen-3 进行微调，以客服对话为例：

# file: finetune_qwen3_unsloth.py
import os
from transformers import AutoTokenizer, AutoConfig
from unsloth import UnslothTrainer, DataCollator, ModelConfig
import torch

# 1. 定义模型与输出目录
MODEL_NAME = "Qwen/Qwen-3-Chat-Base"  # Qwen-3 Base Chat 模型
OUTPUT_DIR = "./qwen3_finetuned"
os.makedirs(OUTPUT_DIR, exist_ok=True)

# 2. 加载 Tokenizer 与 Config
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
# Qwen-3 本身有特殊配置，可通过 AutoConfig 加载
model_config = AutoConfig.from_pretrained(MODEL_NAME)

# 3. 构建 ModelConfig，用于传递给 UnslothTrainer
unsloth_config = ModelConfig(
    model_name_or_path=MODEL_NAME,
    tokenizer=tokenizer,
    config=model_config,
)

# 4. 加载并预处理数据集
from datasets import load_dataset

dataset = load_dataset('json', data_files={'train': 'train.jsonl', 'validation': 'valid.jsonl'})

# 将对话拼接成 <prompt> + <sep> + <completion> 形式，交给 DataCollator

def preprocess_function(examples):
    inputs = []
    for p, c in zip(examples['prompt'], examples['completion']):
        text = p + tokenizer.eos_token + c + tokenizer.eos_token
        inputs.append(text)
    model_inputs = tokenizer(inputs, max_length=1024, truncation=True)
    # labels 同样是 input_ids，Unsloth 将自动进行 shift
    model_inputs['labels'] = model_inputs['input_ids'].copy()
    return model_inputs

tokenized_dataset = dataset.map(
    preprocess_function,
    batched=True,
    remove_columns=['prompt', 'completion'],
)

# 5. 创建 DataCollator，动态 padding

data_collator = DataCollator(tokenizer=tokenizer, mlm=False)

# 6. 定义 Trainer 超参数

trainer = UnslothTrainer(
    model_config=unsloth_config,
    train_dataset=tokenized_dataset['train'],
    eval_dataset=tokenized_dataset['validation'],
    data_collator=data_collator,
    output_dir=OUTPUT_DIR,
    per_device_train_batch_size=4,      # 根据显存调整
    per_device_eval_batch_size=4,
    num_train_epochs=3,
    learning_rate=5e-5,
    warmup_steps=100,
    logging_steps=50,
    evaluation_steps=200,
    save_steps=500,
    fp16=True,                         # 启用混合精度
)

# 7. 启动训练
if __name__ == "__main__":
    trainer.train()
    # 保存最终模型
    trainer.save_model(OUTPUT_DIR)

代码说明

加载 Tokenizer 与 Config：
- AutoTokenizer.from_pretrained 加载 Qwen-3 的分词器；
- AutoConfig.from_pretrained 加载模型默认配置（如隐藏层数、头数等）。
数据预处理：
- 通过 dataset.map 对每条示例进行拼接，将 prompt + eos + completion + eos，保证模型输入包含完整对话；
- max_length=1024 表示序列最大长度，超过则截断；
- labels 字段即为 input_ids 副本，Unsloth 会自动做下采样与 mask。
DataCollator：
- 用于动态 padding，保证同一 batch 内序列对齐；
- mlm=False 表示不进行掩码语言模型训练，因为我们是生成式任务。
UnslothTrainer：
- train_dataset 与 eval_dataset 分别对应训练/验证数据；
- per_device_train_batch_size：每卡的 batch size，根据 GPU 显存可自行调整；
- fp16=True 启用混合精度训练，能大幅减少显存占用，提升速度。
- logging_steps、evaluation_steps、save_steps：分别控制日志输出、验证频率与模型保存频率。
启动训练：
- 运行 python finetune_qwen3_unsloth.py 即可开始训练；
- 训练过程中会在 OUTPUT_DIR 下生成 checkpoint-* 文件夹，保存中间模型。
- 训练结束后，调用 trainer.save_model 将最终模型保存到指定目录。

七、训练与评估详解

1. 训练监控指标

Loss（训练损失）：衡量模型在训练集上的表现，值越低越好。每 logging_steps 输出一次。
Eval Loss（验证损失）：衡量模型在验证集上的泛化能力。每 evaluation_steps 输出一次，通常用于判断是否出现过拟合。
Learning Rate（学习率）：预热（warmup）后逐步衰减，有助于稳定训练。

在训练日志中，你会看到类似：

Step 50/1000 -- loss: 3.45 -- lr: 4.5e-05
Step 100 -- eval_loss: 3.12 -- perplexity: 22.75

当验证损失不再下降，或者出现震荡时，可考虑提前停止训练（Early stopping），以免过拟合。

2. 常见问题排查

显存不足：
- 降低 per_device_train_batch_size；
- 启用 fp16=True 或者使用梯度累积 (gradient_accumulation_steps)；
- 缩减 max_length。
训练速度过慢：
- 使用多卡训练（需在命令前加 torchrun --nproc_per_node=2 等）；
- 减小 logging_steps 会导致更多 I/O，适当调大可提升速度；
- 确保 SSD 读写速度正常，避免数据加载瓶颈。
模型效果不佳：
- 检查数据质量，清洗偏低质量示例；
- 增加训练轮次 (num_train_epochs)；
- 调整学习率，如果损失波动过大可适当降低。

八、推理与部署示例

微调完成后，我们可以用下面示例代码加载模型并进行推理：

# file: inference_qwen3.py
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# 1. 加载微调后模型
MODEL_PATH = "./qwen3_finetuned"

tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
model = AutoModelForCausalLM.from_pretrained(MODEL_PATH).half().cuda()

# 2. 定义生成函数

def generate_reply(user_input, max_length=256, temperature=0.7, top_p=0.9):
    prompt_text = user_input + tokenizer.eos_token
    inputs = tokenizer(prompt_text, return_tensors="pt").to("cuda")
    # 设置生成参数
    output_ids = model.generate(
        **inputs,
        max_new_tokens=max_length,
        temperature=temperature,
        top_p=top_p,
        do_sample=True,
        eos_token_id=tokenizer.eos_token_id,
        pad_token_id=tokenizer.eos_token_id,
    )
    # 解码并去除 prompt 部分
    generated = tokenizer.decode(output_ids[0][inputs['input_ids'].shape[-1]:], skip_special_tokens=True)
    return generated

# 3. 测试示例
if __name__ == "__main__":
    while True:
        user_input = input("用户：")
        if user_input.strip() == "exit":
            break
        reply = generate_reply(user_input)
        print(f"AI：{reply}")

推理说明

加载微调模型：调用 AutoTokenizer 与 AutoModelForCausalLM.from_pretrained 加载保存目录；
**.half() 转成半精度，有助于加速推理；
.cuda() 将模型加载到 GPU；
generate() 参数：
- max_new_tokens：生成最大 token 数；
- temperature 与 top_p 控制采样策略；
- eos_token_id、pad_token_id 统一使用 EOS。
进入交互式循环，用户输入后生成 AI 回复。

九、小技巧与常见问题

数据量与效果关系：
- 数据量越大，模型越能捕捉更多对话场景；
- 若你的场景较为单一，甚至数百示例就能达到不错效果。
梯度累积：当显存受限时，可配置：

trainer = UnslothTrainer(
    ...
    per_device_train_batch_size=1,
    gradient_accumulation_steps=8,  # 1*8=8 相当于 batch_size=8
    fp16=True,
)

学习率调节：常用范围 1e-5 ~ 5e-5；可以先尝试 5e-5，如果 loss 大幅波动则降低到 3e-5。
冻结部分层数：如果你希望更快收敛且保存已有知识，可以只微调最后几层。示例：

for name, param in model.named_parameters():
    if "transformer.h.[0-21]" in name:  # 假设总共有 24 层，只微调最后 2 层
        param.requires_grad = False

混合精度（FP16）：
- 在 trainer = UnslothTrainer(..., fp16=True) 即可开启；
- 可显著降低显存占用并加速训练，但需确认显卡支持。
分布式训练：
- 若有多卡可通过 torchrun 启动：
```
torchrun --nproc_per_node=2 finetune_qwen3_unsloth.py
```
- Unsloth 会自动检测并分配多卡。

十、闭环升级与展望

持续更新数据：随着线上对话不断积累，定期收集新的对话示例，将其追加至训练集，进行增量微调。
指令微调（Instruction Tuning）：可在对话外加入系统指令（如“你是客服机器人，请用简洁语句回答”），提升模型一致性。
多语言支持：Qwen-3 本身支持多语种，如需多语言客服，可混合不同语种示例进行训练。
模型蒸馏：若要部署到边缘设备，可通过蒸馏技术将 Qwen-3 蒸馏为更小的版本。

结语

通过本篇教程，你已经掌握了：

Qwen-3 的微调全流程；
Unsloth 框架的核心用法；
PyTorch 下训练与推理的最佳实践；
常见调参技巧与问题排查。

接下来，你可以根据自身业务场景，自由扩展数据与训练策略，打造属于自己的高质量 AI 模型。如果你希望进一步了解更复杂的流水线集成（如结合 FastAPI 部署、A/B 测试等），也可以继续交流。祝你微调顺利，项目成功！

- 阅读更多 -

本地部署 DeepSeek 完整教程

System

2025-02-10

所有,AIGC

本地部署 DeepSeek 完整教程

1. 引言

DeepSeek 是一款强大的大语言模型（LLM），适用于多种自然语言处理任务。如果你想在本地运行 DeepSeek，可以使用 Ollama 这款工具，它可以帮助你轻松下载和运行 DeepSeek 模型。

本教程将详细介绍如何在本地部署 DeepSeek，包括工具安装、模型下载、运行以及一些常见问题的解决方案。

2. 安装 Ollama

Ollama 是一个用于在本地运行大模型的工具，支持 Windows、macOS 和 Linux。首先，我们需要安装 Ollama。

2.1 下载 Ollama

请访问 Ollama 官方网站并根据你的操作系统选择相应的安装包。

2.2 安装 Ollama

下载完成后，按照安装引导完成 Ollama 的安装。

2.3 验证安装

安装完成后，打开终端或命令提示符，输入以下命令检查 Ollama 是否正确安装：

ollama --version

如果终端正确显示版本号，说明 Ollama 已成功安装。

3. 下载并运行 DeepSeek 模型

Ollama 提供了多个 DeepSeek 模型版本，你可以根据自己的硬件配置选择合适的版本。

3.1 可用模型版本

模型名称	适用场景
`deepseek-r1:1.5b`	适用于低资源环境
`deepseek-r1:7b`	适用于中等配置
`deepseek-r1:8b`	适用于高性能计算
`deepseek-r1:14b`	适用于高端配置

3.2 运行模型

首次运行模型时，Ollama 会自动下载所需的文件。

运行 1.5B 版本：
```
ollama run deepseek-r1:1.5b
```
运行 7B 版本：
```
ollama run deepseek-r1:7b
```
运行 8B 版本：
```
ollama run deepseek-r1:8b
```
运行 14B 版本：
```
ollama run deepseek-r1:14b
```

当下载完成后，你可以在终端中与 DeepSeek 进行交互。

3.3 运行 DeepSeek 并进行交互

运行模型后，你可以开始输入问题或命令，例如：

ollama run deepseek-r1:7b

然后在终端中输入：

What is DeepSeek?

模型将返回相应的回答。

如果你想进行代码生成，可以输入：

Write a Python function to calculate Fibonacci sequence.

DeepSeek 将返回类似如下的代码：

def fibonacci(n):
    if n <= 0:
        return []
    elif n == 1:
        return [0]
    elif n == 2:
        return [0, 1]
    
    sequence = [0, 1]
    for i in range(2, n):
        sequence.append(sequence[i-1] + sequence[i-2])
    return sequence

print(fibonacci(10))

4. 不同操作系统的部署方法

4.1 Windows 部署

下载并安装 Ollama。
打开 PowerShell 或命令提示符。
运行 DeepSeek 模型，例如：
```
ollama run deepseek-r1:7b
```

4.2 macOS 部署

通过 Homebrew 安装 Ollama：
```
brew install ollama
```
运行 DeepSeek 模型：
```
ollama run deepseek-r1:7b
```

4.3 Linux 部署

下载 Ollama 并解压缩。
运行以下命令安装：
```
sudo mv ollama /usr/local/bin/
```
运行 DeepSeek：
```
ollama run deepseek-r1:7b
```

5. 解决常见问题

5.1 更改模型存储路径

默认情况下，Ollama 会将模型存储在 C 盘。如果你希望更改存储位置，可以使用环境变量 OLLAMA_MODELS 指定新的存储路径。例如：

export OLLAMA_MODELS=/your/new/path

然后重新运行 Ollama。

5.2 AMD 显卡支持

如果你使用的是 AMD 显卡，需要安装 ROCm，并使用 ollama 运行时指定 --backend rocm 选项。例如：

ollama run deepseek-r1:7b --backend rocm

5.3 运行时遇到内存不足问题

如果你在运行 DeepSeek 时遇到内存不足的问题，可以尝试以下优化方法：

使用较小版本的 DeepSeek，如 deepseek-r1:1.5b
增加虚拟内存（Swap）
关闭其他占用 GPU 资源的进程
在 ollama run 命令后添加 --num-gpu-layers 10 来减少 GPU 占用

ollama run deepseek-r1:7b --num-gpu-layers 10

6. 结论

通过本教程，你已经学会了如何在本地安装、下载并运行 DeepSeek 模型。你可以根据自己的需求选择合适的模型，并使用可视化 WebUI 进行交互。同时，我们还介绍了一些优化方案，希望本教程对你有所帮助！

System

2025-01-01

所有,python,AIGC

深入理解深度参数连续卷积神经网络（Deep Parametric Continuous Convolutional Neural Network）

深度学习中的卷积神经网络（CNN）已被广泛应用于计算机视觉、自然语言处理和语音识别等领域。随着技术的进步，越来越多的变种CNN应运而生，其中之一便是深度参数连续卷积神经网络（Deep Parametric Continuous Convolutional Neural Network, DPC-CNN）。这种网络将参数化的连续函数引入卷积操作，试图通过更灵活的方式建模数据，进而提升性能。

本篇文章将深入探讨DPC-CNN的原理、应用和实现，帮助你更好地理解这一创新网络结构。

1. 什么是深度参数连续卷积神经网络（DPC-CNN）？

1.1 基本概念

传统的卷积神经网络（CNN）依赖离散的卷积核（filter），在输入数据上滑动进行卷积操作。卷积核在每次滑动时会进行一定的参数计算，生成新的特征图。这种方法虽然有效，但它的卷积核权重通常是固定的，限制了网络对输入数据的适应能力。

而深度参数连续卷积神经网络（DPC-CNN）的创新之处在于，采用了连续函数来替代离散的卷积核。这些连续函数是可学习的参数化函数，能够根据数据的特性灵活调整，从而更好地捕捉输入数据中的特征。

1.2 主要特点

参数化的连续卷积核：通过将卷积操作参数化为连续函数，网络可以更灵活地建模数据。
深度网络结构：DPC-CNN通常采用更深的网络结构来捕捉复杂的特征和数据模式。
更好的泛化能力：由于参数化的卷积操作可以根据数据分布动态调整，DPC-CNN通常具有更强的泛化能力。

2. DPC-CNN的数学原理

2.1 传统卷积操作

在传统的卷积神经网络中，卷积操作可以表示为：

y(t) = \sum_{k} x(t-k) \cdot w(k)

其中：

$(x(t))$ 为输入信号，
$(w(k))$ 为卷积核（filter），
$(y(t))$ 为输出信号。

这种操作依赖于固定的离散卷积核 $(w(k))$ ，卷积核参数在训练过程中进行更新。

2.2 连续参数卷积

在DPC-CNN中，卷积核不再是离散的，而是通过连续的可参数化函数表示：

y(t) = \int_{-\infty}^{\infty} x(t-\tau) \cdot \varphi(\tau; \theta) d\tau

其中：

$(x(t))$ 为输入信号，
$(\varphi(\tau; \theta))$ 为连续的参数化卷积函数， $(\theta)$ 为函数的参数。

在这里， $(\varphi(\tau; \theta))$ 是一个可以通过学习得到的函数，通常可以是如高斯函数、RBF（径向基函数）等连续函数。这种方法使得卷积操作变得更加灵活，可以更精确地拟合输入数据。

3. DPC-CNN的应用

DPC-CNN的引入，使得卷积神经网络在以下几个领域取得了显著的进展：

3.1 计算机视觉

通过引入连续的卷积核，DPC-CNN能够更加精确地提取图像中的局部特征，尤其是在处理高分辨率图像或噪声较大的数据时，展现出了更好的性能。

3.2 自然语言处理

在NLP任务中，DPC-CNN能够通过灵活的卷积核学习文本中的语法和语义结构。尤其在情感分析和文本分类任务中，DPC-CNN能够比传统CNN表现得更好。

3.3 时间序列分析

DPC-CNN适合处理连续的时间序列数据，尤其是在金融预测、天气预测等应用中，能够通过动态调整卷积核的参数来捕捉长期依赖关系。

4. DPC-CNN的实现

接下来，我们通过Python代码实现一个简单的DPC-CNN模型。

4.1 代码实现

在这个示例中，我们将使用PyTorch来实现DPC-CNN的核心卷积操作，并训练一个简单的模型。

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
import matplotlib.pyplot as plt

# 定义参数化的连续卷积核
class ParametricConv1d(nn.Module):
    def __init__(self, in_channels, out_channels, kernel_size):
        super(ParametricConv1d, self).__init__()
        self.kernel_size = kernel_size
        # 学习得到的权重
        self.theta = nn.Parameter(torch.randn(out_channels, kernel_size, in_channels))
    
    def forward(self, x):
        # 使用卷积操作
        return nn.functional.conv1d(x, self.theta)

# 构建DPC-CNN模型
class DPC_CNN(nn.Module):
    def __init__(self):
        super(DPC_CNN, self).__init__()
        self.conv1 = ParametricConv1d(1, 32, 5)
        self.fc1 = nn.Linear(32, 10)
    
    def forward(self, x):
        x = self.conv1(x)
        x = torch.relu(x)
        x = x.view(x.size(0), -1)  # Flatten
        x = self.fc1(x)
        return x

# 创建模拟数据
x = torch.randn(64, 1, 100)  # 64个样本，每个样本长度为100
y = torch.randint(0, 10, (64,))  # 随机生成标签

# 初始化模型和损失函数
model = DPC_CNN()
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 训练模型
for epoch in range(100):
    optimizer.zero_grad()
    output = model(x)
    loss = criterion(output, y)
    loss.backward()
    optimizer.step()

    if (epoch + 1) % 10 == 0:
        print(f"Epoch [{epoch+1}/100], Loss: {loss.item():.4f}")

# 测试模型
output = model(x)
print("Final Output:", output[:5])

4.2 代码解读

ParametricConv1d 类：这是DPC-CNN中的核心卷积操作。与传统卷积不同，我们通过参数化的卷积核 $( \theta )$ 来学习卷积操作。
DPC_CNN 类：这是整个DPC-CNN模型，包括一个参数化卷积层和一个全连接层。输入数据经过卷积层后，通过激活函数ReLU进行非线性变换，再通过全连接层进行最终分类。
训练与优化：使用Adam优化器和交叉熵损失函数来训练模型。

5. 图解：DPC-CNN的工作原理

图 1：DPC-CNN架构

Input (Data) → Parametric Conv1d → Activation (ReLU) → Flatten → Fully Connected Layer → Output

输入数据经过参数化卷积操作生成特征图。
激活函数（ReLU）使得模型具有非线性能力。
数据被flatten（展平）后送入全连接层，进行最终的分类。

6. 总结

深度参数连续卷积神经网络（DPC-CNN）是卷积神经网络的一种创新变种，它通过引入参数化的连续卷积核，使得卷积操作更加灵活，能够适应更加复杂的数据模式。DPC-CNN不仅适用于图像数据，还可以扩展到时间序列分析和自然语言处理等领域。

通过Python代码示例，我们演示了如何实现一个简单的DPC-CNN模型，并展示了其在模型训练中的使用。希望本文的讲解和代码示例能够帮助你更好地理解DPC-CNN的原理和应用。

- 阅读更多 -

深入理解机器学习中的投影透视（Projection Perspective）

System

2025-01-01

所有,python,AIGC

深入理解机器学习中的投影透视（Projection Perspective）

投影透视（Projection Perspective）是机器学习中的一种重要概念，尤其在数据预处理、降维和特征提取等任务中发挥着关键作用。理解投影透视及其在机器学习中的应用，可以帮助我们更好地处理高维数据、提高模型性能以及做出准确的预测。本篇文章将详细讲解投影透视的原理、应用及代码实现，并通过图解和实例帮助你更容易理解。

1. 什么是投影透视（Projection Perspective）？

投影透视（Projection Perspective）是指将高维数据映射到低维空间的过程。具体来说，数据在多维空间中的分布通常较为复杂，投影透视帮助我们将其映射到更简单、更易理解的低维空间。投影不仅能减少计算量，还能通过去除冗余信息，使得模型在训练和推理过程中更加高效。

在几何学中，投影通常是指通过某种映射规则将一个几何体的点映射到一个平面或直线上。在机器学习中，投影透视通常指的是通过某些方法（如主成分分析PCA）将高维数据映射到一个低维子空间。

2. 投影透视的应用

投影透视在机器学习中有多种应用，常见的包括：

降维：通过投影透视将高维数据映射到低维空间，降低数据的维度，从而减轻计算负担。
特征选择：通过投影方式选择与目标变量相关的特征。
数据可视化：将高维数据投影到二维或三维空间，帮助我们更好地理解数据的结构和分布。

2.1 降维

投影透视最常见的应用之一是降维。在高维数据中，某些维度的变化可能不显著或对模型性能没有贡献，投影可以去除这些冗余信息，简化数据处理。

2.2 特征选择

通过投影透视，我们可以找到数据中最具代表性、最能解释数据结构的特征，进一步优化模型性能。

2.3 数据可视化

高维数据通常难以理解和可视化。通过将数据投影到二维或三维空间，可以使数据的模式和结构变得更加清晰。

3. 常见的投影方法

3.1 主成分分析（PCA）

PCA 是一种广泛使用的投影方法，它通过寻找数据中方差最大的方向，来将数据投影到一个新的坐标轴上，从而降维。PCA的目标是保留数据的最重要特征，同时减少冗余信息。

PCA原理：

PCA的基本思想是找到数据协方差矩阵的特征值和特征向量，然后选择最大特征值对应的特征向量作为主成分。通过这些主成分，我们可以将数据从高维空间投影到低维空间。

Python实现（PCA）：

import numpy as np
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification

# 创建一个模拟数据集
X, y = make_classification(n_samples=100, n_features=5, random_state=42)

# 使用PCA进行降维
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

# 可视化降维结果
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap='viridis')
plt.title("PCA: Projected 2D View")
plt.xlabel("Principal Component 1")
plt.ylabel("Principal Component 2")
plt.colorbar()
plt.show()

解释：

生成了一个有5个特征的模拟数据集。
使用PCA将数据降维至2D。
可视化了降维后的数据，其中颜色代表不同的类别。

3.2 线性判别分析（LDA）

LDA（Linear Discriminant Analysis）是另一种常用的投影方法，它不仅考虑数据的方差，还考虑类间的差异，目标是使得类间距离尽可能远，类内距离尽可能近，从而进行有效的分类。

LDA原理：

LDA通过寻找最大化类间散度矩阵与类内散度矩阵之比的投影方向来进行降维。

Python实现（LDA）：

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

# 使用LDA进行降维
lda = LinearDiscriminantAnalysis(n_components=2)
X_lda = lda.fit_transform(X, y)

# 可视化降维结果
plt.scatter(X_lda[:, 0], X_lda[:, 1], c=y, cmap='viridis')
plt.title("LDA: Projected 2D View")
plt.xlabel("Linear Discriminant 1")
plt.ylabel("Linear Discriminant 2")
plt.colorbar()
plt.show()

解释：

与PCA不同，LDA考虑了数据的类别信息。
投影后数据的类别分布更加分散，有助于提高分类的准确性。

4. 投影透视的数学推导

4.1 PCA数学推导

PCA的目标是寻找一个变换矩阵 $( W )$ ，使得原始数据 $( X )$ 投影到新的坐标系中，使得投影后的数据方差最大。假设我们有一个数据集 $( X \in \mathbb{R}^{n \times m} )$ ，其中 $( n )$ 为样本数， $( m )$ 为特征数。PCA的步骤如下：

数据中心化：去除数据的均值，使得每一维的数据均值为0。

X_{centered} = X - \mu

其中 $( \mu )$ 为数据的均值。

计算协方差矩阵：

\Sigma = \frac{1}{n-1} X_{centered}^T X_{centered}

特征分解：计算协方差矩阵的特征值和特征向量。

\Sigma v = \lambda v

其中 $( v )$ 为特征向量， $( \lambda )$ 为对应的特征值。

选择最大的特征值对应的特征向量，得到变换矩阵 $( W )$ 。
投影数据：

X_{pca} = X_{centered} W

5. 图解投影透视

图 1：PCA投影

High-dimensional Data -> PCA -> Lower-dimensional Data

图解说明：

高维数据通过PCA投影到二维空间，保留了数据的主要特征和方差。
经过降维处理后，数据的分布更加简洁和易于理解。

图 2：LDA投影

High-dimensional Data -> LDA -> Low-dimensional Space with Maximum Class Separation

图解说明：

LDA不仅进行降维，同时保证不同类别的投影分布尽可能远离，优化分类效果。

6. 总结

投影透视是机器学习中处理高维数据的一个重要技术，能够通过将数据映射到低维空间来简化问题和提高模型性能。常见的投影方法包括：

PCA：通过最大化数据方差来降维，适用于无监督学习和数据可视化。
LDA：通过最大化类间差异来降维，适用于分类问题。

通过合理应用投影透视方法，能有效减少计算量、提高数据可视化效果并优化机器学习模型的性能。

- 阅读更多 -

深入理解情绪分析中的方面建模（Aspect Modeling）

System

2025-01-01

所有,python,AIGC

深入理解情绪分析中的方面建模（Aspect Modeling）

情绪分析（Sentiment Analysis）是自然语言处理中的经典任务，用于理解文本中的主观性和情感倾向。方面建模（Aspect Modeling） 是情绪分析的一个重要分支，旨在识别文本中涉及的不同主题或方面，并分析其情绪倾向。本教程将通过代码示例、图解和详细说明，带你深入理解方面建模的核心原理和应用。

1. 什么是方面建模？

方面建模是一种在文本中定位特定主题（如产品功能）并评估其情感倾向的技术。例如，在以下评论中：

"The camera quality is excellent, but the battery life is disappointing."

方面 1：Camera quality
- 情感：正向
方面 2：Battery life
- 情感：负向

方面建模通常包括以下步骤：

方面提取（Aspect Extraction）：定位文本中的方面词。
情感分析（Sentiment Analysis）：判断每个方面的情感倾向。

2. 方面建模的方法

2.1 基于规则的方法

通过手动定义规则和关键词来提取方面。

优点

简单易实现。
适合领域有限的任务。

缺点

依赖领域知识。
难以扩展到多语言和多领域。

2.2 机器学习方法

将方面建模看作分类或序列标注任务，常用技术包括：

支持向量机（SVM）
条件随机场（CRF）
朴素贝叶斯

2.3 深度学习方法

深度学习能够自动学习文本中的特征，常用模型包括：

双向 LSTM
Transformer
Bert 模型

3. 实现方面建模的步骤

3.1 数据准备

我们使用一个简单的评论数据集：

data = [
    "The camera is great but the battery is poor.",
    "I love the screen resolution, but the price is too high.",
    "The sound quality is amazing, but the controls are confusing."
]

3.2 方面提取示例

我们可以使用依存解析（Dependency Parsing）来提取方面词。

Python 实现

import spacy

# 加载 Spacy 英文模型
nlp = spacy.load("en_core_web_sm")

# 定义数据
data = [
    "The camera is great but the battery is poor.",
    "I love the screen resolution, but the price is too high.",
    "The sound quality is amazing, but the controls are confusing."
]

# 提取方面词
for sentence in data:
    doc = nlp(sentence)
    print(f"Sentence: {sentence}")
    for token in doc:
        if token.dep_ in ("nsubj", "attr", "dobj"):
            print(f" - Aspect: {token.text}")

输出：

Sentence: The camera is great but the battery is poor.
 - Aspect: camera
 - Aspect: battery
Sentence: I love the screen resolution, but the price is too high.
 - Aspect: resolution
 - Aspect: price
Sentence: The sound quality is amazing, but the controls are confusing.
 - Aspect: quality
 - Aspect: controls

3.3 情感分析示例

使用 Vader 分析器

from nltk.sentiment.vader import SentimentIntensityAnalyzer
import nltk

nltk.download('vader_lexicon')
analyzer = SentimentIntensityAnalyzer()

# 情感分析
for sentence in data:
    sentiment = analyzer.polarity_scores(sentence)
    print(f"Sentence: {sentence}")
    print(f" - Sentiment: {sentiment}")

输出：

Sentence: The camera is great but the battery is poor.
 - Sentiment: {'neg': 0.293, 'neu': 0.442, 'pos': 0.265, 'compound': -0.25}
Sentence: I love the screen resolution, but the price is too high.
 - Sentiment: {'neg': 0.204, 'neu': 0.531, 'pos': 0.265, 'compound': 0.05}
Sentence: The sound quality is amazing, but the controls are confusing.
 - Sentiment: {'neg': 0.217, 'neu': 0.42, 'pos': 0.363, 'compound': 0.25}

4. 深度学习实现方面建模

我们可以利用预训练语言模型（如 BERT）来完成方面建模任务。以下是一个简单的示例：

数据预处理

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

# 示例句子
sentences = [
    "The camera is great but the battery is poor.",
    "I love the screen resolution, but the price is too high."
]

# Tokenization
for sentence in sentences:
    inputs = tokenizer(sentence, return_tensors="pt", truncation=True, padding=True)
    print(inputs)

模型训练（简要）

from transformers import BertForSequenceClassification, AdamW

# 模型加载
model = BertForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=3)

# 优化器
optimizer = AdamW(model.parameters(), lr=1e-5)

# 模型训练代码略，具体请参考 Hugging Face 文档

5. 图解方面建模

图 1：方面提取

文本句子通过依存解析器提取关键的方面词：

Input Sentence: "The camera is great but the battery is poor."
Dependency Tree:
[Root] --> camera (Aspect)
      --> battery (Aspect)

图 2：情感分析

对于每个提取的方面，分析其情感：

- Aspect: Camera -> Positive Sentiment
- Aspect: Battery -> Negative Sentiment

6. 总结

方面建模 是情绪分析的重要组成部分，用于细粒度的情绪理解。
方法对比：
- 基于规则的方法简单直观，但扩展性差。
- 机器学习和深度学习方法在准确性和适应性上有明显优势。
代码实现：
- 通过 Spacy 提取方面。
- 使用 Vader 或 BERT 进行情感分析。

你可以根据具体应用场景调整模型和方法，以更好地满足需求。

System

2025-01-01

所有,python,AIGC

布尔模型（Boolean Model）与向量空间模型（Vector Space Model）问题求解

信息检索是处理大规模文本数据的关键技术，其中布尔模型（Boolean Model） 和 向量空间模型（Vector Space Model） 是两种经典方法。本文将详细讲解两种模型的理论基础，并通过代码示例和图解展示如何应用这些模型解决信息检索问题。

1. 布尔模型（Boolean Model）

1.1 定义

布尔模型是一种基于布尔逻辑的检索模型，假设查询由布尔运算符（如 AND, OR, NOT）连接的关键字组成。文档表示为二元向量（0 或 1），表示是否包含某一关键字。

优点：
- 简单直观。
- 查询精确。
缺点：
- 不支持部分匹配。
- 结果排序困难。

1.2 布尔模型检索示例

假设有以下文档集：

D1: "Machine learning is fun."
D2: "Deep learning is a subset of machine learning."
D3: "Python is great for machine learning."

关键词集合为 {machine, learning, deep, python}。

构造布尔矩阵

Document	machine	learning	deep	python
D1	1	1	0	0
D2	1	1	1	0
D3	1	1	0	1

查询示例

查询：machine AND learning AND NOT deep

Python 示例

import numpy as np

# 文档布尔矩阵
boolean_matrix = np.array([
    [1, 1, 0, 0],  # D1
    [1, 1, 1, 0],  # D2
    [1, 1, 0, 1]   # D3
])

# 查询条件
query = np.array([1, 1, 0, 0])  # "machine AND learning AND NOT deep"

# 布尔检索
results = np.all(boolean_matrix[:, :len(query)] >= query, axis=1)

# 输出匹配文档
matching_docs = np.where(results)[0] + 1
print(f"匹配的文档: D{matching_docs}")

输出：

匹配的文档: D1 D3

图解：
布尔模型将每个文档表示为关键词的布尔向量，通过布尔逻辑运算求解。

2. 向量空间模型（Vector Space Model）

2.1 定义

向量空间模型是一种基于余弦相似度的检索方法，将文档和查询表示为向量，计算它们的夹角余弦值以评估相似度。

计算公式

余弦相似度定义为：

\text{cosine\_similarity}(A, B) = \frac{\vec{A} \cdot \vec{B}}{\|\vec{A}\| \|\vec{B}\|}

其中：

$(\vec{A} \cdot \vec{B})$ 是向量点积。
$(|\vec{A}|)$ 是向量的欧几里得范数。

2.2 示例

假设我们仍然使用上面的文档集合，但改为词频向量：

Document	machine	learning	deep	python
D1	1	1	0	0
D2	1	1	1	0
D3	1	1	0	1

查询向量

查询：machine learning

\text{Query vector} = [1, 1, 0, 0]

Python 示例

from sklearn.metrics.pairwise import cosine_similarity
from sklearn.preprocessing import normalize
import numpy as np

# 文档向量矩阵
document_vectors = np.array([
    [1, 1, 0, 0],  # D1
    [1, 1, 1, 0],  # D2
    [1, 1, 0, 1]   # D3
])

# 查询向量
query_vector = np.array([[1, 1, 0, 0]])

# 计算余弦相似度
similarity_scores = cosine_similarity(document_vectors, query_vector)

# 输出相似度排名
ranking = np.argsort(-similarity_scores.flatten()) + 1
print(f"按相似度排名的文档: D{ranking}")

输出：

按相似度排名的文档: D1 D3 D2

图解：

文档向量和查询向量在高维空间中的位置。
余弦相似度通过夹角测量文档与查询的匹配程度。

3. 布尔模型与向量空间模型的对比

特性	布尔模型	向量空间模型
数据表示	布尔值（0 或 1）	实数值（词频或权重）
查询类型	精确匹配	模糊匹配
结果排序	无法排序	支持排序
计算复杂度	较低	较高
应用场景	适合简单查询	适合复杂查询

4. 实践应用场景

布尔模型：
- 法律文档检索：需要严格匹配特定的关键词。
- 电子邮件过滤：匹配特定规则。
向量空间模型：
- 搜索引擎：根据用户查询返回相关性排序的结果。
- 文本推荐系统：根据相似度推荐相关内容。

5. 总结

布尔模型 提供了一个简单的二元匹配方法，适用于需要精确匹配的场景。
向量空间模型 通过余弦相似度实现模糊匹配，适合复杂搜索需求。

两者各有优缺点，可根据实际需求选择或结合使用。

通过本文的代码示例和图解，你应该对布尔模型和向量空间模型有了更加直观的理解。如果想进一步研究，可以尝试实现基于 TF-IDF 的向量空间模型或扩展布尔模型以支持权重匹配。

System

2025-01-01

所有,python,AIGC

特征向量计算（Eigenvector Computation）和低秩近似（Low-rank Approximations）详解

在线性代数和机器学习中，特征向量（Eigenvector） 和 低秩近似（Low-rank Approximations） 是两个重要的概念。它们广泛应用于降维、数据压缩、推荐系统等领域。本文将通过代码示例、图解和详细说明，帮助你更容易理解这些概念。

1. 特征向量与特征值

1.1 特征向量和特征值的定义

对于一个方阵 $( A )$ ，如果存在一个非零向量 $( v )$ 和一个标量 $( \lambda )$ ，使得：

A \cdot v = \lambda \cdot v

那么， $( v )$ 称为矩阵 $( A )$ 的特征向量（Eigenvector）， $( \lambda )$ 是对应的特征值（Eigenvalue）。

1.2 特征向量的意义

特征向量表示变换后方向不变的向量。
特征值表示特征向量被拉伸或缩放的比例。

1.3 Python 示例：计算特征值和特征向量

我们使用 NumPy 库来计算特征值和特征向量：

import numpy as np

# 定义矩阵 A
A = np.array([[4, 2],
              [1, 3]])

# 计算特征值和特征向量
eigenvalues, eigenvectors = np.linalg.eig(A)

print("特征值:")
print(eigenvalues)
print("特征向量:")
print(eigenvectors)

输出：

特征值:
[5. 2.]
特征向量:
[[ 0.89442719 -0.70710678]
 [ 0.4472136   0.70710678]]

说明：

特征值是 $( 5 )$ 和 $( 2 )$ 。
对应的特征向量分别是 $([0.894, 0.447])$ 和 $([-0.707, 0.707])$ 。

1.4 图解特征向量和特征值

矩阵 $( A )$ 作用于一个向量时，会改变它的长度和方向，但对特征向量来说，方向保持不变，长度按特征值缩放。

图示：
- 原始向量和变换后的向量。
- 特征向量与特征值对应的缩放效果。

2. 低秩近似（Low-rank Approximations）

2.1 什么是低秩近似？

低秩近似是通过保留矩阵的主要信息，使用一个较低秩的矩阵近似原始矩阵的方法。在降维和数据压缩中尤为重要，例如：

图像压缩
主成分分析（PCA）

2.2 奇异值分解（SVD）

奇异值分解（Singular Value Decomposition）是实现低秩近似的核心工具。

SVD 的定义

给定一个矩阵 $( A )$ ，其 SVD 分解为：

A = U \Sigma V^T

$( U )$ 和 $( V )$ 是正交矩阵。
$( \Sigma )$ 是对角矩阵，包含奇异值。

2.3 Python 示例：SVD 和低秩近似

以下代码展示如何使用 SVD 进行低秩近似：

from numpy.linalg import svd

# 示例矩阵
A = np.array([[3, 2, 2],
              [2, 3, -2]])

# 奇异值分解
U, S, VT = svd(A)

# 保留前两个奇异值构造低秩近似
k = 2  # 低秩
S_k = np.zeros((k, k))
np.fill_diagonal(S_k, S[:k])

U_k = U[:, :k]
VT_k = VT[:k, :]

A_low_rank = U_k @ S_k @ VT_k

print("原始矩阵:")
print(A)
print("低秩近似矩阵:")
print(A_low_rank)

输出：

原始矩阵:
[[ 3  2  2]
 [ 2  3 -2]]
低秩近似矩阵:
[[ 3.  2.  2.]
 [ 2.  3. -2.]]

2.4 图解低秩近似

原始矩阵的高维表示：矩阵的全秩表示。
低秩近似的简化表示：矩阵的低秩近似如何降低数据复杂度，同时保持大部分信息。

3. 特征向量与低秩近似的关系

PCA：通过特征向量和奇异值分解实现降维。PCA 中，特征向量用于构造主成分。
数据压缩：低秩近似通过去除次要成分，实现数据的高效存储和传输。

4. 应用场景

图像压缩：SVD 在图像处理中用于压缩和降噪。
推荐系统：低秩矩阵分解用于预测用户评分。
数据降维：PCA 使用特征向量进行降维分析。

5. 总结

特征向量和低秩近似是矩阵分解的核心工具，在理论和实践中都扮演着重要角色。通过特征向量理解数据的结构，通过低秩近似提取关键信息，可以为机器学习和数据科学提供强大的工具。

如果想更深入理解，可以进一步研究：

主成分分析（PCA）
奇异值分解（SVD）
高效的矩阵分解算法

- 阅读更多 -

使用 NLTK 进行 N-gram 语言建模详解

System

2025-01-01

所有,python,AIGC

使用 NLTK 进行 N-gram 语言建模详解

N-gram 是语言建模中的一种重要方法，用于捕捉文本序列中的上下文关系。它在自然语言处理中有广泛的应用，例如机器翻译、语音识别和文本生成。本文将介绍 N-gram 模型的基本原理，并通过 Python 的 NLTK（Natural Language Toolkit） 库详细讲解如何实现 N-gram 模型，包括代码示例和图解。

1. 什么是 N-gram 模型？

1.1 定义

N-gram 模型是一种基于概率的语言模型，它通过考虑前 $(N-1)$ 个词来预测当前词的出现概率。其公式如下：

P(w_1, w_2, \ldots, w_n) = P(w_1) \cdot P(w_2|w_1) \cdot P(w_3|w_1, w_2) \cdots P(w_n|w_{n-1})

为了简化计算，N-gram 模型假设 Markov 性，即当前词只与前 $(N-1)$ 个词相关：

P(w_n|w_1, w_2, \ldots, w_{n-1}) \approx P(w_n|w_{n-N+1}, \ldots, w_{n-1})

1.2 示例

对于一个句子：

I love natural language processing

1-gram: 每个词独立出现，例如： $(P(I), P(love), \ldots)$
2-gram: 考虑每两个相邻词的概率，例如： $(P(love|I), P(natural|love), \ldots)$
3-gram: 考虑每三个连续词的概率，例如： $(P(natural|I, love), \ldots)$

2. NLTK 实现 N-gram 模型

NLTK 是 Python 中一个功能强大的自然语言处理库，可以快速实现 N-gram 模型。

2.1 安装 NLTK

确保安装 NLTK：

pip install nltk

下载必要的数据包：

import nltk
nltk.download('punkt')
nltk.download('gutenberg')  # 可选，用于加载示例语料库

2.2 分词和生成 N-grams

以下代码展示了如何生成 N-grams：

from nltk import ngrams
from nltk.tokenize import word_tokenize

# 示例句子
sentence = "I love natural language processing"

# 分词
tokens = word_tokenize(sentence)

# 生成 2-gram
bigrams = list(ngrams(tokens, 2))
print("2-grams:", bigrams)

# 生成 3-gram
trigrams = list(ngrams(tokens, 3))
print("3-grams:", trigrams)

输出：

2-grams: [('I', 'love'), ('love', 'natural'), ('natural', 'language'), ('language', 'processing')]
3-grams: [('I', 'love', 'natural'), ('love', 'natural', 'language'), ('natural', 'language', 'processing')]

2.3 计算 N-gram 概率

以下代码基于频率计算 N-gram 概率：

from collections import Counter, defaultdict

# 构建频率分布
def compute_ngram_probabilities(tokens, n):
    ngrams_list = list(ngrams(tokens, n))
    ngram_counts = Counter(ngrams_list)
    context_counts = defaultdict(int)

    for ngram in ngrams_list:
        context = ngram[:-1]
        context_counts[context] += 1

    ngram_probabilities = {
        ngram: count / context_counts[ngram[:-1]]
        for ngram, count in ngram_counts.items()
    }
    return ngram_probabilities

# 示例：计算 2-gram 概率
tokens = word_tokenize(sentence)
bigram_probabilities = compute_ngram_probabilities(tokens, 2)

print("2-gram Probabilities:")
for bigram, prob in bigram_probabilities.items():
    print(f"{bigram}: {prob:.2f}")

输出示例：

2-gram Probabilities:
('I', 'love'): 1.00
('love', 'natural'): 1.00
('natural', 'language'): 1.00
('language', 'processing'): 1.00

2.4 用 N-gram 生成文本

以下代码展示如何用 N-gram 模型生成文本：

import random

def generate_text(start_word, ngram_probabilities, n, length=10):
    context = tuple([start_word] * (n - 1))
    text = list(context)

    for _ in range(length):
        candidates = {k[-1]: v for k, v in ngram_probabilities.items() if k[:-1] == context}
        if not candidates:
            break
        next_word = random.choices(list(candidates.keys()), weights=candidates.values())[0]
        text.append(next_word)
        context = tuple(text[-(n - 1):])  # 更新上下文
    return ' '.join(text)

# 示例：生成文本
start_word = "I"
generated_text = generate_text(start_word, bigram_probabilities, 2)
print("Generated Text:", generated_text)

3. 图解 N-gram 模型

3.1 N-gram 分解过程

通过图解展示 N-gram 的分解逻辑：

Sentence: "I love natural language processing"
1-gram: [I] [love] [natural] [language] [processing]
2-gram: [(I, love), (love, natural), (natural, language), (language, processing)]
3-gram: [(I, love, natural), (love, natural, language), (natural, language, processing)]

3.2 概率流

用有向图表示 N-gram 概率转移：

节点表示词语。
边权重表示转移概率。

例如，对于句子 I love natural 的 2-gram 模型：

I --> love (P=1.0)
love --> natural (P=1.0)

4. N-gram 模型的优缺点

4.1 优点

简单直观：实现容易，计算代价较低。
统计方法：不需要深度学习，只需文本数据。
可控性强：可自由选择 N 的大小。

4.2 缺点

稀疏性问题：随着 N 增大，数据稀疏问题更加严重。
上下文限制：无法捕捉长距离依赖关系。
数据依赖：对训练数据的分布敏感。

5. 总结

N-gram 模型是一种基础而经典的语言建模方法，它在许多 NLP 任务中有重要应用。通过本文的代码示例和图解，你可以轻松理解其基本原理、实现过程以及局限性。

扩展阅读：

平滑技术：如 Laplace 平滑、Kneser-Ney 平滑等，用于解决数据稀疏问题。
现代语言模型：探索基于 RNN 和 Transformer 的深度学习语言模型。

希望这篇文章能帮助你深入掌握 N-gram 语言建模！

- 阅读更多 -

深入理解霍普菲尔德神经网络（Hopfield Neural Network）

System

2025-01-01

所有,python,AIGC

深入理解霍普菲尔德神经网络（Hopfield Neural Network）

霍普菲尔德神经网络（Hopfield Neural Network, HNN）是一种基于能量函数的递归神经网络，用于存储模式和解决优化问题。它由约翰·霍普菲尔德提出，是人工神经网络领域的一个经典模型。

本文将详细讲解霍普菲尔德网络的核心原理、数学推导、应用场景以及代码实现，并配以图解帮助你更容易理解。

1. 霍普菲尔德神经网络的基本概念

1.1 网络结构

霍普菲尔德网络是一种完全对称的递归网络，具有以下特点：

所有神经元两两相连，并且连接权重对称，即 $(w_{ij} = w_{ji})$ 。
网络中没有自连接，即 $(w_{ii} = 0)$ 。
每个神经元的状态为离散值（通常是二进制的 $(-1, 1)$ 或 $(0, 1)$ ）。

1.2 工作原理

霍普菲尔德网络本质上是一个动态系统，通过状态更新来逐步降低其能量函数，最终收敛到一个稳定状态，代表存储的模式。

2. 数学模型

2.1 能量函数

霍普菲尔德网络的核心是一个能量函数 $(E)$ ，定义为：

E = -\frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N w_{ij} s_i s_j + \sum_{i=1}^N \theta_i s_i

其中：

$(w_{ij})$ ：神经元 $(i)$ 和 $(j)$ 之间的权重；
$(s_i)$ ：神经元 $(i)$ 的状态；
$(\theta_i)$ ：神经元 $(i)$ 的偏置。

能量函数描述了网络的稳定性：当网络状态更新时，能量函数单调递减，最终达到局部最小值。

2.2 状态更新规则

网络状态的更新遵循以下规则：

s_i(t+1) = \text{sgn}\left(\sum_{j=1}^N w_{ij} s_j(t) - \theta_i\right)

其中：

$(\text{sgn}(x))$ ：符号函数，返回 $(-1)$ 或 $(1)$ 。

更新过程中，每次仅改变一个神经元的状态。

3. 霍普菲尔德网络的应用

模式存储与恢复：存储若干模式，并在输入被部分破坏时恢复完整模式。
优化问题：如旅行商问题（TSP）、约束满足问题等。
联想记忆：输入部分信息，联想出完整模式。

4. 霍普菲尔德网络的实现

以下代码实现了霍普菲尔德网络的基本功能，包括训练和测试。

4.1 网络实现

import numpy as np

class HopfieldNetwork:
    def __init__(self, num_neurons):
        self.num_neurons = num_neurons
        self.weights = np.zeros((num_neurons, num_neurons))

    def train(self, patterns):
        """
        使用Hebbian学习规则训练网络
        """
        for pattern in patterns:
            pattern = np.reshape(pattern, (self.num_neurons, 1))
            self.weights += pattern @ pattern.T
        np.fill_diagonal(self.weights, 0)  # 自连接置为0

    def recall(self, pattern, steps=10):
        """
        恢复存储的模式
        """
        for _ in range(steps):
            for i in range(self.num_neurons):
                net_input = np.dot(self.weights[i], pattern)
                pattern[i] = 1 if net_input >= 0 else -1
        return pattern

# 示例：训练和恢复
patterns = [
    np.array([1, -1, 1, -1]),
    np.array([-1, 1, -1, 1])
]

network = HopfieldNetwork(num_neurons=4)
network.train(patterns)

# 输入部分破坏的模式
input_pattern = np.array([1, -1, 1, 1])
output_pattern = network.recall(input_pattern)
print("恢复的模式:", output_pattern)

4.2 可视化能量函数

以下代码可视化能量随状态变化的过程：

import matplotlib.pyplot as plt

def energy(weights, pattern):
    return -0.5 * pattern @ weights @ pattern.T

# 初始化模式和计算能量
input_pattern = np.array([1, -1, 1, 1])
energies = []
for _ in range(10):
    energy_value = energy(network.weights, input_pattern)
    energies.append(energy_value)
    input_pattern = network.recall(input_pattern, steps=1)

# 绘制能量曲线
plt.plot(energies, marker='o')
plt.title('Energy Decay Over Iterations')
plt.xlabel('Iteration')
plt.ylabel('Energy')
plt.show()

5. 图解霍普菲尔德网络

5.1 网络结构

每个节点表示一个神经元，节点之间的连线表示权重 $(w_{ij})$ 。

5.2 状态更新

通过更新单个神经元状态，网络逐步减少能量，收敛到稳定状态。

6. 注意事项与优化

存储容量：霍普菲尔德网络的存储容量为 $(0.15 \times N)$ （约为神经元数量的 15%）。
局部最小值：网络可能陷入局部最小值，导致恢复失败。
异步更新：状态更新通常采用异步方式，以确保单调减少能量。

7. 总结

霍普菲尔德神经网络是一种经典的递归网络，适用于模式存储与恢复、优化问题等场景。通过本文的讲解与代码示例，你应该能够理解其核心原理并应用于实际问题。结合图解，你可以更直观地理解其能量函数的动态变化以及状态更新过程。

System

2025-01-01

所有,python,AIGC

深入理解皮尔逊积差（Pearson Product Moment Correlation）

皮尔逊积差相关系数（Pearson Product Moment Correlation Coefficient，简称皮尔逊相关系数）是统计学和数据分析中最常用的一种度量方法，用于衡量两个变量之间的线性相关性。

本文将详细讲解皮尔逊积差的定义、计算方法、意义，并通过代码示例和图解帮助你更好地理解和应用。

1. 什么是皮尔逊积差相关系数？

定义

皮尔逊积差相关系数是一个介于 $(-1)$ 和 $(1)$ 之间的值，表示两个变量 $(X)$ 和 $(Y)$ 的线性相关程度：

1 表示完全正相关（X 增大，Y 也增大）。
-1 表示完全负相关（X 增大，Y 减小）。
0 表示无线性相关。

数学公式

r = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2 \cdot \sum_{i=1}^n (y_i - \bar{y})^2}}

$(x_i, y_i)$ ：样本点 $(i)$ 的值；
$(\bar{x}, \bar{y})$ ：变量 $(X, Y)$ 的均值；
$(n)$ ：样本数量。

直观理解

皮尔逊系数度量了数据点围绕最佳线性拟合直线的散布程度。

2. 皮尔逊相关系数的特点

范围限定： $( r \in [-1, 1] )$ 。
无量纲性：单位和量纲不会影响结果。
对线性关系敏感：只能度量线性相关性，无法衡量非线性关系。

3. 皮尔逊相关系数的计算步骤

计算 $(X)$ 和 $(Y)$ 的均值 $(\bar{x})$ 和 $(\bar{y})$ 。
计算 $(X, Y)$ 的偏差 $((x_i - \bar{x}))$ 和 $((y_i - \bar{y}))$ 。
计算协方差 $(\sum (x_i - \bar{x})(y_i - \bar{y}))$ 。
计算 $(X, Y)$ 的标准差 $(\sqrt{\sum (x_i - \bar{x})^2})$ 和 $(\sqrt{\sum (y_i - \bar{y})^2})$ 。
将协方差除以标准差的乘积，得到 $(r)$ 。

4. 代码实现

以下是一个计算皮尔逊相关系数的 Python 示例。

4.1 使用 NumPy 手动计算

import numpy as np

# 样本数据
x = np.array([10, 20, 30, 40, 50])
y = np.array([15, 25, 35, 45, 55])

# 均值
x_mean = np.mean(x)
y_mean = np.mean(y)

# 偏差
x_diff = x - x_mean
y_diff = y - y_mean

# 协方差
covariance = np.sum(x_diff * y_diff)

# 标准差
x_std = np.sqrt(np.sum(x_diff ** 2))
y_std = np.sqrt(np.sum(y_diff ** 2))

# 皮尔逊相关系数
pearson_corr = covariance / (x_std * y_std)
print(f"皮尔逊相关系数: {pearson_corr}")

输出

皮尔逊相关系数: 1.0

由于 $(X)$ 和 $(Y)$ 完全线性相关，系数为 1。

4.2 使用 SciPy 计算

from scipy.stats import pearsonr

# 使用 scipy 计算
corr, _ = pearsonr(x, y)
print(f"皮尔逊相关系数: {corr}")

4.3 可视化相关性

import matplotlib.pyplot as plt

# 数据可视化
plt.scatter(x, y, color='blue', alpha=0.7, label='Data Points')
plt.plot(x, y, color='red', label='Perfect Linear Fit')
plt.xlabel('X Values')
plt.ylabel('Y Values')
plt.title('Scatter Plot with Linear Fit')
plt.legend()
plt.show()

5. 图解皮尔逊相关系数

5.1 正相关（r = 1）

数据点完美排列成一条从左下到右上的直线。

5.2 负相关（r = -1）

数据点完美排列成一条从左上到右下的直线。

5.3 无相关（r = 0）

数据点分布完全随机，没有线性关系。

以下是对应的示意图：

+1: 完美正相关         -1: 完美负相关          0: 无相关
|       *                   *                     *
|      *                   *                     *
|     *                   *                     *
|    *                   *                     *
|   *                   *                     *
------------------   ------------------   ------------------

6. 皮尔逊相关系数的局限性

只衡量线性关系：无法表示非线性相关性。
对异常值敏感：异常值可能显著影响结果。
仅适用于连续变量：分类变量需要其他方法（如卡方检验）。

7. 应用场景

金融：分析股票收益之间的线性相关性。
医学：评估生理指标之间的关系（如血压和体重）。
机器学习：特征工程中筛选线性相关性较强的变量。

8. 总结

皮尔逊积差相关系数是分析变量之间线性关系的重要工具，理解其计算原理和适用场景是数据分析中的基础能力。通过本文的代码示例和图解，希望你能掌握皮尔逊相关系数的核心概念，并能够熟练应用到实际问题中。

- 阅读更多 -