Transformers Pipeline新探索：解锁文档视觉问答新技能‌

这篇文章距离上次修改已过207天，其中的内容可能已经有所变动。

Transformers Pipeline新探索：解锁文档视觉问答新技能

随着文档智能化需求的不断增长，仅靠传统的OCR或文本检索已难满足对结构化信息、表格数据和复杂排版的深度理解。Transformers Pipeline 中的文档视觉问答（Document Visual Question Answering，DVQA）能力，可在一张复杂文档图片（如发票、合同、报告）上，直接回答自然语言提问。本文将从背景原理、环境准备、代码示例、流程图解和详细说明几个方面，带你一步步掌握基于 Hugging Face Transformers 的文档视觉问答新技能。

背景与挑战
技术选型：模型与Pipeline概览
1. 常见模型：LayoutLMv3、Donut 等
2. Transformers Pipeline定义与优势
环境准备与依赖安装
文档视觉问答流程图解
核心代码示例
示例讲解：从发票图像到答案
进阶技巧与优化建议
常见问题与排查
小结

1. 背景与挑战

传统OCR结合关键词检索的方案，通常只能简单识别文本并按字符串进行匹配。当文档排版复杂（如多栏布局、表格、竖排文字），或需要“理解”上下文才能给出答案时，OCR+检索显得力不从心。例如：

发票场景：用户问“本次交易的金额是多少？”，OCR只能输出零散数字，难以知道哪个是“交易金额”。
合同场景：用户问“本合同的生效日期”，需要结合整页内容、表格或签章位置，OCR无法提炼。
报告场景：用户问“第3页第2栏表格A的值”，涉及图文定位、表格结构解析。

文档视觉问答（DVQA）通过多模态Transformer，可在理解图像布局与文字内容基础上，直接回答自然语言问题，将视觉与语言融合，解决上述挑战。

2. 技术选型：模型与Pipeline概览

2.1 常见模型：LayoutLMv3、Donut 等

目前主流DVQA模型可分为两类：

基于视觉+文本的联合Transformer
- LayoutLMv3：由微软提出，将图像特征（来自Vision Transformer）与文本特征（来自BERT）联合，在文档理解任务上表现优秀。可用于分类、实体抽取、表格理解，也可拓展为问答。
- LayoutLMv2、DocFormer：前两代模型，仍以联合特征为主。
端到端图像到文本生成模型
- Donut (Document Understanding Transformer)：由 NAVER CLOVA 提出，基于 Vision Encoder+Decoder 的架构，输入仅需文档图像和一个“prompt”（问题），可直接生成回答文本，无需OCR中间环节。
- XLayoutLM、TILT：类似思路，但Donut在零样本问答场景下表现尤为突出。

模型	后端能力	优势	劣势
LayoutLMv3	Vision Transformer + BERT	强大的布局+文本理解，丰富预训练任务	需OCR提取文本并对齐到视觉位置
Donut	Vision Encoder-Decoder (Seq2Seq)	端到端，可跳过OCR，直接从图像生成文本	模型量大，推理慢，对显存要求较高

2.2 Transformers Pipeline定义与优势

Hugging Face Transformers Pipeline 是一套封装常见NLP/多模态任务的高层API，只需一行代码即可完成加载、预处理、后处理、推理等全流程。针对DVQA，目前可选择以下Pipeline：

VisionTextDualEncoderPipeline（适用于LayoutLMv3问答场景，但需自定义预处理）
DocumentQuestionAnsweringPipeline（部分社区实现，用于Donut等端到端问答）
直接使用 Seq2SeqPipeline 或 VisionEncoderDecoderPipeline：在加载Donut模型时，将其视作图像→文本生成，以自定义prompt问答。

它的优势在于：

一站式封装：自动处理图像预处理、Tokenizer、输入对齐、模型调用、生成后处理，无须手动拼接。
多模型兼容：同一个Pipeline接口，可替换不同Checkpoint、后端（CPU/GPU）、量化模型。
快速上手：仅需几行Python代码，就能实现文档问答功能，无需关心底层细节。

3. 环境准备与依赖安装

以下示例基于 Python 3.8+，并推荐在有GPU的环境中运行，以获得更好性能。

# 1. 创建并激活虚拟环境（可选）
python3 -m venv dvqa_env
source dvqa_env/bin/activate

# 2. 安装核心依赖
pip install --upgrade pip
pip install torch torchvision --extra-index-url https://download.pytorch.org/whl/cu117  # 如果有CUDA 11.7
# 若无GPU或不需要GPU，可直接：
# pip install torch torchvision

# 3. 安装 transformers、datasets、Pillow 等
pip install transformers[torch] datasets pillow opencv-python matplotlib

# 4. 如果使用 Donut 模型，还需安装 vision-text dependencies
pip install ftfy sentencepiece

# 验证安装
python - <<EOF
from transformers import pipeline
print("Transformers 版本：", pipeline)
EOF

若在中国大陆使用，可加速源：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple transformers torch torchvision pillow opencv-python matplotlib datasets ftfy sentencepiece

4. 文档视觉问答流程图解

在深度学习框架下，文档视觉问答的整体流程可抽象为：

加载图像与问题
预处理（OCR或端到端视觉特征提取）
特征融合（视觉与语言）
编码/解码（Transformer推理）
生成/抽取答案
后处理并输出

以下用 Mermaid 流程图 表示两种典型场景：

使用LayoutLMv3（需OCR+文本对齐）
使用Donut（端到端无OCR）

flowchart TB
  subgraph LayoutLMv3问答
    A1[输入文档图像] --> B1[OCR提取文字+位置信息]
    B1 --> C1[文本与视觉特征编码]
    C1 --> D1[LayoutLMv3多模态Encoder]
    D1 --> E1[Question表示拼接至Token序列]
    E1 --> F1[TransformerDecoder/Head 输出答案]
    F1 --> G1[后处理：解码成自然语言]
    G1 --> H1[输出答案]
  end

  subgraph Donut端到端问答
    A2[输入文档图像] --> B2[Vision Encoder提取图像特征]
    B2 --> C2[Prompt（例如：“问：发票金额？答：”）]
    C2 --> D2[Vision→Text Transformer生成]
    D2 --> E2[输出答案文本]
    E2 --> F2[后处理：清理特殊Token等]
    F2 --> G2[输出答案]
  end

LayoutLMv3 依赖OCR（如Tesseract、EasyOCR）提取文本与位置信息，然后与图像patch一起输入多模态Transformer；处理较复杂，但架构思路清晰。
Donut 模型将整张图像输入至Vision Encoder，再根据“Prompt”直接生成答案，无需OCR，对输入图像格式与模型prompt拼接较为敏感。

5. 核心代码示例

以下示例将演示两种Pipeline的调用方式，分别对应LayoutLMv3与Donut模型的文档视觉问答。

5.1 加载Pipeline进行推理

5.1.1 LayoutLMv3 + OCR方案

安装OCR库（可选多种实现，此处以 easyocr 为例）
```
pip install easyocr
```

加载OCR与LayoutLMv3模型

from transformers import LayoutLMv3Processor, LayoutLMv3ForQuestionAnswering
import easyocr
import torch
from PIL import Image

# 1. 初始化OCR Reader
ocr_reader = easyocr.Reader(['en','ch_sim'])  # 支持中英文

# 2. 加载LayoutLMv3 Processor与模型
processor = LayoutLMv3Processor.from_pretrained("microsoft/layoutlmv3-base", apply_ocr=False)
model = LayoutLMv3ForQuestionAnswering.from_pretrained("microsoft/layoutlmv3-base")

# 3. 将模型切换到GPU（如果可用）
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

定义问答函数

def dvqa_layoutlmv3(image_path, question):
    # 1. 读取图像
    image = Image.open(image_path).convert("RGB")

    # 2. OCR：获得文本行与边界框
    ocr_results = ocr_reader.readtext(image_path)
    words, boxes = [], []
    for (bbox, text, _) in ocr_results:
        words.append(text)
        # bbox 为四点坐标，转换为(x0,y0,x1,y1)
        x0 = min([p[0] for p in bbox]); y0 = min([p[1] for p in bbox])
        x1 = max([p[0] for p in bbox]); y1 = max([p[1] for p in bbox])
        boxes.append([x0, y0, x1, y1])

    # 3. 构造LayoutLMv3输入
    encoding = processor(image, words, boxes=boxes, question=question, return_tensors="pt")
    # 将位置坐标从像素映射到0-1000刻度
    encoding = {k: v.to(device) for k, v in encoding.items()}

    # 4. 推理
    outputs = model(**encoding)
    start_scores, end_scores = outputs.start_logits, outputs.end_logits
    # 5. 解码答案
    all_tokens = processor.tokenizer.convert_ids_to_tokens(encoding["input_ids"][0])
    # 取start最大的token索引与end最大索引
    start_idx = torch.argmax(start_scores)
    end_idx = torch.argmax(end_scores)
    answer = processor.tokenizer.convert_tokens_to_string(all_tokens[start_idx : end_idx + 1])

    return answer.strip()

# 示例调用
img_path = "docs/invoice_example.png"
question = "What is the total amount?"
print("答案：", dvqa_layoutlmv3(img_path, question))

5.1.2 Donut端到端方案

安装Donut依赖

pip install transformers[torch] ftfy sentencepiece

加载Donut Pipeline

from transformers import VisionEncoderDecoderModel, DonutProcessor
import torch
from PIL import Image

# 1. 加载Donut-Base模型与Processor
processor = DonutProcessor.from_pretrained("naver-clova-ix/donut-base")
model = VisionEncoderDecoderModel.from_pretrained("naver-clova-ix/donut-base")

# 2. 移到GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

定义问答函数

def dvqa_donut(image_path, question, max_length=512):
    # 1. 读取图像并resize为模型期望大小
    image = Image.open(image_path).convert("RGB")
    pixel_values = processor(image, return_tensors="pt").pixel_values.to(device)

    # 2. 构造prompt：以问答模式为例
    task_prompt = f"<s_question>{question}</s_question><s_answer>"

    # 3. Tokenize prompt
    input_ids = processor.tokenizer(task_prompt, add_special_tokens=False, return_tensors="pt").input_ids.to(device)

    # 4. 调用generate
    outputs = model.generate(
        pixel_values=pixel_values,
        decoder_input_ids=input_ids,
        max_length=max_length,
        early_stopping=True,
        num_beams=5,
        bad_words_ids=[[processor.tokenizer.unk_token_id]],
        pad_token_id=processor.tokenizer.pad_token_id,
        eos_token_id=processor.tokenizer.eos_token_id,
        use_cache=True
    )

    # 5. 解码输出并去除prompt前缀
    decoded = processor.tokenizer.decode(outputs[0], skip_special_tokens=True)
    # Donut 会在答案后加 </s_answer>，需要去除
    answer = decoded.split("</s_answer>")[0].replace(task_prompt, "")
    return answer.strip()

# 示例调用
img_path = "docs/invoice_example.png"
question = "What is the total amount?"
print("答案：", dvqa_donut(img_path, question))

6. 示例讲解：从发票图像到答案

以下以一张标准发票为例，演示如何调用上述两种方案，获得“交易金额”的答案。

准备示例图像
- 文件名：invoice_example.png
- 内容示例（左上角为发票金额框，格式各异）
LayoutLMv3 流程
- OCR 识别出文本行：“Invoice Number: 12345”，“Date: 2023-06-01”，“Total Amount: $256.78”，等多个字段。
- 对 “Total Amount: $256.78” 这一行分词且获得对应位置坐标。
- 将问题 “What is the total amount?” 与OCR结果及图像一起输入LayoutLMv3。
- LayoutLMv3模型基于视觉+语言融合，自注意力机制聚焦 “Total Amount” 这一区域。
- 解码后得到 “$256.78”。
Donut 流程
- 将整张发票图像 resize 为模型要求（例如 1024×1024），并构造prompt <s_question>What is the total amount?</s_question><s_answer>。
- Vision Encoder提取图像特征，Decoder在prompt的指导下生成答案文本；无需OCR中间步骤。
- 解码得到 “$256.78”。

对比

步骤	LayoutLMv3 + OCR	Donut（端到端）
预处理	OCR识别+文本定位	图像Resize+Prompt构造
特征融合	图像patch + 文本Token	纯视觉特征
编码方式	Visual+Text Encoder (BERT+ViT)	Vision Encoder + Text Decoder
中间依赖	OCR精度影响较大	端到端，无中间依赖
部署复杂度	较高 (需OCR服务)	较低 (仅需加载Donut模型)
推理速度	较慢 (OCR+多模态Transformer)	较快 (单次Vision→Text生成)
可扩展性	易扩展至更多下游任务（NER、分类等）	主要面向问答、摘要等生成任务

7. 进阶技巧与优化建议

7.1 微调自定义数据集

若使用自有领域文档（如医疗、法律、财务），建议在公开预训练模型基础上进行微调，获得更高准确率。常见流程：

准备数据集

图像 + 问题 + 标准答案三元组，格式如 JSON Lines：

{"image": "path/to/img1.png", "question": "合同生效日期？", "answer": "2023-05-20"}

自定义Trainer脚本
- 对于Donut，可使用Hugging Face VisionEncoderDecoderModel 的训练API。
- 对于LayoutLMv3，可自建问答Head，使用LayoutLMv3ForQuestionAnswering，在OCR输出基础上微调。

示例代码（Donut微调骨架）

from transformers import VisionEncoderDecoderModel, DonutProcessor, Seq2SeqTrainer, Seq2SeqTrainingArguments
from datasets import load_dataset
import torch

# 1. 加载预训练
model = VisionEncoderDecoderModel.from_pretrained("naver-clova-ix/donut-base")
processor = DonutProcessor.from_pretrained("naver-clova-ix/donut-base")

# 2. 加载自定义数据集
dataset = load_dataset("json", data_files="data/dvqa_train.jsonl")["train"]

def preprocess_function(examples):
    images = [Image.open(path).convert("RGB") for path in examples["image"]]
    pixel_values = processor(images, return_tensors="pt").pixel_values
    prompts = [f"<s_question>{q}</s_question><s_answer>" for q in examples["question"]]
    input_ids = processor.tokenizer(prompts, add_special_tokens=False, return_tensors="pt").input_ids
    labels = processor.tokenizer(examples["answer"], return_tensors="pt", padding="max_length", truncation=True).input_ids
    return {"pixel_values": pixel_values, "input_ids": input_ids, "labels": labels}

dataset = dataset.map(preprocess_function, batched=True)

# 3. 配置Trainer
training_args = Seq2SeqTrainingArguments(
    output_dir="./dvqa-donut-finetuned",
    per_device_train_batch_size=2,
    learning_rate=5e-5,
    num_train_epochs=3,
    predict_with_generate=False,
    logging_steps=50,
    save_steps=500
)
trainer = Seq2SeqTrainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    tokenizer=processor.tokenizer
)

# 4. 开始训练
trainer.train()

7.2 多模态融合与图像预处理

图像增强

对于低质量扫描件，可先进行自适应二值化、去噪、透视纠正，提高OCR或视觉特征提取效果。

Python 常用库：opencv-python，例如：

import cv2
img = cv2.imread("doc.png", cv2.IMREAD_GRAYSCALE)
# 自适应阈值
bw = cv2.adaptiveThreshold(img, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C,
                            cv2.THRESH_BINARY, 11, 2)
# 透视校正需用户手动标注四角或使用边缘检测辅助

文本检测与分块
- 对于长文档，可先进行版面分块（Segmented），将每一栏或每个表格单元独立切图，再并行送入模型，避免一次输入过大导致显存溢出。
- 可使用 detectron2、layoutparser 等库进行文档布局分析。
动态尺寸适配
- Donut在预处理时会将图像resize为固定大小（如1024×1024），容易丢失细节。可根据文档长宽比，动态调整padding与缩放策略，保证长文本行信息不被压缩过度。

7.3 部署注意点与性能调优

模型量化

LayoutLMv3和Donut模型都提供了部分量化支持（如8-bit量化）。在部署时可将权重转换为更低精度，以降低显存占用，加速推理。

Hugging Face已开源 optimum 库，可一键量化：

pip install optimum

from optimum.onnxruntime import ORTModelForSeq2SeqLM, ORTQuantizer

# 量化Donut ONNX模型示例
quantizer = ORTQuantizer.from_pretrained("naver-clova-ix/donut-base", file_name="model.onnx")
quantizer.quantize(static=False, per_channel=True, reduce_range=True)
quantizer.save_pretrained("./donut-quantized")

并发推理

在服务端可部署 FastAPI 配合 Uvicorn/Gunicorn，将Pipeline封装为REST接口，前端并发调用时可复用模型实例和GPU显存。

示例FastAPI代码：

from fastapi import FastAPI, File, UploadFile, Form
from transformers import DonutProcessor, VisionEncoderDecoderModel
from PIL import Image
import io, torch

app = FastAPI()
processor = DonutProcessor.from_pretrained("naver-clova-ix/donut-base")
model = VisionEncoderDecoderModel.from_pretrained("naver-clova-ix/donut-base").to("cuda")

@app.post("/dvqa")
async def dvqa(file: UploadFile = File(...), question: str = Form(...)):
    image_bytes = await file.read()
    image = Image.open(io.BytesIO(image_bytes)).convert("RGB")
    pixel_values = processor(image, return_tensors="pt").pixel_values.to("cuda")
    prompt = f"<s_question>{question}</s_question><s_answer>"
    input_ids = processor.tokenizer(prompt, add_special_tokens=False, return_tensors="pt").input_ids.to("cuda")
    outputs = model.generate(pixel_values=pixel_values, decoder_input_ids=input_ids,
                             max_length=512, num_beams=5, pad_token_id=processor.tokenizer.pad_token_id,
                             eos_token_id=processor.tokenizer.eos_token_id)
    decoded = processor.tokenizer.decode(outputs[0], skip_special_tokens=True)
    answer = decoded.split("</s_answer>")[0].replace(prompt, "").strip()
    return {"answer": answer}

# 启动： uvicorn dvqa_api:app --host 0.0.0.0 --port 8000 --workers 2

缓存与加速
- 对于多次重复提问，可对Pipeline结果进行内存缓存，避免每次都做图像特征提取与推理。
- 可使用 Redis 等分布式缓存工具，将 “(图片哈希, 问题文本)” 的结果存储，减少推理开销。

8. 常见问题与排查

模型加载报错：RuntimeError: sizes must be non-negative
- 原因：传入的图像尺寸与模型期望大小不匹配，或OCR输出boxes为空。
- 解决：检查输入图像是否正确加载，OCR是否提取到任何文本行；对空OCR结果做容错（返回“未识别到文本”）。
Donut生成结果为空或乱码
- 原因：Prompt格式不正确，或模型未加载到GPU导致显存不足。
- 解决：确保Prompt开头为 <s_question>... </s_question><s_answer>，并在末尾正确截断。检查显存是否足够（可切换4-bit量化模型）。
推理速度慢
- 原因：GPU未被占用，或batch\_size=1导致显存未充分利用。
- 解决：确认 model.to("cuda") 已生效；可尝试批量处理多张图片或多个问题（并行生成）。
回答不准确或偏题
- 原因：OCR错误导致LayoutLMv3难以定位；或文档格式与预训练数据差异较大。
- 解决：对关键区域图像做裁剪+增强；基于领域数据微调模型；或使用Donut端到端模型减少OCR误差。
内存/显存泄漏
- 原因：未在循环推理中释放CUDA缓存或未with torch.no_grad()。
- 解决：在推理循环中添加 with torch.no_grad(): 包裹；在不使用时调用 torch.cuda.empty_cache()。

9. 小结

本文从背景与挑战、模型与Pipeline选型、环境准备、流程图解、核心代码示例、示例讲解到进阶技巧与排查，系统地介绍了如何利用 Transformers Pipeline 解锁文档视觉问答新技能。

LayoutLMv3+OCR方案：借助OCR与多模态Transformer，实现对复杂文档版面与文字的深度理解；适合对答案定位要求高的场景，灵活性强但部署稍复杂。
Donut端到端方案：无需OCR，直接输入图像+Prompt，端到端生成答案；适合快速部署与轻量化场景，但对Prompt设计与模型显存要求较高。

针对不同场景，你可结合量化、图像预处理、微调、缓存等手段，实现准确稳定、高效可扩展的文档视觉问答服务。

Transformers Pipeline新探索：解锁文档视觉问答新技能‌