Transformers Pipeline新探索:解锁文档视觉问答新技能‌

Transformers Pipeline新探索:解锁文档视觉问答新技能

随着文档智能化需求的不断增长,仅靠传统的OCR或文本检索已难满足对结构化信息、表格数据和复杂排版的深度理解。Transformers Pipeline 中的文档视觉问答(Document Visual Question Answering,DVQA)能力,可在一张复杂文档图片(如发票、合同、报告)上,直接回答自然语言提问。本文将从背景原理、环境准备、代码示例、流程图解和详细说明几个方面,带你一步步掌握基于 Hugging Face Transformers 的文档视觉问答新技能。


目录

  1. 背景与挑战
  2. 技术选型:模型与Pipeline概览

    1. 常见模型:LayoutLMv3、Donut 等
    2. Transformers Pipeline定义与优势
  3. 环境准备与依赖安装
  4. 文档视觉问答流程图解
  5. 核心代码示例

    1. 加载Pipeline进行推理
    2. 处理输入文档图片与问题
    3. 解析与后处理回答
  6. 示例讲解:从发票图像到答案
  7. 进阶技巧与优化建议

    1. 微调自定义数据集
    2. 多模态融合与图像预处理
    3. 部署注意点与性能调优
  8. 常见问题与排查
  9. 小结

1. 背景与挑战

传统OCR结合关键词检索的方案,通常只能简单识别文本并按字符串进行匹配。当文档排版复杂(如多栏布局、表格、竖排文字),或需要“理解”上下文才能给出答案时,OCR+检索显得力不从心。例如:

  • 发票场景:用户问“本次交易的金额是多少?”,OCR只能输出零散数字,难以知道哪个是“交易金额”。
  • 合同场景:用户问“本合同的生效日期”,需要结合整页内容、表格或签章位置,OCR无法提炼。
  • 报告场景:用户问“第3页第2栏表格A的值”,涉及图文定位、表格结构解析。

文档视觉问答(DVQA)通过多模态Transformer,可在理解图像布局与文字内容基础上,直接回答自然语言问题,将视觉与语言融合,解决上述挑战。


2. 技术选型:模型与Pipeline概览

2.1 常见模型:LayoutLMv3、Donut 等

目前主流DVQA模型可分为两类:

  1. 基于视觉+文本的联合Transformer

    • LayoutLMv3:由微软提出,将图像特征(来自Vision Transformer)与文本特征(来自BERT)联合,在文档理解任务上表现优秀。可用于分类、实体抽取、表格理解,也可拓展为问答。
    • LayoutLMv2DocFormer:前两代模型,仍以联合特征为主。
  2. 端到端图像到文本生成模型

    • Donut (Document Understanding Transformer):由 NAVER CLOVA 提出,基于 Vision Encoder+Decoder 的架构,输入仅需文档图像和一个“prompt”(问题),可直接生成回答文本,无需OCR中间环节。
    • XLayoutLMTILT:类似思路,但Donut在零样本问答场景下表现尤为突出。
模型后端能力优势劣势
LayoutLMv3Vision Transformer + BERT强大的布局+文本理解,丰富预训练任务需OCR提取文本并对齐到视觉位置
DonutVision Encoder-Decoder (Seq2Seq)端到端,可跳过OCR,直接从图像生成文本模型量大,推理慢,对显存要求较高

2.2 Transformers Pipeline定义与优势

Hugging Face Transformers Pipeline 是一套封装常见NLP/多模态任务的高层API,只需一行代码即可完成加载、预处理、后处理、推理等全流程。针对DVQA,目前可选择以下Pipeline:

  • VisionTextDualEncoderPipeline(适用于LayoutLMv3问答场景,但需自定义预处理)
  • DocumentQuestionAnsweringPipeline(部分社区实现,用于Donut等端到端问答)
  • 直接使用 Seq2SeqPipelineVisionEncoderDecoderPipeline:在加载Donut模型时,将其视作图像→文本生成,以自定义prompt问答。

它的优势在于:

  1. 一站式封装:自动处理图像预处理、Tokenizer、输入对齐、模型调用、生成后处理,无须手动拼接。
  2. 多模型兼容:同一个Pipeline接口,可替换不同Checkpoint、后端(CPU/GPU)、量化模型。
  3. 快速上手:仅需几行Python代码,就能实现文档问答功能,无需关心底层细节。

3. 环境准备与依赖安装

以下示例基于 Python 3.8+,并推荐在有GPU的环境中运行,以获得更好性能。

# 1. 创建并激活虚拟环境(可选)
python3 -m venv dvqa_env
source dvqa_env/bin/activate

# 2. 安装核心依赖
pip install --upgrade pip
pip install torch torchvision --extra-index-url https://download.pytorch.org/whl/cu117  # 如果有CUDA 11.7
# 若无GPU或不需要GPU,可直接:
# pip install torch torchvision

# 3. 安装 transformers、datasets、Pillow 等
pip install transformers[torch] datasets pillow opencv-python matplotlib

# 4. 如果使用 Donut 模型,还需安装 vision-text dependencies
pip install ftfy sentencepiece

# 验证安装
python - <<EOF
from transformers import pipeline
print("Transformers 版本:", pipeline)
EOF

若在中国大陆使用,可加速源:

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple transformers torch torchvision pillow opencv-python matplotlib datasets ftfy sentencepiece

4. 文档视觉问答流程图解

在深度学习框架下,文档视觉问答的整体流程可抽象为:

  1. 加载图像与问题
  2. 预处理(OCR或端到端视觉特征提取)
  3. 特征融合(视觉与语言)
  4. 编码/解码(Transformer推理)
  5. 生成/抽取答案
  6. 后处理并输出

以下用 Mermaid 流程图 表示两种典型场景:

  • 使用LayoutLMv3(需OCR+文本对齐)
  • 使用Donut(端到端无OCR)
flowchart TB
  subgraph LayoutLMv3问答
    A1[输入文档图像] --> B1[OCR提取文字+位置信息]
    B1 --> C1[文本与视觉特征编码]
    C1 --> D1[LayoutLMv3多模态Encoder]
    D1 --> E1[Question表示拼接至Token序列]
    E1 --> F1[TransformerDecoder/Head 输出答案]
    F1 --> G1[后处理:解码成自然语言]
    G1 --> H1[输出答案]
  end

  subgraph Donut端到端问答
    A2[输入文档图像] --> B2[Vision Encoder提取图像特征]
    B2 --> C2[Prompt(例如:“问:发票金额?答:”)]
    C2 --> D2[Vision→Text Transformer生成]
    D2 --> E2[输出答案文本]
    E2 --> F2[后处理:清理特殊Token等]
    F2 --> G2[输出答案]
  end
  • LayoutLMv3 依赖OCR(如Tesseract、EasyOCR)提取文本与位置信息,然后与图像patch一起输入多模态Transformer;处理较复杂,但架构思路清晰。
  • Donut 模型将整张图像输入至Vision Encoder,再根据“Prompt”直接生成答案,无需OCR,对输入图像格式与模型prompt拼接较为敏感。

5. 核心代码示例

以下示例将演示两种Pipeline的调用方式,分别对应LayoutLMv3与Donut模型的文档视觉问答。

5.1 加载Pipeline进行推理

5.1.1 LayoutLMv3 + OCR方案

  1. 安装OCR库(可选多种实现,此处以 easyocr 为例)

    pip install easyocr
  2. 加载OCR与LayoutLMv3模型

    from transformers import LayoutLMv3Processor, LayoutLMv3ForQuestionAnswering
    import easyocr
    import torch
    from PIL import Image
    
    # 1. 初始化OCR Reader
    ocr_reader = easyocr.Reader(['en','ch_sim'])  # 支持中英文
    
    # 2. 加载LayoutLMv3 Processor与模型
    processor = LayoutLMv3Processor.from_pretrained("microsoft/layoutlmv3-base", apply_ocr=False)
    model = LayoutLMv3ForQuestionAnswering.from_pretrained("microsoft/layoutlmv3-base")
    
    # 3. 将模型切换到GPU(如果可用)
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    model.to(device)
  3. 定义问答函数

    def dvqa_layoutlmv3(image_path, question):
        # 1. 读取图像
        image = Image.open(image_path).convert("RGB")
    
        # 2. OCR:获得文本行与边界框
        ocr_results = ocr_reader.readtext(image_path)
        words, boxes = [], []
        for (bbox, text, _) in ocr_results:
            words.append(text)
            # bbox 为四点坐标,转换为(x0,y0,x1,y1)
            x0 = min([p[0] for p in bbox]); y0 = min([p[1] for p in bbox])
            x1 = max([p[0] for p in bbox]); y1 = max([p[1] for p in bbox])
            boxes.append([x0, y0, x1, y1])
    
        # 3. 构造LayoutLMv3输入
        encoding = processor(image, words, boxes=boxes, question=question, return_tensors="pt")
        # 将位置坐标从像素映射到0-1000刻度
        encoding = {k: v.to(device) for k, v in encoding.items()}
    
        # 4. 推理
        outputs = model(**encoding)
        start_scores, end_scores = outputs.start_logits, outputs.end_logits
        # 5. 解码答案
        all_tokens = processor.tokenizer.convert_ids_to_tokens(encoding["input_ids"][0])
        # 取start最大的token索引与end最大索引
        start_idx = torch.argmax(start_scores)
        end_idx = torch.argmax(end_scores)
        answer = processor.tokenizer.convert_tokens_to_string(all_tokens[start_idx : end_idx + 1])
    
        return answer.strip()
    
    # 示例调用
    img_path = "docs/invoice_example.png"
    question = "What is the total amount?"
    print("答案:", dvqa_layoutlmv3(img_path, question))

5.1.2 Donut端到端方案

  1. 安装Donut依赖

    pip install transformers[torch] ftfy sentencepiece
  2. 加载Donut Pipeline

    from transformers import VisionEncoderDecoderModel, DonutProcessor
    import torch
    from PIL import Image
    
    # 1. 加载Donut-Base模型与Processor
    processor = DonutProcessor.from_pretrained("naver-clova-ix/donut-base")
    model = VisionEncoderDecoderModel.from_pretrained("naver-clova-ix/donut-base")
    
    # 2. 移到GPU
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    model.to(device)
  3. 定义问答函数

    def dvqa_donut(image_path, question, max_length=512):
        # 1. 读取图像并resize为模型期望大小
        image = Image.open(image_path).convert("RGB")
        pixel_values = processor(image, return_tensors="pt").pixel_values.to(device)
    
        # 2. 构造prompt:以问答模式为例
        task_prompt = f"<s_question>{question}</s_question><s_answer>"
    
        # 3. Tokenize prompt
        input_ids = processor.tokenizer(task_prompt, add_special_tokens=False, return_tensors="pt").input_ids.to(device)
    
        # 4. 调用generate
        outputs = model.generate(
            pixel_values=pixel_values,
            decoder_input_ids=input_ids,
            max_length=max_length,
            early_stopping=True,
            num_beams=5,
            bad_words_ids=[[processor.tokenizer.unk_token_id]],
            pad_token_id=processor.tokenizer.pad_token_id,
            eos_token_id=processor.tokenizer.eos_token_id,
            use_cache=True
        )
    
        # 5. 解码输出并去除prompt前缀
        decoded = processor.tokenizer.decode(outputs[0], skip_special_tokens=True)
        # Donut 会在答案后加 </s_answer>,需要去除
        answer = decoded.split("</s_answer>")[0].replace(task_prompt, "")
        return answer.strip()
    
    # 示例调用
    img_path = "docs/invoice_example.png"
    question = "What is the total amount?"
    print("答案:", dvqa_donut(img_path, question))

6. 示例讲解:从发票图像到答案

以下以一张标准发票为例,演示如何调用上述两种方案,获得“交易金额”的答案。

  1. 准备示例图像

    • 文件名:invoice_example.png
    • 内容示例(左上角为发票金额框,格式各异)
  2. LayoutLMv3 流程

    • OCR 识别出文本行:“Invoice Number: 12345”,“Date: 2023-06-01”,“Total Amount: $256.78”,等多个字段。
    • “Total Amount: $256.78” 这一行分词且获得对应位置坐标。
    • 将问题 “What is the total amount?” 与OCR结果及图像一起输入LayoutLMv3。
    • LayoutLMv3模型基于视觉+语言融合,自注意力机制聚焦 “Total Amount” 这一区域。
    • 解码后得到 “$256.78”。
  3. Donut 流程

    • 将整张发票图像 resize 为模型要求(例如 1024×1024),并构造prompt <s_question>What is the total amount?</s_question><s_answer>
    • Vision Encoder提取图像特征,Decoder在prompt的指导下生成答案文本;无需OCR中间步骤。
    • 解码得到 “$256.78”。
  4. 对比

    步骤LayoutLMv3 + OCRDonut(端到端)
    预处理OCR识别+文本定位图像Resize+Prompt构造
    特征融合图像patch + 文本Token纯视觉特征
    编码方式Visual+Text Encoder (BERT+ViT)Vision Encoder + Text Decoder
    中间依赖OCR精度影响较大端到端,无中间依赖
    部署复杂度较高 (需OCR服务)较低 (仅需加载Donut模型)
    推理速度较慢 (OCR+多模态Transformer)较快 (单次Vision→Text生成)
    可扩展性易扩展至更多下游任务(NER、分类等)主要面向问答、摘要等生成任务

7. 进阶技巧与优化建议

7.1 微调自定义数据集

若使用自有领域文档(如医疗、法律、财务),建议在公开预训练模型基础上进行微调,获得更高准确率。常见流程:

  1. 准备数据集

    • 图像 + 问题 + 标准答案三元组,格式如 JSON Lines:

      {"image": "path/to/img1.png", "question": "合同生效日期?", "answer": "2023-05-20"}
  2. 自定义Trainer脚本

    • 对于Donut,可使用Hugging Face VisionEncoderDecoderModel 的训练API。
    • 对于LayoutLMv3,可自建问答Head,使用LayoutLMv3ForQuestionAnswering,在OCR输出基础上微调。
  3. 示例代码(Donut微调骨架)

    from transformers import VisionEncoderDecoderModel, DonutProcessor, Seq2SeqTrainer, Seq2SeqTrainingArguments
    from datasets import load_dataset
    import torch
    
    # 1. 加载预训练
    model = VisionEncoderDecoderModel.from_pretrained("naver-clova-ix/donut-base")
    processor = DonutProcessor.from_pretrained("naver-clova-ix/donut-base")
    
    # 2. 加载自定义数据集
    dataset = load_dataset("json", data_files="data/dvqa_train.jsonl")["train"]
    
    def preprocess_function(examples):
        images = [Image.open(path).convert("RGB") for path in examples["image"]]
        pixel_values = processor(images, return_tensors="pt").pixel_values
        prompts = [f"<s_question>{q}</s_question><s_answer>" for q in examples["question"]]
        input_ids = processor.tokenizer(prompts, add_special_tokens=False, return_tensors="pt").input_ids
        labels = processor.tokenizer(examples["answer"], return_tensors="pt", padding="max_length", truncation=True).input_ids
        return {"pixel_values": pixel_values, "input_ids": input_ids, "labels": labels}
    
    dataset = dataset.map(preprocess_function, batched=True)
    
    # 3. 配置Trainer
    training_args = Seq2SeqTrainingArguments(
        output_dir="./dvqa-donut-finetuned",
        per_device_train_batch_size=2,
        learning_rate=5e-5,
        num_train_epochs=3,
        predict_with_generate=False,
        logging_steps=50,
        save_steps=500
    )
    trainer = Seq2SeqTrainer(
        model=model,
        args=training_args,
        train_dataset=dataset,
        tokenizer=processor.tokenizer
    )
    
    # 4. 开始训练
    trainer.train()

7.2 多模态融合与图像预处理

  1. 图像增强

    • 对于低质量扫描件,可先进行自适应二值化去噪透视纠正,提高OCR或视觉特征提取效果。
    • Python 常用库:opencv-python,例如:

      import cv2
      img = cv2.imread("doc.png", cv2.IMREAD_GRAYSCALE)
      # 自适应阈值
      bw = cv2.adaptiveThreshold(img, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C,
                                  cv2.THRESH_BINARY, 11, 2)
      # 透视校正需用户手动标注四角或使用边缘检测辅助
  2. 文本检测与分块

    • 对于长文档,可先进行版面分块(Segmented),将每一栏或每个表格单元独立切图,再并行送入模型,避免一次输入过大导致显存溢出。
    • 可使用 detectron2layoutparser 等库进行文档布局分析。
  3. 动态尺寸适配

    • Donut在预处理时会将图像resize为固定大小(如1024×1024),容易丢失细节。可根据文档长宽比,动态调整padding与缩放策略,保证长文本行信息不被压缩过度。

7.3 部署注意点与性能调优

  1. 模型量化

    • LayoutLMv3和Donut模型都提供了部分量化支持(如8-bit量化)。在部署时可将权重转换为更低精度,以降低显存占用,加速推理。
    • Hugging Face已开源 optimum 库,可一键量化:

      pip install optimum
      from optimum.onnxruntime import ORTModelForSeq2SeqLM, ORTQuantizer
      
      # 量化Donut ONNX模型示例
      quantizer = ORTQuantizer.from_pretrained("naver-clova-ix/donut-base", file_name="model.onnx")
      quantizer.quantize(static=False, per_channel=True, reduce_range=True)
      quantizer.save_pretrained("./donut-quantized")
  2. 并发推理

    • 在服务端可部署 FastAPI 配合 Uvicorn/Gunicorn,将Pipeline封装为REST接口,前端并发调用时可复用模型实例和GPU显存。
    • 示例FastAPI代码:

      from fastapi import FastAPI, File, UploadFile, Form
      from transformers import DonutProcessor, VisionEncoderDecoderModel
      from PIL import Image
      import io, torch
      
      app = FastAPI()
      processor = DonutProcessor.from_pretrained("naver-clova-ix/donut-base")
      model = VisionEncoderDecoderModel.from_pretrained("naver-clova-ix/donut-base").to("cuda")
      
      @app.post("/dvqa")
      async def dvqa(file: UploadFile = File(...), question: str = Form(...)):
          image_bytes = await file.read()
          image = Image.open(io.BytesIO(image_bytes)).convert("RGB")
          pixel_values = processor(image, return_tensors="pt").pixel_values.to("cuda")
          prompt = f"<s_question>{question}</s_question><s_answer>"
          input_ids = processor.tokenizer(prompt, add_special_tokens=False, return_tensors="pt").input_ids.to("cuda")
          outputs = model.generate(pixel_values=pixel_values, decoder_input_ids=input_ids,
                                   max_length=512, num_beams=5, pad_token_id=processor.tokenizer.pad_token_id,
                                   eos_token_id=processor.tokenizer.eos_token_id)
          decoded = processor.tokenizer.decode(outputs[0], skip_special_tokens=True)
          answer = decoded.split("</s_answer>")[0].replace(prompt, "").strip()
          return {"answer": answer}
      
      # 启动: uvicorn dvqa_api:app --host 0.0.0.0 --port 8000 --workers 2
  3. 缓存与加速

    • 对于多次重复提问,可对Pipeline结果进行内存缓存,避免每次都做图像特征提取与推理。
    • 可使用 Redis 等分布式缓存工具,将 “(图片哈希, 问题文本)” 的结果存储,减少推理开销。

8. 常见问题与排查

  1. 模型加载报错:RuntimeError: sizes must be non-negative

    • 原因:传入的图像尺寸与模型期望大小不匹配,或OCR输出boxes为空。
    • 解决:检查输入图像是否正确加载,OCR是否提取到任何文本行;对空OCR结果做容错(返回“未识别到文本”)。
  2. Donut生成结果为空或乱码

    • 原因:Prompt格式不正确,或模型未加载到GPU导致显存不足。
    • 解决:确保Prompt开头为 <s_question>... </s_question><s_answer>,并在末尾正确截断。检查显存是否足够(可切换4-bit量化模型)。
  3. 推理速度慢

    • 原因:GPU未被占用,或batch\_size=1导致显存未充分利用。
    • 解决:确认 model.to("cuda") 已生效;可尝试批量处理多张图片或多个问题(并行生成)。
  4. 回答不准确或偏题

    • 原因:OCR错误导致LayoutLMv3难以定位;或文档格式与预训练数据差异较大。
    • 解决:对关键区域图像做裁剪+增强;基于领域数据微调模型;或使用Donut端到端模型减少OCR误差。
  5. 内存/显存泄漏

    • 原因:未在循环推理中释放CUDA缓存或未with torch.no_grad()
    • 解决:在推理循环中添加 with torch.no_grad(): 包裹;在不使用时调用 torch.cuda.empty_cache()

9. 小结

本文从背景与挑战模型与Pipeline选型环境准备流程图解核心代码示例示例讲解进阶技巧与排查,系统地介绍了如何利用 Transformers Pipeline 解锁文档视觉问答新技能。

  • LayoutLMv3+OCR方案:借助OCR与多模态Transformer,实现对复杂文档版面与文字的深度理解;适合对答案定位要求高的场景,灵活性强但部署稍复杂。
  • Donut端到端方案:无需OCR,直接输入图像+Prompt,端到端生成答案;适合快速部署与轻量化场景,但对Prompt设计与模型显存要求较高。

针对不同场景,你可结合量化图像预处理微调缓存等手段,实现准确稳定、高效可扩展的文档视觉问答服务。

评论已关闭

推荐阅读

DDPG 模型解析,附Pytorch完整代码
2024年11月24日
DQN 模型解析,附Pytorch完整代码
2024年11月24日
AIGC实战——Transformer模型
2024年12月01日
Socket TCP 和 UDP 编程基础(Python)
2024年11月30日
python , tcp , udp
如何使用 ChatGPT 进行学术润色?你需要这些指令
2024年12月01日
AI
最新 Python 调用 OpenAi 详细教程实现问答、图像合成、图像理解、语音合成、语音识别(详细教程)
2024年11月24日
ChatGPT 和 DALL·E 2 配合生成故事绘本
2024年12月01日
omegaconf,一个超强的 Python 库!
2024年11月24日
【视觉AIGC识别】误差特征、人脸伪造检测、其他类型假图检测
2024年12月01日
[超级详细]如何在深度学习训练模型过程中使用 GPU 加速
2024年11月29日
Python 物理引擎pymunk最完整教程
2024年11月27日
MediaPipe 人体姿态与手指关键点检测教程
2024年11月27日
深入了解 Taipy:Python 打造 Web 应用的全面教程
2024年11月26日
基于Transformer的时间序列预测模型
2024年11月25日
Python在金融大数据分析中的AI应用(股价分析、量化交易)实战
2024年11月25日
AIGC Gradio系列学习教程之Components
2024年12月01日
Python3 `asyncio` — 异步 I/O,事件循环和并发工具
2024年11月30日
llama-factory SFT系列教程:大模型在自定义数据集 LoRA 训练与部署
2024年12月01日
Python 多线程和多进程用法
2024年11月24日
Python socket详解,全网最全教程
2024年11月27日