Python处理扫描的PDF文件：图像OCR处理+pytesseract安装+文字提取

作者：System 时间：2024年08月24日分类：所有,python 字数：741

这篇文章距离上次修改已过688天，其中的内容可能已经有所变动。




# 导入所需库
import os
from pdf2image import convert_from_path
from PIL import Image
import pytesseract
 
# 设置PDF文件路径
pdf_file = "example.pdf"
 
# 使用pdf2image将PDF转换为图片列表
images = convert_from_path(pdf_file, dpi=200)
 
# 创建一个文件夹用于存储转换的图片
os.makedirs('pdf_images', exist_ok=True)
 
# 提取并保存图片中的文字
for i, image in enumerate(images):
    # 将图片保存到文件夹
    image.save(f'pdf_images/page_{i + 1}.png', 'PNG')
    
    # 读取图片文字
    text = pytesseract.image_to_string(Image.open(f'pdf_images/page_{i + 1}.png'), lang='eng')
    print(f"Page {i + 1} Text:\n{text}")
 
# 清理：删除图片文件夹
# 注意：实际使用时可能需要手动删除或保留生成的图片文件
# os.rmdir('pdf_images')

这段代码展示了如何使用pdf2image库将PDF文件转换为图片，并使用pytesseract进行OCR处理以提取文字。代码简洁，注重实用性，可以作为处理此类问题的基础。

Python处理扫描的PDF文件：图像OCR处理+pytesseract安装+文字提取

评论已关闭

推荐阅读