Python OCR 之旅:PaddleOCR 与 pytesseract 比较及应用
# 导入必要的库
import paddleocr
from PIL import Image
import pytesseract
# 初始化PaddleOCR和pytesseract
ocr = paddleocr.PaddleOCR(use_angle_cls=True, lang="ch") # 初始化PaddleOCR,支持中文
tess = pytesseract.TessBaseAPI() # 初始化pytesseract
tess.Initialize() # 初始化Tesseract
# 定义一个函数用于使用两个OCR库进行文字识别
def ocr_comparison(image_path, ocr_type):
# 读取图片
img = Image.open(image_path)
img_array = img.convert('RGB').save('tmp.jpg')
# 使用PaddleOCR进行文字识别
if ocr_type == 'PaddleOCR':
result = ocr.ocr(img_array, cls=True)
for line in result:
print(line)
# 使用pytesseract进行文字识别
elif ocr_type == 'pytesseract':
tess.SetImage(img)
print(tess.GetUTF8Text())
# 清理临时文件
img.close()
tess.Clear()
tess.End()
# 示例:对图片进行文字识别
image_path = 'example.jpg' # 替换为你的图片路径
ocr_type = 'PaddleOCR' # 可以选择'PaddleOCR'或'pytesseract'
ocr_comparison(image_path, ocr_type)
这段代码展示了如何使用PaddleOCR和pytesseract来进行OCR操作。首先,我们初始化了两个库,并定义了一个函数ocr_comparison
来读取图片,并使用指定的OCR库进行文字识别。在示例中,我们对一张名为'example.jpg'的图片进行了OCR操作,并打印了识别的结果。注意,在实际使用中,你需要将image_path
替换为你自己的图片路径,并选择你想要使用的OCR库类型。
评论已关闭