Windows安装Tesseract OCR与Python中使用pytesseract进行文字识别

作者：System 时间：2024年08月16日分类：所有,python 字数：1353

这篇文章距离上次修改已过540天，其中的内容可能已经有所变动。

在Windows上安装Tesseract OCR并在Python中使用pytesseract进行文字识别，你需要遵循以下步骤：

下载并安装Tesseract OCR。
安装Python包管理工具pip。
使用pip安装pytesseract及其依赖。
编写Python代码来使用Tesseract进行文字识别。

步骤1：下载Tesseract OCR

前往Tesseract的官方下载页面（https://github.com/tesseract-ocr/tesseract/wiki/Downloads），选择适合你系统的版本下载并安装。

步骤2：安装Python和pip

确保你的Windows系统已安装Python和pip。如果没有，请从Python官方网站（https://www.python.org/downloads/windows/）下载安装程序。

步骤3：安装pytesseract和其依赖

打开命令提示符或PowerShell，并运行以下命令：




pip install pytesseract
pip install pillow

步骤4：编写Python代码




import pytesseract
from PIL import Image
 
# 设置tesseract.exe的路径
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'  # 请替换为你的安装路径
 
# 要识别的图片文件
image_path = 'example.png'
 
# 使用Tesseract进行文字识别
text = pytesseract.image_to_string(Image.open(image_path), lang='eng')
 
print(text)

确保替换image_path变量的值为你要识别的图片文件路径，并且tesseract_cmd变量设置为你的Tesseract安装目录中的tesseract.exe文件路径。lang='eng'参数指定使用英文识别，如果需要识别其他语言，请更换相应的语言代码。

Windows安装Tesseract OCR与Python中使用pytesseract进行文字识别

评论已关闭

推荐阅读