Java 实现OCR扫描/识别图片文字

作者：System 时间：2024年08月27日分类：所有,java 字数：1400

这篇文章距离上次修改已过679天，其中的内容可能已经有所变动。

在Java中实现OCR扫描/识别图片文字，可以使用开源库Tesseract OCR。以下是使用Tesseract OCR的基本步骤和示例代码：

添加依赖库：

使用Maven时，在pom.xml中添加以下依赖：




<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.5.4</version>
</dependency>

安装Tesseract OCR引擎：
下载并安装Tesseract OCR软件，并确保它可以在命令行中使用。
设置Tesseract路径：
在Java代码中设置Tesseract的路径。

编写代码实现图片文字识别：




import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import java.io.File;
 
public class OcrDemo {
    public static void main(String[] args) {
        // 初始化Tesseract对象
        Tesseract tesseract = new Tesseract();
 
        try {
            // 设置Tesseract的语言库路径
            tesseract.setDatapath("C:\\Program Files\\Tesseract-OCR\\tessdata");
 
            // 设置识别语言，默认为英文，中文简体设置为"chi_sim"
            tesseract.setLanguage("chi_sim");
 
            // 识别图片文件
            String result = tesseract.doOCR(new File("input.jpg"));
            System.out.println(result);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

确保替换C:\\Program Files\\Tesseract-OCR\\tessdata为实际的Tesseract语言库路径，以及将input.jpg替换为你要识别的图片文件路径。

注意：Tesseract对中文识别的效果可能不如英文，可能需要进一步的训练和优化。

Java 实现OCR扫描/识别图片文字

评论已关闭

推荐阅读