Java 实现OCR扫描/识别图片文字
在Java中实现OCR扫描/识别图片文字,可以使用开源库Tesseract OCR。以下是使用Tesseract OCR的基本步骤和示例代码:
添加依赖库:
使用Maven时,在
pom.xml
中添加以下依赖:<dependency> <groupId>net.sourceforge.tess4j</groupId> <artifactId>tess4j</artifactId> <version>4.5.4</version> </dependency>
安装Tesseract OCR引擎:
下载并安装Tesseract OCR软件,并确保它可以在命令行中使用。
设置Tesseract路径:
在Java代码中设置Tesseract的路径。
编写代码实现图片文字识别:
import net.sourceforge.tess4j.Tesseract; import net.sourceforge.tess4j.TesseractException; import java.io.File; public class OcrDemo { public static void main(String[] args) { // 初始化Tesseract对象 Tesseract tesseract = new Tesseract(); try { // 设置Tesseract的语言库路径 tesseract.setDatapath("C:\\Program Files\\Tesseract-OCR\\tessdata"); // 设置识别语言,默认为英文,中文简体设置为"chi_sim" tesseract.setLanguage("chi_sim"); // 识别图片文件 String result = tesseract.doOCR(new File("input.jpg")); System.out.println(result); } catch (TesseractException e) { e.printStackTrace(); } } }
确保替换C:\\Program Files\\Tesseract-OCR\\tessdata
为实际的Tesseract语言库路径,以及将input.jpg
替换为你要识别的图片文件路径。
注意:Tesseract对中文识别的效果可能不如英文,可能需要进一步的训练和优化。
评论已关闭