Spring Boot + Apache Tika 实现文档内容解析

作者：System 时间：2024年08月29日分类：所有,java 字数：1215

这篇文章距离上次修改已过682天，其中的内容可能已经有所变动。




import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.springframework.core.io.Resource;
import org.springframework.core.io.UrlResource;
import org.xml.sax.ContentHandler;
import java.io.InputStream;
 
public class TikaService {
 
    public String extractContent(String path) throws Exception {
        Resource resource = new UrlResource(path);
        InputStream inputStream = resource.getInputStream();
        try {
            Parser parser = new AutoDetectParser();
            ContentHandler handler = new BodyContentHandler();
            Metadata metadata = new Metadata();
            metadata.add(Metadata.RESOURCE_NAME_KEY, resource.getFilename());
            parser.parse(inputStream, handler, metadata, new ParseContext());
 
            String content = handler.toString();
            return content;
        } finally {
            inputStream.close();
        }
    }
}

这段代码提供了一个简单的方法extractContent，它接受一个文件路径作为输入，使用Apache Tika库解析文档内容，并返回文档的纯文本内容。这个例子展示了如何在Spring Boot项目中集成Tika来处理文档内容。

Spring Boot + Apache Tika 实现文档内容解析

评论已关闭

推荐阅读