【记录】Python3｜将 PDF 转换成 HTML/XML（✅⭐⭐⭐⭐pdf2htmlEX）

作者：System 时间：2024年08月10日分类：所有,html 字数：1118

这篇文章距离上次修改已过720天，其中的内容可能已经有所变动。




import os
import subprocess
 
def convert_pdf_to_html(pdf_path, output_dir, output_name):
    """
    使用pdf2htmlEX将PDF文件转换为HTML。
    :param pdf_path: 输入PDF文件的路径。
    :param output_dir: 输出HTML文件的目录。
    :param output_name: 输出HTML文件的名称。
    """
    # 确保输出目录存在
    os.makedirs(output_dir, exist_ok=True)
    
    # 构建pdf2htmlEX命令
    html_output_path = os.path.join(output_dir, f"{output_name}.html")
    pdftohtml_cmd = [
        "pdf2htmlEX",
        pdf_path,
        html_output_path,
        "--dest-dir", output_dir,
        "--zoom", "1.34",  # 可根据需要调整缩放比例
    ]
    
    # 执行命令
    try:
        subprocess.run(pdftohtml_cmd, check=True)
        print(f"PDF转换成HTML成功: {html_output_path}")
    except subprocess.CalledProcessError as e:
        print(f"PDF转换成HTML失败: {e}")
 
# 示例使用
pdf_path = "example.pdf"
output_dir = "output"
output_name = "example"
convert_pdf_to_html(pdf_path, output_dir, output_name)

这段代码使用了subprocess模块来调用外部命令pdf2htmlEX，它需要在系统中预先安装。代码中的convert_pdf_to_html函数接受PDF文件路径、输出目录和输出文件名作为参数，然后调用pdf2htmlEX将PDF转换为HTML。如果转换成功，它会输出一条成功的消息，如果失败，它会捕获异常并输出失败的消息。

【记录】Python3｜将 PDF 转换成 HTML/XML（✅⭐⭐⭐⭐pdf2htmlEX）

评论已关闭

推荐阅读