【记录】Python3| 将 PDF 转换成 HTML/XML(✅⭐⭐⭐⭐pdf2htmlEX)
    		       		warning:
    		            这篇文章距离上次修改已过451天,其中的内容可能已经有所变动。
    		        
        		                
                
import os
import subprocess
 
def convert_pdf_to_html(pdf_path, output_dir, output_name):
    """
    使用pdf2htmlEX将PDF文件转换为HTML。
    :param pdf_path: 输入PDF文件的路径。
    :param output_dir: 输出HTML文件的目录。
    :param output_name: 输出HTML文件的名称。
    """
    # 确保输出目录存在
    os.makedirs(output_dir, exist_ok=True)
    
    # 构建pdf2htmlEX命令
    html_output_path = os.path.join(output_dir, f"{output_name}.html")
    pdftohtml_cmd = [
        "pdf2htmlEX",
        pdf_path,
        html_output_path,
        "--dest-dir", output_dir,
        "--zoom", "1.34",  # 可根据需要调整缩放比例
    ]
    
    # 执行命令
    try:
        subprocess.run(pdftohtml_cmd, check=True)
        print(f"PDF转换成HTML成功: {html_output_path}")
    except subprocess.CalledProcessError as e:
        print(f"PDF转换成HTML失败: {e}")
 
# 示例使用
pdf_path = "example.pdf"
output_dir = "output"
output_name = "example"
convert_pdf_to_html(pdf_path, output_dir, output_name)这段代码使用了subprocess模块来调用外部命令pdf2htmlEX,它需要在系统中预先安装。代码中的convert_pdf_to_html函数接受PDF文件路径、输出目录和输出文件名作为参数,然后调用pdf2htmlEX将PDF转换为HTML。如果转换成功,它会输出一条成功的消息,如果失败,它会捕获异常并输出失败的消息。
评论已关闭