【记录】Python3| 将 PDF 转换成 HTML/XML(✅⭐⭐⭐⭐pdf2htmlEX)
import os
import subprocess
def convert_pdf_to_html(pdf_path, output_dir, output_name):
"""
使用pdf2htmlEX将PDF文件转换为HTML。
:param pdf_path: 输入PDF文件的路径。
:param output_dir: 输出HTML文件的目录。
:param output_name: 输出HTML文件的名称。
"""
# 确保输出目录存在
os.makedirs(output_dir, exist_ok=True)
# 构建pdf2htmlEX命令
html_output_path = os.path.join(output_dir, f"{output_name}.html")
pdftohtml_cmd = [
"pdf2htmlEX",
pdf_path,
html_output_path,
"--dest-dir", output_dir,
"--zoom", "1.34", # 可根据需要调整缩放比例
]
# 执行命令
try:
subprocess.run(pdftohtml_cmd, check=True)
print(f"PDF转换成HTML成功: {html_output_path}")
except subprocess.CalledProcessError as e:
print(f"PDF转换成HTML失败: {e}")
# 示例使用
pdf_path = "example.pdf"
output_dir = "output"
output_name = "example"
convert_pdf_to_html(pdf_path, output_dir, output_name)
这段代码使用了subprocess
模块来调用外部命令pdf2htmlEX
,它需要在系统中预先安装。代码中的convert_pdf_to_html
函数接受PDF文件路径、输出目录和输出文件名作为参数,然后调用pdf2htmlEX
将PDF转换为HTML。如果转换成功,它会输出一条成功的消息,如果失败,它会捕获异常并输出失败的消息。
评论已关闭