Python批量提取Word文档表格数据

作者：System 时间：2024年08月07日分类：所有,python 字数：873

这篇文章距离上次修改已过345天，其中的内容可能已经有所变动。




import os
from docx import Document
 
# 定义一个函数来批量提取Word文档中的表格数据
def extract_tables_from_word_docs(word_dir):
    # 获取目录中所有的Word文档
    word_files = [f for f in os.listdir(word_dir) if f.endswith('.docx')]
    for word_file in word_files:
        word_path = os.path.join(word_dir, word_file)
        doc = Document(word_path)
        for table in doc.tables:
            for row in table.rows:
                for cell in row.cells:
                    print(cell.text, end='\t')
                print()  # 换行
        print("-" * 60)  # 分隔线
 
# 使用示例
word_documents_folder = '/path/to/word/documents'  # 替换为Word文档所在的文件夹路径
extract_tables_from_word_docs(word_documents_folder)

这段代码定义了一个函数extract_tables_from_word_docs，它接受一个目录路径作为参数，该目录包含要提取表格数据的Word文档。函数遍历目录中的每个.docx文件，并使用python-docx库提取每个文档中的表格数据。每个单元格的文本被打印出来，然后打印一个分隔线以便可以区分不同的文档和表格。

Python批量提取Word文档表格数据

评论已关闭

推荐阅读