Python批量提取Word文档表格数据
import os
from docx import Document
# 定义一个函数来批量提取Word文档中的表格数据
def extract_tables_from_word_docs(word_dir):
# 获取目录中所有的Word文档
word_files = [f for f in os.listdir(word_dir) if f.endswith('.docx')]
for word_file in word_files:
word_path = os.path.join(word_dir, word_file)
doc = Document(word_path)
for table in doc.tables:
for row in table.rows:
for cell in row.cells:
print(cell.text, end='\t')
print() # 换行
print("-" * 60) # 分隔线
# 使用示例
word_documents_folder = '/path/to/word/documents' # 替换为Word文档所在的文件夹路径
extract_tables_from_word_docs(word_documents_folder)
这段代码定义了一个函数extract_tables_from_word_docs
,它接受一个目录路径作为参数,该目录包含要提取表格数据的Word文档。函数遍历目录中的每个.docx
文件,并使用python-docx
库提取每个文档中的表格数据。每个单元格的文本被打印出来,然后打印一个分隔线以便可以区分不同的文档和表格。
评论已关闭