Python中合并多个CSV数据集的技术实践
import pandas as pd
import os
# 设置CSV文件所在的目录
csv_dir = 'path/to/csv_directory'
# 获取所有CSV文件的路径
csv_files = [f for f in os.listdir(csv_dir) if f.endswith('.csv')]
# 初始化一个空的DataFrame
all_data = pd.DataFrame()
# 遍历并合并每个CSV文件
for file in csv_files:
file_path = os.path.join(csv_dir, file)
df = pd.read_csv(file_path)
all_data = all_data.append(df, ignore_index=True)
# 将合并后的DataFrame保存到新的CSV文件中
all_data.to_csv('merged_dataset.csv', index=False)
这段代码首先导入了必要的Python库,并设置了包含CSV文件的目录。然后,它获取目录中所有的CSV文件列表,初始化一个空的DataFrame,遍历每个CSV文件,将它们逐个读取并合并到一个大的DataFrame中,最后将合并后的数据保存到一个新的CSV文件中。这是一个简洁且高效的数据处理流程。
评论已关闭