【python】pyarrow.parquet+pandas:读取及使用parquet文件
import pyarrow.parquet as pq
import pandas as pd
# 读取Parquet文件
df = pd.read_parquet('data.parquet')
# 查看数据前五行
print(df.head())
# 查看数据的统计信息
print(df.describe())
# 将处理后的数据保存为新的Parquet文件
processed_df = ... # 这里是数据处理的代码
processed_df.to_parquet('processed_data.parquet', engine='pyarrow')
这段代码展示了如何使用pyarrow.parquet
和pandas
来读取、处理和保存Parquet格式的数据。首先,使用read_parquet
函数读取文件,然后通过describe
方法获取数据的统计信息。最后,处理数据后使用to_parquet
方法将其保存为Parquet文件。
评论已关闭