python如何读取parquet文件中的每一行每一列内容
warning:
这篇文章距离上次修改已过449天,其中的内容可能已经有所变动。
在Python中,可以使用pyarrow或fastparquet库来读取Parquet文件中的数据。以下是使用pyarrow的示例代码:
import pyarrow.parquet as pq
# 读取Parquet文件
table = pq.read_table('data.parquet')
# 遍历每一行
for i in range(table.num_rows):
row = table.slice(i, 1).to_pydict()
print(row)
# 或者直接读取为Pandas DataFrame
import pandas as pd
df = pd.read_parquet('data.parquet')
# 遍历每一行
for index, row in df.iterrows():
print(row)确保你已经安装了pyarrow或fastparquet库,如果没有安装,可以使用pip进行安装:
pip install pyarrow
# 或者
pip install fastparquet使用Pandas读取Parquet文件时,确保安装了pandas和pyarrow或fastparquet。
评论已关闭