python如何读取parquet文件中的每一行每一列内容
在Python中,可以使用pyarrow
或fastparquet
库来读取Parquet文件中的数据。以下是使用pyarrow
的示例代码:
import pyarrow.parquet as pq
# 读取Parquet文件
table = pq.read_table('data.parquet')
# 遍历每一行
for i in range(table.num_rows):
row = table.slice(i, 1).to_pydict()
print(row)
# 或者直接读取为Pandas DataFrame
import pandas as pd
df = pd.read_parquet('data.parquet')
# 遍历每一行
for index, row in df.iterrows():
print(row)
确保你已经安装了pyarrow
或fastparquet
库,如果没有安装,可以使用pip
进行安装:
pip install pyarrow
# 或者
pip install fastparquet
使用Pandas
读取Parquet文件时,确保安装了pandas
和pyarrow
或fastparquet
。
评论已关闭