Python 与 PySpark数据分析实战指南：解锁数据洞见

作者：System 时间：2024年08月12日分类：所有,python 字数：750

这篇文章距离上次修改已过364天，其中的内容可能已经有所变动。




from pyspark.sql import SparkSession
 
# 初始化Spark会话
spark = SparkSession.builder \
    .appName("data_analysis") \
    .getOrCreate()
 
# 读取数据文件
data_path = "hdfs://path/to/your/data.csv"
df = spark.read.csv(data_path, header=True, inferSchema=True)
 
# 数据清洗和转换
# 假设我们要删除重复的记录
df_cleaned = df.dropDuplicates()
 
# 调用函数进行数据分析
from pyspark.sql.functions import mean, sum
result = df_cleaned.agg(mean("column_name").alias("average"),
                        sum("column_name").alias("total"))
 
# 将结果保存到HDFS
output_path = "hdfs://path/to/output"
result.coalesce(1).write.mode("overwrite").csv(output_path)
 
# 停止Spark会话
spark.stop()

这段代码演示了如何使用PySpark读取数据，进行数据清洗，应用聚合函数计算平均值和总和，并将结果保存回HDFS。这是一个简化的流程，实际应用中可能需要更复杂的数据处理。

Python 与 PySpark数据分析实战指南：解锁数据洞见

评论已关闭

推荐阅读