Python 与 PySpark数据分析实战指南:解锁数据洞见
from pyspark.sql import SparkSession
# 初始化Spark会话
spark = SparkSession.builder \
.appName("data_analysis") \
.getOrCreate()
# 读取数据文件
data_path = "hdfs://path/to/your/data.csv"
df = spark.read.csv(data_path, header=True, inferSchema=True)
# 数据清洗和转换
# 假设我们要删除重复的记录
df_cleaned = df.dropDuplicates()
# 调用函数进行数据分析
from pyspark.sql.functions import mean, sum
result = df_cleaned.agg(mean("column_name").alias("average"),
sum("column_name").alias("total"))
# 将结果保存到HDFS
output_path = "hdfs://path/to/output"
result.coalesce(1).write.mode("overwrite").csv(output_path)
# 停止Spark会话
spark.stop()
这段代码演示了如何使用PySpark读取数据,进行数据清洗,应用聚合函数计算平均值和总和,并将结果保存回HDFS。这是一个简化的流程,实际应用中可能需要更复杂的数据处理。
评论已关闭