分布式的计算框架之Spark（python第三方库视角学习PySpark）

作者：System 时间：2024年08月23日分类：所有,分布式字数：423

这篇文章距离上次修改已过492天，其中的内容可能已经有所变动。




from pyspark import SparkContext
 
# 初始化SparkContext
sc = SparkContext("local", "App Name")
 
# 创建一个RDD
data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)
 
# 执行一些计算操作
distData.map(lambda x: x ** 2).collect()  # 计算每个元素的平方

这段代码演示了如何使用PySpark库来初始化一个SparkContext，创建一个并行化的RDD（Resilient Distributed Dataset），并对其进行一些简单的转换和动作（actions），比如映射（map）和收集（collect）。这是学习PySpark的一个基本例子，展示了如何进行数据的并行处理。

分布式的计算框架之Spark（python第三方库视角学习PySpark）

评论已关闭

推荐阅读