分布式的计算框架之Spark(python第三方库视角学习PySpark)
from pyspark import SparkContext
# 初始化SparkContext
sc = SparkContext("local", "App Name")
# 创建一个RDD
data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)
# 执行一些计算操作
distData.map(lambda x: x ** 2).collect() # 计算每个元素的平方
这段代码演示了如何使用PySpark库来初始化一个SparkContext,创建一个并行化的RDD(Resilient Distributed Dataset),并对其进行一些简单的转换和动作(actions),比如映射(map)和收集(collect)。这是学习PySpark的一个基本例子,展示了如何进行数据的并行处理。
评论已关闭