Python大数据之PySpark使用Python语言开发Spark程序代码
from pyspark import SparkContext
# 初始化SparkContext
sc = SparkContext("local", "Spark App")
# 创建一个RDD
data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)
# 执行一些转换操作
distData = distData.map(lambda x: x ** 2)
# 收集结果
result = distData.collect()
print(result) # 输出: [1, 4, 9, 16, 25]
# 停止SparkContext
sc.stop()
这段代码演示了如何在Python中使用PySpark库来创建一个简单的Spark程序。首先,我们导入了SparkContext类。然后,我们初始化了一个SparkContext对象。接下来,我们创建了一个由数据组成的RDD(弹性分布式数据集),并对其进行了一个简单的转换操作(平方每个数字)。最后,我们收集结果并打印出来,然后停止SparkContext。
评论已关闭