Spark中RDD概述及RDD算子详解
// 导入Spark的Context
import org.apache.spark.{SparkConf, SparkContext}
// 创建Spark配置对象
val conf = new SparkConf().setAppName("RDD操作示例")
// 创建Spark上下文对象
val sc = new SparkContext(conf)
// 使用parallelize方法创建一个RDD
val numbersRDD = sc.parallelize(Seq(1, 2, 3, 4, 5))
// 使用map算子对RDD中的元素进行操作
val doubledNumbersRDD = numbersRDD.map(_ * 2)
// 打印结果
doubledNumbersRDD.collect().foreach(println)
// 停止Spark上下文
sc.stop()
这段代码首先导入了必要的Spark上下文,然后创建了一个Spark配置对象并设置应用名称,接着创建了Spark上下文对象。之后,使用parallelize
方法创建了一个名为numbersRDD
的RDD,并使用map
算子对其中的每个元素进行操作(此例中是乘以2)。最后,使用collect
算子将RDD中的元素收集到Driver程序中,并用foreach
打印出来。代码的最后停止了Spark上下文的运行。
评论已关闭