Spark-Scala语言实战
import org.apache.spark.{SparkConf, SparkContext}
object WordCount {
def main(args: Array[String]): Unit = {
// 初始化Spark配置
val conf = new SparkConf().setAppName("WordCount").setMaster("local")
// 创建Spark上下文
val sc = new SparkContext(conf)
// 读取输入文件
val input = args(0)
// 读取文件内容并分割成单词
val words = sc.textFile(input).flatMap(_.split("\\s+"))
// 将单词映射为(word, 1)对并进行统计
val wordCounts = words.map((_, 1)).reduceByKey(_ + _)
// 将结果保存到输出文件
val output = args(1)
wordCounts.saveAsTextFile(output)
// 停止Spark上下文
sc.stop()
}
}
这段代码使用Spark的Scala API实现了一个简单的词频统计程序。它读取一个文本文件,并统计每个单词出现的次数,然后将结果保存到另一个文件中。这个例子展示了如何在Spark中使用Scala进行基本的数据处理操作。
评论已关闭