Spark SQL数据源 - Parquet文件
在Spark SQL中,要读取Parquet文件作为数据源,可以使用spark.read.parquet
方法。以下是一个简单的例子,展示如何读取Parquet文件并注册为一个临时表,然后执行SQL查询。
import org.apache.spark.sql.SparkSession
// 创建SparkSession
val spark = SparkSession.builder()
.appName("ParquetFileExample")
.getOrCreate()
// 读取Parquet文件
val parquetFileDF = spark.read.parquet("path/to/your/parquet/file.parquet")
// 注册临时表
parquetFileDF.createOrReplaceTempView("parquet_table")
// 执行SQL查询
val sqlQueryDF = spark.sql("SELECT * FROM parquet_table WHERE column_name = 'value'")
// 显示查询结果
sqlQueryDF.show()
// 停止SparkSession
spark.stop()
在这个例子中,替换"path/to/your/parquet/file.parquet"
为你的Parquet文件的实际路径。column_name
和value
也需要替换为你的列名和过滤条件。这段代码展示了如何在Spark SQL中使用Parquet文件作为数据源,并执行基本的SQL查询。
评论已关闭