PySpark基础入门:Spark SQL(内容补充)
在PySpark中,DataFrame是一种编程抽象,类似于传统数据库中的表,可以用来进行SQL查询。以下是使用Spark SQL进行查询的一些示例:
from pyspark.sql import SparkSession
# 初始化SparkSession
spark = SparkSession.builder.appName("Spark SQL basic example").getOrCreate()
# 创建一个DataFrame
data = [("James", "Bond", "M", 20), ("Ann", "Varsa", "F", 22)]
columns = ["firstname", "lastname", "gender", "age"]
people = spark.createDataFrame(data, columns)
# 注册DataFrame为一个临时表
people.createOrReplaceTempView("people")
# 使用SQL语句进行查询
results = spark.sql("SELECT firstname, age FROM people WHERE gender = 'M'")
# 显示查询结果
results.show()
# 停止SparkSession
spark.stop()
在这个例子中,我们首先创建了一个DataFrame people
,然后通过调用createOrReplaceTempView
方法将其注册为一个临时表。接着,我们使用spark.sql
方法执行了一个SQL查询,选择了性别为"M"的人的名字和年龄。最后,我们调用show
方法显示了查询结果,并在最后停止了SparkSession。
评论已关闭