从0开始学习pyspark--pyspark的数据读取[第4节]
from pyspark.sql import SparkSession
# 初始化SparkSession
spark = SparkSession.builder \
.appName("pyspark_data_read") \
.config("spark.some.config.option", "some-value") \
.getOrCreate()
# 读取JSON数据
df_json = spark.read.json("path/to/your/json/data")
# 读取CSV数据
df_csv = spark.read.csv("path/to/your/csv/data", header=True, inferSchema=True)
# 显示DataFrame的内容
df_json.show()
df_csv.show()
# 停止SparkSession
spark.stop()
这段代码演示了如何使用PySpark读取JSON和CSV格式的数据,并展示了数据框(DataFrame)的内容。在实际应用中,需要替换"path/to/your/json/data"
和"path/to/your/csv/data"
为实际数据文件的路径。
评论已关闭