PySpark数据分析基础:核心数据类Row和Column原理及常用操作一文详解
from pyspark.sql import SparkSession
from pyspark.sql.types import *
# 初始化SparkSession
spark = SparkSession.builder.appName("example").getOrCreate()
# 创建一个Row对象
row = Row(name="Alice", age=25)
# 创建一个DataFrame
l = [row]
schema = StructType([StructField("name", StringType(), True), StructField("age", IntegerType(), True)])
df = spark.createDataFrame(l, schema)
# 显示DataFrame内容
df.show()
# 关闭SparkSession
spark.stop()
这段代码首先导入了必要的PySpark模块,然后初始化了一个SparkSession。接着,创建了一个Row对象,并定义了一个包含这个Row的DataFrame。最后,展示了DataFrame的内容,并在完成后关闭了SparkSession。这个例子展示了如何使用PySpark进行基本的数据操作,并且对于学习如何在PySpark中处理数据非常有帮助。
评论已关闭