Pyspark+关联规则 Kaggle购物篮分析案例
from pyspark.sql import SparkSession
from pyspark.mllib.fpm import FPGrowth
# 初始化Spark会话
spark = SparkSession.builder.appName("PysparkAssociationRules").getOrCreate()
# 读取数据集
data = spark.read.format("libsvm").load("data/retail/retail.txt")
# 使用FPGrowth算法发现频繁项集
fpg = FPGrowth(itemsCol="items", minSupport=0.2, numPartitions=10)
model = fpg.fit(data)
# 查看频繁项集的规则
for rule in model.associationRules.collect():
print(rule)
# 停止Spark会话
spark.stop()
这段代码演示了如何使用PySpark的FPGrowth算法来发现频繁项集,并输出关联规则。首先,它初始化了一个Spark会话,然后读取数据集,接着使用FPGrowth算法训练模型,并遍历模型中的关联规则打印出来。最后,它停止了Spark会话。这个案例对于学习如何在实践中使用关联规则模型是很有帮助的。
评论已关闭