Pyspark+关联规则 Kaggle购物篮分析案例

作者：System 时间：2024年08月20日分类：所有,ajax 字数：645

这篇文章距离上次修改已过686天，其中的内容可能已经有所变动。




from pyspark.sql import SparkSession
from pyspark.mllib.fpm import FPGrowth
 
# 初始化Spark会话
spark = SparkSession.builder.appName("PysparkAssociationRules").getOrCreate()
 
# 读取数据集
data = spark.read.format("libsvm").load("data/retail/retail.txt")
 
# 使用FPGrowth算法发现频繁项集
fpg = FPGrowth(itemsCol="items", minSupport=0.2, numPartitions=10)
model = fpg.fit(data)
 
# 查看频繁项集的规则
for rule in model.associationRules.collect():
    print(rule)
 
# 停止Spark会话
spark.stop()

这段代码演示了如何使用PySpark的FPGrowth算法来发现频繁项集，并输出关联规则。首先，它初始化了一个Spark会话，然后读取数据集，接着使用FPGrowth算法训练模型，并遍历模型中的关联规则打印出来。最后，它停止了Spark会话。这个案例对于学习如何在实践中使用关联规则模型是很有帮助的。

Pyspark+关联规则 Kaggle购物篮分析案例

评论已关闭

推荐阅读