python使用关联分析处理大数据

1.数据量十几万条！
2.想做数据挖掘的关联分析 (啤酒与尿布的故事)
3.使用apriori算法与fp_tree算法根本跑不动大数据

求问还有什么算法或者方法可以做大数据的关联分析？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
@晓码自在 2023-05-24 17:42
关注
该回答引用ChatGPT4与博主@晓码自在合作编写：

对于大数据的关联分析,可以考虑以下几个方面:

采样:只使用数据集的一个样本,而不是全部数据。比如随机采样10万条数据进行分析。采样可以大大减小计算量,而结果也不会有太大偏差。
分片:将数据分割成多个片段,在每个片段上分别进行关联分析,然后聚合结果。每个片段的计算量都会小很多,所以更容易完成。
并行化:采用Spark, Flink等大数据框架,通过并行化大大提高apriori和FP-growth算法的性能,使其能够处理更大的数据集。
改进的算法:

FP-growth*:一种改进的FP-growth算法,通过剪枝和合并可以提高效率。
基于位图的算法:通过位图来表示项集和交易记录,可以大大压缩空间和提高效率。
支持度剪枝:按支持度阈值更早剪枝,可以提前终止 recursion,减少计算量。

拟合简单模型:通过决策树,Logistic回归等简单模型对全部数据集进行拟合和预测,得到规则和关联结果。这种bayesian学习的方法更适合超大数据集。

如果数据集太大,建议从1-3开始尝试,采样、分片和并行化能够在不改变算法的情况下大幅提高性能。
如果1-3还不够,可以尝试4中的改进算法和新方法。特别推荐基于位图的算法,它在空间和时间上的优化都很显著。
如果都不行,才使用5中通过机器学习简单模型来拟合和分析全数据集。这需要对机器学习有一定基础。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

使用python 实现对CSV文件数据的处理 python 大数据
2022-03-18 16:05

回答 2 已采纳 import pandas as pd import re df = pd.DataFrame({'Category':['C,D','A,B,C','A,D','C','A,D','A,B,C','
两列时间序列数据怎么用apriori算法做关联分析呢？(语言-python) python 数据分析算法
2022-06-01 14:01

回答 3 已采纳原始数据—>滑动窗口L=10截取原始数据得到N个子序列—>线性拟合—>标准化斜率—>子序列符号化处理—>Apriori算法我觉得这个说的挺清楚的啊，关联算法本身解决的是各
python数据处理 python 大数据数据分析
2023-03-07 18:50

回答 3 已采纳参考GPT和自己的思路，你可以使用pandas和numpy库来完成这个任务。以下是一个可能的解决方案： import os import pandas as pd # 指定文件夹路径 folder_
基于Python实现的北京市大数据岗位招聘数据分析及可视化展示项目源代码+数据+爬虫
2024-04-17 16:10

综上所述，这个项目涵盖了Python编程、网络爬虫、数据处理、数据分析、数据可视化等多个环节，是学习和实践Python在大数据领域应用的一个综合实例。通过参与这样的项目，可以提升数据获取、处理和解读的能力，对从事...
Python编程语言 list python 有问必答
2021-12-29 11:00

回答 2 已采纳 import random n=int(input()) list=[] for i in range(n): list.append(random.randint(1,200)) print
自然语言处理与python相关知识错误 python 自然语言处理
2018-07-19 02:23

回答 4 已采纳 u只是说明它是UTF编码的，这个只在python2中有，python3中已经没有这个u了
python的题，大数据 python
2021-12-07 15:08

回答 1 已采纳题呢
基于大数据的学生编程数据挖掘与分析-张倩.pdf
2023-12-18 22:30

Python语言是目前非常流行的一种编程语言，学生学习Python语言可以帮助他们更好地学习编程，并快速解决学习中遇到的问题。 Knowledge Point 9: 学生编程学习中的相关研究相关研究对C程序编译及运行时的出错情况...
python 批量处理 python 大数据
2023-03-03 12:18

回答 10 已采纳基于Monster 组和GPT的调写：可以根据文件名中的序号自动生成文件夹，将对应的文件移动到文件夹中： import os import shutil # 指定csv文件所在目录 csv_dir
如何使用python绘制列线图 python r语言
2021-08-15 09:14

回答 1 已采纳可以呦，看起来没有R语言绘图的更好一些。能达到90%的效果源码参考：使用Python，matplotlib绘制Nomogram列线图_程序媛一枚~的博客-CSDN博客使用Python，
使用python语言定义show info函数 python
2021-06-18 11:10

回答 1 已采纳 depart_code = {0:'big_data',1:'network',2:'infomation',3:'others'} def show_info(name,depart=3,info
Twitter数据挖掘之如何使用Python分析大数据.pdf
2022-05-31 19:36

Python作为一种强大的编程语言，因其简洁的语法和丰富的库支持，成为数据科学家首选的工具之一。Python中的Tweepy库使得与Twitter API的交互变得简单。 **使用Tweepy进行Twitter数据挖掘** 1. **获取Twitter开发者...
python处理.sql文件 python 大数据
2023-02-13 17:21

回答 2 已采纳 .sql是个数据库备份文件，你需要先导入数据库里再连接数据库，直接读没法读除非你知道.sql里的数据格式
Python+大数据-数据处理与分析(三)-数据清洗
2022-10-17 08:45

呆猛的呆呆小哥的博客 Python+大数据-数据处理与分析(三)-数据清洗
基于python的图书馆大数据可视化分析系统设计与实现.docx
2023-07-25 16:14

本设计旨在利用Python编程语言，结合大数据处理技术和可视化工具，构建一个图书馆大数据可视化分析系统，以提升图书馆服务效率，优化资源分配，并辅助决策。 1.1 课题背景随着数字化进程的加速，图书馆的数据量...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月24日

悬赏问题

¥15 curl 命令调用正常，程序调用报 java.net.ConnectException: connection refused
¥20 关于web前端如何播放二次加密m3u8视频的问题
¥20 spring boot集成mqtt的使用问题
¥15 使用百度地图api 位置函数报错？
¥15 metamask如何添加TRON自定义网络
¥66 关于川崎机器人调速问题
¥15 winFrom界面无法打开
¥30 crossover21 ARM64版本安装软件问题
¥15 mymetaobjecthandler没有进入
¥15 mmo能不能做客户端怪物

python使用关联分析处理大数据

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新