python数据挖掘关联规则 apriori算法运算中的问题

-*- coding: utf-8 -*-
from future import print_function
import pandas as pd

#自定义连接函数，用于实现L_{k-1}到C_k的连接
def connect_string(x, ms):
x = list(map(lambda i:sorted(i.split(ms)), x))
l = len(x[0])
r = []
for i in range(len(x)):
for j in range(i,len(x)):
if x[i][:l-1] == x[j][:l-1] and x[i][l-1] != x[j][l-1]:
r.append(x[i][:l-1]+sorted([x[j][l-1],x[i][l-1]]))
return r

#寻找关联规则的函数
def find_rule(d, support, confidence, ms = u'--'):
result = pd.DataFrame(index=['support', 'confidence']) #定义输出结果

support_series = 1.0*d.sum()/len(d) #支持度序列
column = list(support_series[support_series > support].index) #初步根据支持度筛选
k = 0

while len(column) > 1:
k = k+1
print(u'\n正在进行第%s次搜索...' %k)
column = connect_string(column, ms)
print(u'数目：%s...' %len(column))
sf = lambda i: d[i].prod(axis=1, numeric_only = True) #新一批支持度的计算函数

#创建连接数据，这一步耗时、耗内存最严重。当数据集较大时，可以考虑并行运算优化。
d_2 = pd.DataFrame(list(map(sf,column)), index = [ms.join(i) for i in column]).T

support_series_2 = 1.0*d_2[[ms.join(i) for i in column]].sum()/len(d) #计算连接后的支持度
column = list(support_series_2[support_series_2 > support].index) #新一轮支持度筛选
support_series = support_series.append(support_series_2)
column2 = []

for i in column: #遍历可能的推理，如{A,B,C}究竟是A+B-->C还是B+C-->A还是C+A-->B？
  i = i.split(ms)
  for j in range(len(i)):
    column2.append(i[:j]+i[j+1:]+i[j:j+1])

cofidence_series = pd.Series(index=[ms.join(i) for i in column2]) #定义置信度序列

for i in column2: #计算置信度序列
  cofidence_series[ms.join(i)] = support_series[ms.join(sorted(i))]/support_series[ms.join(i[:len(i)-1])]

for i in cofidence_series[cofidence_series > confidence].index: #置信度筛选
  result[i] = 0.0
  result[i]['confidence'] = cofidence_series[i]
  result[i]['support'] = support_series[ms.join(sorted(i.split(ms)))]

result = result.T.sort_values(['confidence','support'], ascending = False) #结果整理，输出
print(u'\n结果为：')
print(result)

return result

-- coding: utf-8 --

inputfile = 'C:/course/c5_data1.xlsx'
outputfile = 'C:/course/c5_answer.xlsx' #结果文件
data = pd.read_excel(inputfile, header = None)

print(u'\n转换原始数据至0-1矩阵...')
ct = lambda x : pd.Series(1, index = x[pd.notnull(x)]) #转换0-1矩阵的过渡函数
b = map(ct, data.as_matrix()) #用map方式执行
data = pd.DataFrame(list(b)).fillna(0) #实现矩阵转换，空值用0填充
#print(u'\n转换完毕。')
#del b #删除中间变量b，节省内存
support = 0.2 #最小支持度
confidence = 0.5 #最小置信度
ms = '---' #连接符，默认'--'，用来区分不同元素，如A--B。需要保证原始表格中不含有该字符
find_rule(data, support, confidence, ms)
出现以下
图片说明

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

报告相同问题？

关注问题

两列时间序列数据怎么用apriori算法做关联分析呢？(语言-python) python 数据分析算法
2022-06-01 14:01

回答 3 已采纳原始数据—>滑动窗口L=10截取原始数据得到N个子序列—>线性拟合—>标准化斜率—>子序列符号化处理—>Apriori算法我觉得这个说的挺清楚的啊，关联算法本身解决的是各
谁能讲讲这个关联规则算法 python
2023-02-15 16:34

回答 2 已采纳该回答引用ChatGPT这是一个 Python 语言实现的 Apriori 算法，用于在给定的事务数据库 D 中，挖掘频繁项集。Apriori 算法是一种经典的数据挖掘算法，它是一种迭代算法，通过利用
如何将YOLOv5中的NMS替换成DIOU NMS? python 有问必答深度学习神经网络
2021-04-13 13:54

回答 10 已采纳 https://github.com/Zzh-tju/yolov5 参考下这个有对比的图 u版本的默认GIOU
Python电影智能推荐之Apriori算法（推荐）
2022-04-20 09:11

Apriori算法是第一个关联规则挖掘算法，也是最经典的算法。它利用逐层搜索的迭代方法找出数据库中项集的关系，以形成规则，其过程由连接（类矩阵运算）与剪枝（去掉那些没必要的中间结果）组成。
java中索引越界异常 java
2022-04-12 22:31

回答 1 已采纳字符数组b是空数组，x是大于0的，肯定会下标越界呀
整数的映射-> Go中的2d slice
2014-02-07 07:16

回答 1 已采纳 First of all, there is a difference between a slice and an array. var a [3]int // Array of 3 ints
如何分配内存以映射指向golang中的切片
2018-10-01 22:44

回答 2 已采纳 So given that your description of the problem is really rather vague, I'll just start by saying ho
挖掘建模④—关联规则及Apriori算法案例与python实现
2021-12-07 19:36

eeenkidu的博客挖掘建模③—关联规则及python实现关联规则常用关联算法Apriori算法 关联规则 关联规则分析是数据挖掘中最活跃的研究方法之一，目的是在一个数据集中找出各项之间的关联关系，而这种关系并没有在数据中直接表示出来...
dev c++ 里运行程序为什么会出现这样啊，昨天还好好的 c语言有问必答
2021-11-24 21:07

回答 3 已采纳其他编辑器试过没，代码发一下。
数据挖掘-关联规则学习-Apriori算法原理
2023-08-27 19:50

努力向前的JF（s1hjf）的博客关联分析亦称为关联规则学习。关联分析就是从中，发现对象之间隐含关系与规律的过程。
python关联规则apriori算法_如何理解关联规则apriori算法
2021-01-29 10:11

你踩到我法袍了的博客理解关联规则apriori算法：Apriori算法是第一个关联规则挖掘算法，也是最经典的算法，它利用逐层搜索的迭代方法找出数据库中项集的关系，以形成规则，其过程由连接【类矩阵运算】与剪枝【去掉那些没必要的中间结果】...
数据挖掘实验：关联规则分析之Apriori算法的实现
2023-03-15 11:32

jigsaw6213的博客 Apriori算法是第一个关联规则挖掘算法，也是最经典的算法。它利用逐层搜索的迭代方法找出数据库中项集的关系，以形成规则，其过程由连接（类矩阵运算）与剪枝（去掉那些没必要的中间结果）组成。该算法中项集的概念...
大白话解析Apriori算法python实现（含源代码详解）
2020-04-03 20:17

A little storm的博客前言：Apriori算法是关联规则挖掘算法，也是最经典的算法。它是为了发现事物之间的联系的算法，比如我们熟知的啤酒与尿布故事，某超市在对顾客购物习惯分析时，发现，男性顾客在购买婴儿尿片时，常常会顺便搭配几瓶...
从购物篮分析到关联规则挖掘 Apriori算法
2021-05-09 18:28

王清欢Randy的博客从购物篮分析到关联规则挖掘 Apriori算法 随着大量数据不断的收集和存储，许多业界人士对于从他们的数据库中挖掘知识越来越感兴趣。对于商场而言，从大量的商务事务记录中发现有价值的的关联关系，可以为货物摆放...
数据挖掘学习笔记：Apriori算法介绍和使用Python的两种实现(原始版和改进版)
2022-05-11 10:08

strcpy_s的博客 数据挖掘课程的作业，要求研究一个算法并写一篇实验报告。本次报告使用[Overleaf](https://www.overleaf.com)编写，模板使用的IEEE期刊，后续将展示本次报告源码。以下正文内容是该报告的中文翻译，内容有删改。正文...
关联规则算法——Apriori算法解析及Python实现
2021-04-26 20:55

bibibibiboi的博客文章目录关联规则挖掘过程Apriori算法1. Apriori算法的基本思想2. Apriori算法产生频繁项集的过程3. Apriori算法的主要步骤4. 举例及代码实现 关联规则挖掘过程 关联规则挖掘问题可以分解为以下两个子问题找频繁...
关联规则Apriori算法及实现（python）
2018-08-12 17:39

starter_zheng的博客这八个定义包含了关联规则相关的几个重要基本概念，关联规则挖掘主要有两个问题：找出交易数据库中所有大于或等于用户指定的最小支持度的频繁项集。利用频繁项集生成所需要的关联规则，根据用户设定的最小...
【数据挖掘实战】——中医证型的关联规则挖掘(Apriori算法)
2023-02-19 15:32

Lingxw_w的博客数据离散化：Apriori关联规则算法无法处理连续性数值变量，对数据进行离散化。本例采用聚类算法对各个证型系数进行离散化处理，将每个属性聚成四类。聚类离散化，最后的result的格式为： 1 2 3 4 A 0 0.178698 0....
没有解决我的问题, 去提问

悬赏问题

¥15 sqlite 附加（attach database）加密数据库时，返回26是什么原因呢？
¥88 找成都本地经验丰富懂小程序开发的技术大咖
¥15 如何处理复杂数据表格的除法运算
¥15 如何用stc8h1k08的片子做485数据透传的功能？(关键词-串口)
¥15 有兄弟姐妹会用word插图功能制作类似citespace的图片吗？
¥200 uniapp长期运行卡死问题解决
¥15 latex怎么处理论文引理引用参考文献
¥15 请教：如何用postman调用本地虚拟机区块链接上的合约？
¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题：[h264 @ 000000004faf7500]no frame？
¥15 乘性高斯噪声在深度学习网络中的应用

码龄粉丝数原力等级 --

python数据挖掘关联规则 apriori算法运算中的问题

-- coding: utf-8 --

0条回答默认最新

悬赏问题

python数据挖掘 关联规则 apriori算法运算中的问题

-*- coding: utf-8 -*-

0条回答 默认 最新

悬赏问题

python数据挖掘关联规则 apriori算法运算中的问题

-- coding: utf-8 --

0条回答默认最新