2 qqnine qqNiNe 于 2016.02.28 22:22 提问

如何用类似于apriori算法的方法挖掘低支持度但高置信度的规则?

apriori算法能够从大量数据中快速找出隐含的高支持度和高置信度的规则。但有些时候,发生概率很低但置信度很高的规则却具有重要的价值。例如,某些战争规律,由于相同的条件再次发生的概率很小,所以被淹没在茫茫的噪声数据中,而如果能够及时发现这些规律,则对国家和军队来说显然是十分有利的。同样的事例还存在于股市、医疗等等领域。现在的问题就在于,apriori通过较高的支持度门限过滤掉绝大部分规则,再在剩下的高支持度规则中寻找高置信度的;而如果降低支持度门槛,则势必会造成寻找高置信度规则的运算量呈指数级增长。请教各位大神,该如何解决这个问题呢?
目前,我找到了一篇相关文献:周贤善的《高置信度关联规则的挖掘》。它是通过将整个事务集划分为若干个等分,再在每个等分中寻找高置信度“长”规则。但是,由于文中没有给出实现代码,其如何在局部数据中寻找高置信规则的方法,我还没有看懂。
我想,所谓低支持度高置信度规则,可以通俗的形容为“前件仅发生3、5次,但每次发生几乎必然导致后件的发生”。如果在一个事务集中,这一规则仅发生了3次,而如果采用分区寻找的方法,则有可能导致这3次发生分布到了3个不同的区内,也就是说一个分区内这一规则最多只发生一次。如果,将这样的只发生一次的事件,判断为一个规则的话,那么分区中的每一个事件都对应的是一个规则,这样显然是不合理的。也就是说:分区不能解决低支持度的问题。
希望各位大神能够给我一些建议。谢谢!

2个回答

devmiao
devmiao   Ds   Rxr 2016.02.28 22:48
wangyaninglm
wangyaninglm   Ds   Rxr 2016.02.29 10:34

你说了挺多的,其实这个东西高不高只是算法的一个方面,到底怎么衡量算法不如在知网多看看论文呢

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
关联规则挖掘算法 Apriori算法的Matlab实现 可以自动生成关联规则,计算支持度、置信度
关联规则挖掘算法 Apriori算法的Matlab实现 可以自动生成关联规则,计算支持度、置信度
关于apriori算法中置信度、支持度怎么理解的问题
比如说啤酒和尿布的问题:TID是transaction ID 即交易编号,说白了就是有五个人在超市买了这样的东西(Iteams),现在我们统计一下,大家买的东西之间有没有什么规律,比如买面包的是不是很可能同时买牛奶这样的规律。那问题来了,有啥东西去度量面包与牛奶有没有关系以及啤酒喝尿布有没有关系?有很多,这里只说置信度和支持度:支持度:这是啥?答:support的首字母S支持度,是规则:{Milk...
数据挖掘中的支持度 置信度 期望置信度 提升度
在各种数据挖掘算法中,关联规则挖掘算是比较重要的一种,尤其是受购物篮分析的影响,关联规则被应用到很多实际业务中,本文对关联规则挖掘做一个小的总结。 首先,和聚类算法一样,关联规则挖掘属于无监督学习方法,它描述的是在一个事物中物品间同时出现的规律的知识模式,现实生活中,比如超市购物时,顾客购买记录常常隐含着很多关联规则,比如购买圆珠笔的顾客中有65%也购买了笔记本,利用这些规则,商场人员可以很
关联规则挖掘(二)-- Apriori 算法
本文首先介绍了Apriori算法的原理,进行了简单的示例推导,而后运用R语言中的arules包对Groceries数据集进行关联规则挖掘实战。
数据挖掘算法之关联规则挖掘(一)apriori算法
关联规则挖掘算法在生活中的应用处处可见,几乎在各个电子商务网站上都可以看到其应用 举个简单的例子 如当当网,在你浏览一本书的时候,可以在页面中看到一些套餐推荐,本书+有关系的书1+有关系的书2+...+其他物品=多少¥ 而这些套餐就很有可能符合你的胃口,原本只想买一本书的你可能会因为这个推荐而买了整个套餐 这与userCF和itemCF不同的是,前两种是推荐类似的,或者你可能喜欢的
支持度和置信度
支持度(Support)的公式是:Support(A->B)=P(A U B)。支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小,说明A与B的关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。     置信度(Confidence)的公式式:Confidence(A->B)=P(A | B)。置信度揭示了A出现时,B是否也会出现或有多大概率出现。如果置信度度为100
关联分析-Apriori算法Java实现 支持度+置信度(1)
apriori算法是最基本的发现频繁项集的算法,它的名字也体现了它的思想——先验,采用逐层搜索迭代的方法,挖掘任何可能的项集,k项集用于挖掘k+1项集。 先验性质 频繁项集的所有非空子集也一定是频繁的 该性质体现了项集挖掘中的反单调性,如果k项集不是频繁的,那么k+1项集一定也不是。基于这一点,算法的基本思想为: step 1:连接     为了搜索k项集,将k-1项
Apriori算法学习笔记(二)
Apriori算法学习笔记(二)1. 基于置信度的剪枝将频繁项集Y划分成两个非空子集X和Y-X,使得X->Y-X满足置信度阈值。此时项集X和项集Y-X已经满足支持度阈值,因为它们是Y的子集且Y为频繁项集。 与频繁项集的产生相似,规则的产生也有两个重要的定理: 1. 如果规则X->Y-X不满足置信度阈值,若X’是X的子集,则X’->Y-X’的规则也不满足置信度阈值。 2. 如果规则X->Y-
关联分析-Apriori算法Java实现 支持度+置信度(2)
=========补充了关联规则的生成======== 比想象的要麻烦一点 关联规则可以是双向的,confidence(A-->B)=P(A|B)=support(A&B)/support(A) 所以在计算k项集的关联规则时,其分母都是k项集的支持度,分子为k-1项集的支持度,以及对应1项集的支持度 001 /**
挖掘关联规则之Apriori算法详解
1. 挖掘关联规则 1.1   什么是关联规则 一言蔽之,关联规则是形如X→Y的蕴涵式,表示通过X可以推导“得到”Y,其中X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 1.2   如何量化关联规则 关联规则挖掘的一个典型例子便是购物车分析。通过关联规则挖掘能够发现顾客放入