2 qqnine qqNiNe 于 2016.02.28 22:22 提问

如何用类似于apriori算法的方法挖掘低支持度但高置信度的规则?

apriori算法能够从大量数据中快速找出隐含的高支持度和高置信度的规则。但有些时候,发生概率很低但置信度很高的规则却具有重要的价值。例如,某些战争规律,由于相同的条件再次发生的概率很小,所以被淹没在茫茫的噪声数据中,而如果能够及时发现这些规律,则对国家和军队来说显然是十分有利的。同样的事例还存在于股市、医疗等等领域。现在的问题就在于,apriori通过较高的支持度门限过滤掉绝大部分规则,再在剩下的高支持度规则中寻找高置信度的;而如果降低支持度门槛,则势必会造成寻找高置信度规则的运算量呈指数级增长。请教各位大神,该如何解决这个问题呢?
目前,我找到了一篇相关文献:周贤善的《高置信度关联规则的挖掘》。它是通过将整个事务集划分为若干个等分,再在每个等分中寻找高置信度“长”规则。但是,由于文中没有给出实现代码,其如何在局部数据中寻找高置信规则的方法,我还没有看懂。
我想,所谓低支持度高置信度规则,可以通俗的形容为“前件仅发生3、5次,但每次发生几乎必然导致后件的发生”。如果在一个事务集中,这一规则仅发生了3次,而如果采用分区寻找的方法,则有可能导致这3次发生分布到了3个不同的区内,也就是说一个分区内这一规则最多只发生一次。如果,将这样的只发生一次的事件,判断为一个规则的话,那么分区中的每一个事件都对应的是一个规则,这样显然是不合理的。也就是说:分区不能解决低支持度的问题。
希望各位大神能够给我一些建议。谢谢!

2个回答

devmiao
devmiao   Ds   Rxr 2016.02.28 22:48
wangyaninglm
wangyaninglm   Ds   Rxr 2016.02.29 10:34

你说了挺多的,其实这个东西高不高只是算法的一个方面,到底怎么衡量算法不如在知网多看看论文呢

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!