2 franksking franksking 于 2016.01.27 14:12 提问

数据挖掘纯度怎么计算?

最近在用weka里面的simplekmeans进行分析,要求是要计算纯度,我想问一下wek里面有可以计算纯度的工具吗,还是有什么别的特别好的计算纯度的工具,顺便问一下纯度的公式怎么算?

2个回答

caozhy
caozhy   Ds   Rxr 2016.01.27 21:35

所谓的“纯度”其实就是信噪比,关键是噪声数据的识别,这个没有统一的方法,而且也不可能有。往往需要结合经验实际来判断。

91program
91program   Ds   Rxr 2016.01.27 14:32

利用Weka进行数据(Big Data)分析和挖掘实战视频课程

应该有数据分析的功能,但可能不会像你想的那么简单(有公式)。

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
信息熵与Gini不纯度
1、信息熵 信息论中的信息量和信息熵。 信息量: 信息量是对信息的度量,就跟温度的度量是摄氏度一样,信息的大小跟随机事件的概率有关。 例如: 在哈尔滨的冬天,一条消息说:哈尔滨明天温度30摄氏度,这个事件肯定会引起轰动,因为它发生的概率很小(信息量大)。日过是夏天,“明天温度30摄氏度”可能没有人觉得是一个新闻,因为夏天温度30摄氏度太正常了,概率太大了(信息点太小
信息熵、信息增益与信息增益率
信息熵和信息增益通俗解释
对于数据混乱程度的判定准则:基尼不纯度、信息熵、方差
两者都是对数据混杂程度的测度。 总结一句:对于标称型数据我们通常用信息熵或者基尼不纯度来判定混乱程度,对于数值型问题则用方差作为判断标                  准。 出处:http://blog.csdn.net/lingtianyulong/article/details/34522757 决策树是一种简单的机器学习方法。决策树经过训练之后,看起来像是以树状形式排列的一系
基尼不纯度(Gini impurity)
决策树是一种简单的机器学习方法。决策树经过训练之后,看起来像是以树状形式排列的一系列if-then语句。一旦我们有了决策树,只要沿着树的路径一直向下,正确回答每一个问题,最终就会得到答案。沿着最终的叶节点向上回溯,就会得到一个有关最终分类结果的推理过程。 决策树: 1 2 3 4 5 6 7 class de
机器学习基础(五十)—— Gini Impurity(基尼不纯度)与香浓熵(Shannon Entropy))
基尼不纯度:衡量集合的无序程度; 基尼不纯度:将来自集合的某种结果随机应用于某一数据项的预期误差率。 IG(f)=∑i=1mfi(1−fi)=∑i=1mfi−∑i=1mf2i=1−∑i=1mf2i I_G(f)=\sum_{i=1}^mf_i(1-f_i)=\sum_{i=1}^mf_i-\sum_{i=1}^mf_i^2=1-\sum_{i=1}^mf_i^2(1)显然基尼不纯度越小,纯度越高,
机器学习实战之决策树(1)---ID3算法与信息熵,基尼不纯度
关于ID3算法百度文库有一篇十分详细的文章,介绍看一个例子,给出了具体的计算过程。 文章链接:http://wenku.baidu.com/view/7933c2f6f61fb7360b4c65fd.html 这是最后的决策树的形状,来源是百度文库。 另有一篇CSDN博客介绍ID3算法:http://blog.csdn.net/zhaoyl03/article/details/86656
评价聚类结果之entropy(熵值)和purity(纯度)
使用k-means算法对数据进行聚类之后,通常需要估计一下
决策树中基尼不纯度初步理解
基尼不纯度
熵、基尼不纯度、KL、互信息
对于一个分类,判断它本身是否“纯净”,可以用熵、基尼不纯度 遇到两个分布的距离,可以用KL 判断两个量的相关性,比如某个特征与某个类别是否有关系,可以用互信息(其实它与条件熵,差不多) 基本内容: http://www.cnblogs.com/TtTiCk/archive/2008/06/25/1229480.html 连续型的时候: http://blog.csdn.net/daringpig/
“熵”与“基尼不纯度”同为判断混乱程度的标准
“熵”与“基尼不纯度”同为判断混乱程度的标准 1、信息熵 信息论中的信息量和信息熵。 信息量: 信息量是对信息的度量,就跟温度的度量是摄氏度一样,信息的大小跟随机事件的概率有关。 例如: 在哈尔滨的冬天,一条消息说:哈尔滨明天温度30摄氏度,这个事件肯定会引起轰动,因为它发生的概率很小(信息量大)。日过是夏天,“明天温度30摄氏度”可能没有人觉得是一个新闻,因为夏天温度30摄氏度太正...