大部分数据挖掘算法都将选取的样例、误差默认为服从高斯分布

大部分数据挖掘算法都将选取的样例、误差默认为服从高斯分布,这样对数据挖掘结果的精确度影响到底有多大?甚至是这种默认是不是根本就不对?

说服从高斯分布是大量统计的结果,然后就将不明白具体分布的一些样例都默认为高斯分布,总感觉不是很靠谱啊?

2个回答

你要用特例,肯定可以推到这个假设,但是有意义嘛!统计学,是能分析出大量数据的一些规律性的。

sylvia888
sylvia888 是的,虽然不知道为什么这样,但也只能相信统计规律了。。。我只是在想会不会随着统计数据的增大,规律发生变化。。
5 年多之前 回复

晕,高斯分布,我们一般都叫做正态分布好不好。正态分布是最符合自然情况的分布形态。
好比你要选取一个班级学生的成绩样本,如果是随机选取的,肯定是高分和不及格的少,成绩中等的多。
模拟一组人的身高体重也是如此。
难道你还想怎么分布?0-1分布?从一个学校抽取学生样本抽取几个尖子生再选几个差生?平均分布?100分、90分、80分、70分各取一个?

sylvia888
sylvia888 是的,也只能相信现在的统计规律,这可能就是世界的规律性,从混沌到有序?虽然我们也不知道为什么会是这样子的。。。
5 年多之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问
相关内容推荐