请问数据挖掘要学什么？

请问数据挖掘要学什么？目前知道的就机器学习和深度学习，语言用的py。。请问还要学别的吗。。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
.LAL. C/C++领域新星创作者 2022-12-18 12:22
关注
01

什么是数据挖掘

数据挖掘（Data Mining）应该是一门大家都听说过，但又不太容易说清楚的课程。在数据科学领域，乃至在更大的计算机科学领域，数据挖掘就好比山东蓝翔，大家不一定都知道挖掘机要怎么开，但一定都知道挖掘机技术到底哪家强。

不过，知名度高也未必全是好事，尤其是啤酒尿布的故事太经典，反而会让大家以为这活很“高端”，离自己太远，不会用也用不上。其实，很多人未必学过数据挖掘，甚至可能没有听过这四个字，但实际已经早就开始在进行数据挖掘。譬如说股民。

很多人说今年的行情很有希望，要去学炒股。学炒股就是学股市中的数据挖掘，流派很多，譬如说技术分析流，认为K线图或者其他什么图，和股市后市走势关系密切；价值投资流则认为，通过一整套考察公司的指标体系，才能更好地推测股票的未来价值；当然也有一些旁门左道，譬如说门口大妈流，就是看到门口卖菜的大妈开始谈论股票的时候，说明行情就见顶了，要赶紧抽身。不管你钟情哪种方法，所要做的事都非常类似，就是把从各种地方收集的信息，也就是“数据”，加以整理分析，挖掘出和你关心的对象的目标关系。

这样的例子还有很多，譬如数据挖掘非常非常常用的异常检测，别看这词挺学术，我举个例子大家肯定就知道了，体检。虽然这是个枸杞配啤酒的朋克养身时代，不过预防疾病还得靠体检。但是，体检的结果是一堆的指标项，是数值，但数值本身是不会告诉你身体有没啥毛病，得首先有一个标准区间，然后发现指标异常，接着还要建立指标和疾病之间的关联关系，完成了这些前期工作，最后才能通过体检告诉你身体是不是还能再战五百年。这些前期工作就是数据挖掘。说回我们的老本行计算机，异常就更多了，譬如说WEB日志，经常需要进行异常检测从而发现网络入侵。

这都是数据挖掘。不是按某本名叫《数据挖掘》的书的某某方法依样画葫芦才叫数据挖掘，正好相反，是大家在各种数据挖掘的实践中形成了一些方法和工具，大家都觉得很好用，研究人员就加以收集整理，理清条理形成体系，才最终诞生了“数据挖掘”这门课。

02

数据挖掘和机器学习、模式识别

当你真的开始去学数据挖掘，遇到的第一个问题很可能是犯迷糊。数据科学领域有三朵金花，分别是数据挖掘、机器学习和模式识别，而数据挖掘的知识体系，和同样非常热门的机器学习以及模式识别有很高的重合度，那种感觉，不是在同一赛道有三名选手，而更像是在三条赛道看到了同一名选手。当然，就我的意见，这三个名词究竟存在怎样的我心中有你你心中有Ta的复杂三角关系，其实一点也不影响学习，毕竟有位红帽白须的老爷爷曾经说过，小孩子才做选择，成年人当然是全都学。三角关系越是复杂，要学的内容越是分不清你我，总的学习成本反而会更低。

但是，问题确实存在，不管看着有多像，但毕竟是有三个词，加上“到底该学哪个”这类的问题常年盘踞提问排行榜，这里我还是想尝试先回答。首先要说的是，数据挖掘、机器学习和模式识别三者并不存在什么无法逾越的鸿沟，经常出现一个算法到处客串的情况，边界越来越模糊已经是肉眼可见的大趋势。就核心内容来看，机器学习主要是工具集，数据挖掘和模式识别，则是这套工具集的两块用武之地，所以，在学习数据挖掘和模式识别的课上，你不用意外，无论选用什么教材，肯定都会看到非常多机器学习的老面孔。

再说模式识别。模式识别的重点在于两个字，识别，所以一般的应用形式都叫XX识别，譬如说现在大家都很熟的人脸识别，往大了说就是图像识别。除了图像，模式识别也研究其它各种数据形式，譬如音频类的语音识别，以及文本类的自然语言识别，当然，现在更习惯称之为自然语言理解。

最后回到我们今天的主角，数据挖掘。在写作时，我很想找到一条对数据挖掘的形式化定义，让大家能有一些具象的感觉，翻了很多资料，最后也只能宣告放弃。不过，这些资料虽然没有，我姑且取个交集，结论大概是所谓的数据挖掘，就是在各种数据之中，通过一定的方法和工具，挖掘发现感兴趣的知识。

归结来说，数据挖掘就是要解决三个问题，去哪挖、挖什么和怎么挖。下面我们就分三个部分分别介绍，数据挖掘是怎样思考这三个问题的。

03

去哪挖

数据挖掘数首先要解决的问题自然就是“数据”的问题，也就是去哪挖的问题。很多人也许觉得，这算个啥问题，数据挖掘数据挖掘，当然就是去有“数据”的地方挖。我听过一些数据挖掘的课程，也参加过一些数据挖掘的比赛，给我的一个很深的感觉就是，数据是现成的，它就摆在那里，看得见摸得着，你要做的就是上家伙削它。

真的是这样吗？不对。数据在哪里是一个非常值得花时间仔细思考的问题。很多书把数据挖掘称作数据掘金，这个比喻恰如其分，挖数据也好挖金子也罢，是不是可以随便找个什么地方盘腿坐下，只要一套组合技高水平地施展完毕，金子就能“哗”地蹦出地面？肯定不是。你要挖着金子，那个地方首先得有金子。在没金子的地方挖金子，不管再怎么努力，用什么方法工具，都不可能挖到金子，因为这叫缘木求鱼。

这个问题许多书本都不太爱展开，确实，数据挖掘和哈姆雷特差不多，一千个挖掘项目有一千种挖掘需求，怎么总结也很难避免落一个挂一漏万的结果。不过，前面我们说什么是数据挖掘的时候，举了学炒股做例子，不妨多说两句，也许可以给大家带来一点思考。

我们说炒股有很多流派，有技术分析流，有价值投资流，还有门口大妈流，这些流派要解决的都是同一个问题，后市走势问题，但是，到底什么才和后市走势相关、最好是密切相关呢？不同流派有不同看法，结果就是大家所选择要去挖掘的数据并不相同，技术分析流看的是K线图，价值投资流看的是公司运营情况，门口大妈流则选择去看门口大妈。我们假设一个极端的情况，假设K线图真的是像一些人说的，准确性还不如找猴子掷飞镖来得高，也就是K线图和后市走势实际没啥关系，那水平再高的大牛花再多的时间研究，最终也不可能从K线图中找出真正有价值的信息。

去哪挖？去有金子的地方挖。

04

挖什么

数据挖掘，挖的当然是数据了。不过，数据的形式有很多种。按数据类型来分，数据挖掘主要处理非依赖性数据和依赖型数据。非依赖性数据相对简单，也就是我们通常所说的“多维数据”，一条记录包括多个项目。这么说也许比较抽象，其实我们都见过，回忆一下填过的各种表格，譬如说报名表，需要填姓名、性别、年龄等等信息，这就是典型的多维数据

不过，想也知道，这些不同的项目，里面的数据格式是不尽相同的。譬如说姓名填写的是文本，性别通常是二选一，而年龄则是一个数字。在数据挖掘中，这些不同的格式也要区别对待。我看过一些数据挖掘的教材，把这些类型分得很细，充分体现了学术的严谨性。不过有些类型的名字起得太学术，还要对名字本身进行解释，这样文章篇幅就长了。这里我按经验整理，大致可以化为以下三种：

连续型数据。连续型数据首先是数值数据，而“连续”是相对于“离散”而言的，数值序列中间不会出现中断或者跳跃，譬如说年龄、气温就是此类。

离散型数据。离散型数据同样也是数值数据，简单来说就是“不连续”的数据。你可能会好奇，什么样的数据会不连续呢？很多，譬如说性别，我们用0表示女，1表示男，那性别这一栏就要么是0要么是1，中间不会有其它的值，这就是典型的离散数据。

文本型数据。前面我们一直在强调数值数据，但文本型数据在自然环境中同样非常常见，譬如说姓名，又譬如说前面提到的门口大妈流，这些都是以文本形式存储的数据。不过众所周知，文本型数据是没法直接进行计算的，一般需要通过转换成向量来进行分析。

非依赖型数据最大特点就是各个数据项彼此独立，相互之间没有依赖关系，不会“牵一发而动全身”，所以操作难度相对较低。

说完了非依赖型数据，再说说依赖型数据，所谓的“依赖”，也就是数据项之间存在某种关联变化的关系，数据挖掘将这种关系又具体分为隐式依赖关系和显示依赖关系，二者的区别在于前者的依赖比较含蓄，后者更加赤果果。但我觉得两者边界十分模糊，这里只说“依赖”究竟是怎么一回事。

数据挖掘将依赖型数据分为以下三种：

序列数据。序列数据是可以再细分的，包括连续型序列数据和离散型序列数据，但它们的特点都是明显存在着上下文依赖关系，譬如说最常见的时序数据，也就是时间序列数据。这是一种连续型的序列数据，上一个时间片和下一个时间片存在着显式或隐式的依赖关系。我们在前面已经介绍了一种序列数据，K线图。K线图是典型的时序数据，大家一般认为，行情的当前走势和未来走势是存在着某种依赖关系的，细分来说，是隐式依赖关系。

空间数据。空间数据通常就是坐标数据，最容易联想到地理位置坐标，也就是经纬度，但“坐标”的应用非常广泛，譬如说宏观经济的各种指标，不同的国家通过逻辑编码，同样可以构成坐标。就我的经验，空间数据经常和时间密切关联，形成某种轨迹性质的图像，也叫时空数据，和时序数据可能会存在交集。

图数据。图是计算机科学中很常用的一种数据结构，经常用来表示几个节点之间的关系，而在我们生活中也经常能看到各种“关系图”，所以，图数据自然也是一种典型的依赖型数据，而且往往是显示依赖关系。

05

怎么挖

怎么挖是数据挖掘的重点内容，有很多道工序，每一道工序展开又能是一整套方法体系。总的来说，数据挖掘有三大块工序，数据采集、数据预处理和数据分析。

先说这个数据采集吧，在很多人的直觉中，“数据”就是一个文件，它就岁月静好地躺在那里，你写程序去读了就好，许多数据比赛也强化了这一印象。但实际上，数据可能产生于多个不同的地方，譬如说类型完全不同的传感器，又譬如说各种不同的Web网站，火了很久还将火很久的大数据，就是从Web开始的。Web数据有最大的特点就是“大”，动不动就说我几秒产生多少个T的数据，到底有多大不要问，问就是海量。那海量数据采哪些怎么采、怎么存储、流式数据怎么分析，每一步都是一个问题，都需要你需要想各种办法。完成数据采集，将各种所需数据存入数据库，这就形成了数据仓库。这是数据挖掘的基础。

数据预处理主要是特征提取和数据清洗，包括了对原始数据进行类型转换、缺失值填补、将文本数据数据化向量化、缩放标准化等等等等。数据预处理将直接决定数据的最终质量，对挖掘结果产生十分显著的影响，有非常多的经验和技巧，完全可以再写一篇文章。

最后才是数据分析。我刚学的时候，以为“数据挖掘”就是数据分析，相信很多朋友都有过同样的误会，现在知道了，需要经历前面的千山万水才能走到这一步。但是，虽然在流程上，数据分析是最后一步，但这是最核心的一步，最终能挖到金子还是钻石，还得靠这一步。在另一方面，到了数据分析阶段，任务的背景相对就淡化了，而问题的共性明显增加，根据不同的问题积累的工具和方法，也更加容易形成“套路”。所以，数据分析自然也是数据挖掘作为一门课程的重点章节。

数据挖掘都归纳了哪些问题呢？主要包括分类问题、聚类问题、关联模式挖掘、关联模式和异常检测这四个大类，了解机器学习的朋友肯定很有亲切感，分类问题和聚类问题是机器学习最经典的两大类问题，这就是数据挖掘为什么会看到机器学习的内容。这四个问题还可以细分，譬如经典的啤酒尿布，就是关联模式问题下的频繁项挖掘问题。这些问题都有对应的算法，不同的环境下又有不同的应对方法。

这部分内容很多，是数据挖掘的重头戏，我推荐两本书，一本是韩家炜教授的《数据挖掘:概念与技术》，这是数据挖掘领域知名度最高、也是最经典的一本教材，大家肯定不陌生。另一本则是新出的《数据挖掘：原理与实践》，分为“基础篇”和“进阶篇”，篇幅上就明显增加，而且新书都有一个优点，补充了对新热点的介绍，如怎样挖掘图数据和社交网站数据，可以通过阅读本书追踪数据挖掘的最新进展。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

数据挖掘学习规划建议人工智能数据挖掘有问必答机器学习
2022-11-11 13:27

回答 4 已采纳 1. 计算机科学基础和编程 2. 概率论和数理统计 3. 数据建模及评估 4. 应用机器学习算法和库 5. 软件工程和系统设计工程能力（ 1 ）编程基础：需要掌握一大一小两门语言，大的指 C++
机器学习是做什么的？人工智能数据挖掘有问必答机器学习
2022-11-11 15:51

回答 4 已采纳机器学习的一般分类为:监督学习、无监督学习、强化学习、半监督学习、主动学习。很多东西可以cv出来，但是业务不一样，怎么整合你的业务，就是技术问题了。
如何调用训练好的机器学习模型处理新数据集？人工智能数据挖掘机器学习
2022-02-07 01:05

回答 1 已采纳直接加载模型然后对新数据集进行预测啊，结果就是0或者1，然后把结果按照之前训练的数据集格式写入一个新的csv，这就是相当于打上标签了，但是这个标签不一定是全部对的，除非你能保证你的模型推理结果一定是正
数据挖掘属于机器学习算法吗？数据挖掘是什么？
2023-07-10 17:14

程序媛珂珂的博客 数据挖掘是一种从大量数据中发现模式、关联和知识的过程，而机器学习算法是数据挖掘的一种工具或方法之一。因此，可以说数据挖掘与机器学习算法有密切的关系，但数据挖掘并不等同于机器学习。
python在数据挖掘中依靠pandas进行excel操作的问题 writer = pd.ExcelWriter python 人工智能数据挖掘有问必答
2021-11-18 15:15

回答 1 已采纳试试在writer中添加 mode='a'看看如何，writer = pd.ExcelWriter(filename, engine='openpyxl', mode='a')
为什么2d的点可以用三维向量表示？人工智能数据挖掘机器学习深度学习
2020-12-06 12:47

回答 1 已采纳 aaa
BP神经网络的训练集和测试集可以相同吗？如图中，floor函数为什么要乘以0.8呢？人工智能数据挖掘机器学习神经网络
2020-03-10 11:08

回答 2 已采纳训练集和测试集可以相同这个问题就好比如果你是一个老师，你出考卷的时候，可以和你上课讲的题目一样么。乘以0.8就是80%训练20%测试
python AI人工智能,机器学习,深度学习,数据挖掘包含的内容.zip
2021-01-07 19:41

python AI人工智能,机器学习,深度学习,数据挖掘包含的内容.zip
关于机器学习模型调参的正确步骤是怎样的？人工智能数据挖掘机器学习深度学习
2019-09-11 08:50

回答 2 已采纳 ``` # 1. # 交叉验证进行最优模型选择 from sklearn.model_selection import cross_val_score model = RandomFore
机器学习中数据标准差极小的预处理策略人工智能数据挖掘机器学习深度学习
2019-09-05 11:16

回答 1 已采纳在吴恩达的机器学习教学中说过，归一化后-0.3到0.3的数据是极好的。肉眼看是没什么区分度，但是当你的数据特征维度稍大一些，比如十维，二十维，三十维，那么在对应的维度空间里，样本和样本之间的距离还是很
为什么weka中的linearregression算法不能像J48那样做分类预测？人工智能数据挖掘机器学习
2020-06-25 22:35

回答 1 已采纳 https://blog.csdn.net/qq_30589271/article/details/79037406
用商业案例学R语言数据挖掘-学习笔记.pdf
2022-03-11 21:11

无论是从事产品研发的工程师，还是从事产品推广的市场人员、人力资源和财务会计人员，都需要掌握数据分析技术，否则很有可能被人工智能替代。本书包括 18 章，涉及使用 R 语言做数据分析和数据挖掘的主要分析方法。...
另一台电脑如何获取这台电脑的输入输出？人工智能数据挖掘机器学习
2022-12-22 16:56

回答 1 已采纳写个程序监控本机键盘输入，发送到另一台计算机
错觉：AI如何通过数据挖掘误导我们？（2021）（374页）.pdf
2022-03-19 15:43

错觉：AI如何通过数据挖掘误导我们？（2021）（374页）.pdf
AI概念之人工智能、机器学习和数据挖掘之间的联系与区别
2024-03-07 21:51

GawynKing的博客在当今数字化时代，人工智能（AI）、机器学习（Machine Learning）和数据挖掘（Data Mining）作为科技领域的重要三驾马车，共同推动着技术的飞速发展。这三者之间联系紧密，却又各自拥有独特的定位和功能。理解这些...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月18日

悬赏问题

¥20 机器学习能否像多层线性模型一样处理嵌套数据
¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效

请问数据挖掘要学什么？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新