机器学习到底要不要大数据的支持，如果要数据的支持，支持到哪一步？

众所周知AlphaGo是需要大量的数据来进行学习的，ZERO却只需要少量的数据样本即可达到甚至超过AlphaGo的水准，那么问题来了，这个数据量的多少从科学的角度来说它的一个标准是什么，或者说它怎么来度量？
————————————————————————————————
谢谢各位的回答，实际上我对我自己提出的两个问题中的前一个和大家的看法是差不多的，但实际上我希望得到第二个问题的解答。
我们的共识是，机器学习在大部分时候都是需要大量数据的(实际上我没有见过不需要大量数据就能训练出来的智能)，然而在现实操作中总会面临数据量不是不够就是浪费的情况(且不说数据的质量)，所以去预测一个具体需要的数据量就是极其必要的。打个比方，在运用人工智能对医学影像进行分析的时候，我们需要极其大量的数据，但我们不可能去向医院索取它的全部数据，所以就会想要通过计算得到一个大概的数据量的值，而不需要三番五次地去向医院申请数据。
再举一个例子，比如我们在打磨一个适用于某处的齿轮，我们当然可以一边打磨一边拿去比较大小是否合适，但这一点也不方便，我们通常通过测量来获取需要的数据，然后直接按照这个数据来打磨齿轮。
所以精确计算每次训练时所需要的数据量，这显然是极其必要的，既可以让我们避免数据不足的情况又不至于让我们一直盲目地收集数据。
可问题就出在这里，这个数据量如何去测量？
————————————————————————————————
回复caozhy：感谢你的回答：）。是的，数据的获取存在困难是一个现实存在的问题，例如医院里病人的数据签了保密协议，要取出是很麻烦的，其他领域也是一样，只有用钱把数据砸出来，从这方面来说估计一个需要的数据的量也是必要的。即使是能够获取到大量的数据，我们也希望能通过计算直接得到一个最优的数据量，如果这个计算方法真的存在并且被发现，自然是一桩好事。
————————————————————————————————
说明一下，这个问题是在最近的第194期双清论坛上由高文院士提出的，我有幸听到教授的转述，才会对此有所思考，当然才疏学浅，对人工智能的理解也不够深入，只能做上述的一些浅层解读，请点拨指正。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

8条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2017-12-16 16:58
关注
机器学习分为监督学习和非监督学习，alphazero根据规则“学习”最好的下棋策略，是一种无监督学习，不需要大数据。但是如果是NLP，人类自然语言，因为“学习”的是人类的语法规则，所以必须有大量的预料数据。
因此你的问题的答案是，要结合算法和场景。
另外，同样是学习围棋，也可以从人类棋谱开始，此时学习的是人类下棋的策略（下棋的规则），而不是围棋本身的规则。因此alphago就是属于此类。
坦率地说，虚假的数据样本和不足的数据样本对你做数据分析也好，机器学习也好，都是非常大的问题，而且无解。
你的样本太少，会出现过拟合（在测试样本上表现良好，在实际数据上没有卵用）、梯度消失（局限在局部最优解，得不到全局最优解）的情况。
如果样本很少，那么你可能需要使用领域知识来弥补，然而这和现在流行的深度学习是背道而驰的。
所以拿不到数据的小公司、学校和个人，都是在闭门造车自欺欺人。然而获取数据这件事，已经超出了技术的范畴。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(7条)

报告相同问题？

关注问题

一个可以实现对大数据预处理及运行部分机器学习代码的云数据处理平.zip
2024-03-03 11:47

在当前的数字化时代，大数据和人工智能(AI)已经成为企业和社会发展的重要驱动力。"一个可以实现对大数据预处理及运行部分机器学习代码的云数据处理平台"是一个针对这些需求而设计的解决方案。这个项目实践主要关注的...
大数据，机器学习，数据挖掘，这三者有什么区别和关系？
2022-12-08 16:23

程序猿-饭饭的博客数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、
Java 大视界 -- Java 大数据在自动驾驶中的数据处理与决策支持（68）
2025-01-29 19:37

青云交的博客本文全面深入地探讨 Java 大数据在自动驾驶领域的数据处理与决策支持应用，涵盖数据采集、存储、分析以及决策模型构建等关键环节，结合丰富案例与详细代码，充分展现其核心价值与关键作用。
AI概念之人工智能、机器学习和数据挖掘之间的联系与区别
2024-03-07 21:51

GawynKing的博客在当今数字化时代，人工智能（AI）、机器学习（Machine Learning）和数据挖掘（Data Mining）作为科技领域的重要三驾马车，共同推动着技术的飞速发展。这三者之间联系紧密，却又各自拥有独特的定位和功能。理解这些...
大数据异常检测：基于机器学习的智能监控
2025-09-01 01:21

大厂资深架构师的博客基于机器学习的智能监控则是利用机器学习算法对大数据进行实时或离线分析，自动检测出异常，为决策提供支持。本文的范围涵盖了大数据异常检测的基本概念、常见的机器学习算法在异常检测中的应用、实际项目的实现步骤...
大数据、人工智能、机器学习与深度学习都有什么关系？
2019-05-31 11:30

lele989的博客 大数据、人工智能是目前大家...大数据是人工智能的基础，而使大数据转变为知识或生产力，离不开机器学习（Machine Learning），可以说机器学习是人工智能的核心，是使机器具有类似人的智能的根本途径。互联网科...
人工智能基于Python的数智化转型关键技术研究：智能客服与金融风控场景下的机器学习模型设计与应用
2025-09-29 15:40

适合人群：具备一定Python编程基础，从事数据分析、人工智能或软件开发相关工作的技术人员，尤其是希望深入理解Python在数智化转型中应用的中初级开发者；使用场景及目标：①掌握Python核心高级特性在工程实践中的...
大数据机器学习：常见模型评估指标
2024-04-29 12:54

星川皆无恙的博客模型评估是指在机器学习中，对于一个具体方法输出的最终模型，使用一些指标和方法来评估它的泛化能力。这一步通常在模型训练和模型选择之后，正式部署模型之前进行。模型评估不针对模型本身，而是针对问题和数据，...
大数据领域数据分析的智能决策支持系统
2025-09-15 15:11

AI移动开发前沿的博客核心概念拆解：像搭积木一样，把IDSS拆成"大数据原料"“机器学习工具”"可视化菜单"等部分；算法与实战：用Python写一个简单的IDSS（买菜推荐），让你亲手摸一摸"智能决策"；真实应用场景：看看电商、金融里的IDSS是...
一文读懂：大数据、人工智能、机器学习与深度学习
2019-11-12 20:28

xiaokaiabcde的博客导读：大数据、人工智能是目前大家...大数据是人工智能的基础，而使大数据转变为知识或生产力，离不开机器学习（Machine Learning），可以说机器学习是人工智能的核心，是使机器具有类似人的智能的根本途径。本...
没有解决我的问题, 去提问

机器学习到底要不要大数据的支持，如果要数据的支持，支持到哪一步？

8条回答 默认 最新

8条回答默认最新