白水baishui 2017-12-16 14:40 采纳率: 100%
浏览 3160
已采纳

机器学习到底要不要大数据的支持,如果要数据的支持,支持到哪一步?

机器学习到底要不要大数据的支持,如果要数据的支持,支持到哪一步?

众所周知AlphaGo是需要大量的数据来进行学习的,ZERO却只需要少量的数据样本即可达到甚至超过AlphaGo的水准,那么问题来了,这个数据量的多少从科学的角度来说它的一个标准是什么,或者说它怎么来度量?
————————————————————————————————
谢谢各位的回答,实际上我对我自己提出的两个问题中的前一个和大家的看法是差不多的,但实际上我希望得到第二个问题的解答。
我们的共识是,机器学习在大部分时候都是需要大量数据的(实际上我没有见过不需要大量数据就能训练出来的智能),然而在现实操作中总会面临数据量不是不够就是浪费的情况(且不说数据的质量),所以去预测一个具体需要的数据量就是极其必要的。打个比方,在运用人工智能对医学影像进行分析的时候,我们需要极其大量的数据,但我们不可能去向医院索取它的全部数据,所以就会想要通过计算得到一个大概的数据量的值,而不需要三番五次地去向医院申请数据。
再举一个例子,比如我们在打磨一个适用于某处的齿轮,我们当然可以一边打磨一边拿去比较大小是否合适,但这一点也不方便,我们通常通过测量来获取需要的数据,然后直接按照这个数据来打磨齿轮。
所以精确计算每次训练时所需要的数据量,这显然是极其必要的,既可以让我们避免数据不足的情况又不至于让我们一直盲目地收集数据。
可问题就出在这里,这个数据量如何去测量?
————————————————————————————————
回复caozhy:感谢你的回答:)。是的,数据的获取存在困难是一个现实存在的问题,例如医院里病人的数据签了保密协议,要取出是很麻烦的,其他领域也是一样,只有用钱把数据砸出来,从这方面来说估计一个需要的数据的量也是必要的。即使是能够获取到大量的数据,我们也希望能通过计算直接得到一个最优的数据量,如果这个计算方法真的存在并且被发现,自然是一桩好事。
————————————————————————————————
说明一下,这个问题是在最近的第194期双清论坛上由高文院士提出的,我有幸听到教授的转述,才会对此有所思考,当然才疏学浅,对人工智能的理解也不够深入,只能做上述的一些浅层解读,请点拨指正。

  • 写回答

8条回答

  • threenewbee 2017-12-16 16:58
    关注

    机器学习分为监督学习和非监督学习,alphazero根据规则“学习”最好的下棋策略,是一种无监督学习,不需要大数据。但是如果是NLP,人类自然语言,因为“学习”的是人类的语法规则,所以必须有大量的预料数据。
    因此你的问题的答案是,要结合算法和场景。
    另外,同样是学习围棋,也可以从人类棋谱开始,此时学习的是人类下棋的策略(下棋的规则),而不是围棋本身的规则。因此alphago就是属于此类。
    坦率地说,虚假的数据样本和不足的数据样本对你做数据分析也好,机器学习也好,都是非常大的问题,而且无解。
    你的样本太少,会出现过拟合(在测试样本上表现良好,在实际数据上没有卵用)、梯度消失(局限在局部最优解,得不到全局最优解)的情况。
    如果样本很少,那么你可能需要使用领域知识来弥补,然而这和现在流行的深度学习是背道而驰的。
    所以拿不到数据的小公司、学校和个人,都是在闭门造车自欺欺人。然而获取数据这件事,已经超出了技术的范畴。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(7条)

报告相同问题?

悬赏问题

  • ¥15 寻一个支付宝扫码远程授权登录的软件助手app
  • ¥15 解riccati方程组
  • ¥15 display:none;样式在嵌套结构中的已设置了display样式的元素上不起作用?
  • ¥30 用arduino开发esp32控制ps2手柄一直报错
  • ¥15 使用rabbitMQ 消息队列作为url源进行多线程爬取时,总有几个url没有处理的问题。
  • ¥15 Ubuntu在安装序列比对软件STAR时出现报错如何解决
  • ¥50 树莓派安卓APK系统签名
  • ¥65 汇编语言除法溢出问题
  • ¥15 Visual Studio问题
  • ¥20 求一个html代码,有偿