机器学习到底要不要大数据的支持,如果要数据的支持,支持到哪一步?
众所周知AlphaGo是需要大量的数据来进行学习的,ZERO却只需要少量的数据样本即可达到甚至超过AlphaGo的水准,那么问题来了,这个数据量的多少从科学的角度来说它的一个标准是什么,或者说它怎么来度量?
————————————————————————————————
谢谢各位的回答,实际上我对我自己提出的两个问题中的前一个和大家的看法是差不多的,但实际上我希望得到第二个问题的解答。
我们的共识是,机器学习在大部分时候都是需要大量数据的(实际上我没有见过不需要大量数据就能训练出来的智能),然而在现实操作中总会面临数据量不是不够就是浪费的情况(且不说数据的质量),所以去预测一个具体需要的数据量就是极其必要的。打个比方,在运用人工智能对医学影像进行分析的时候,我们需要极其大量的数据,但我们不可能去向医院索取它的全部数据,所以就会想要通过计算得到一个大概的数据量的值,而不需要三番五次地去向医院申请数据。
再举一个例子,比如我们在打磨一个适用于某处的齿轮,我们当然可以一边打磨一边拿去比较大小是否合适,但这一点也不方便,我们通常通过测量来获取需要的数据,然后直接按照这个数据来打磨齿轮。
所以精确计算每次训练时所需要的数据量,这显然是极其必要的,既可以让我们避免数据不足的情况又不至于让我们一直盲目地收集数据。
可问题就出在这里,这个数据量如何去测量?
————————————————————————————————
回复caozhy:感谢你的回答:)。是的,数据的获取存在困难是一个现实存在的问题,例如医院里病人的数据签了保密协议,要取出是很麻烦的,其他领域也是一样,只有用钱把数据砸出来,从这方面来说估计一个需要的数据的量也是必要的。即使是能够获取到大量的数据,我们也希望能通过计算直接得到一个最优的数据量,如果这个计算方法真的存在并且被发现,自然是一桩好事。
————————————————————————————————
说明一下,这个问题是在最近的第194期双清论坛上由高文院士提出的,我有幸听到教授的转述,才会对此有所思考,当然才疏学浅,对人工智能的理解也不够深入,只能做上述的一些浅层解读,请点拨指正。