机器学习到底要不要大数据的支持,如果要数据的支持,支持到哪一步?

机器学习到底要不要大数据的支持,如果要数据的支持,支持到哪一步?

众所周知AlphaGo是需要大量的数据来进行学习的,ZERO却只需要少量的数据样本即可达到甚至超过AlphaGo的水准,那么问题来了,这个数据量的多少从科学的角度来说它的一个标准是什么,或者说它怎么来度量?
————————————————————————————————
谢谢各位的回答,实际上我对我自己提出的两个问题中的前一个和大家的看法是差不多的,但实际上我希望得到第二个问题的解答。
我们的共识是,机器学习在大部分时候都是需要大量数据的(实际上我没有见过不需要大量数据就能训练出来的智能),然而在现实操作中总会面临数据量不是不够就是浪费的情况(且不说数据的质量),所以去预测一个具体需要的数据量就是极其必要的。打个比方,在运用人工智能对医学影像进行分析的时候,我们需要极其大量的数据,但我们不可能去向医院索取它的全部数据,所以就会想要通过计算得到一个大概的数据量的值,而不需要三番五次地去向医院申请数据。
再举一个例子,比如我们在打磨一个适用于某处的齿轮,我们当然可以一边打磨一边拿去比较大小是否合适,但这一点也不方便,我们通常通过测量来获取需要的数据,然后直接按照这个数据来打磨齿轮。
所以精确计算每次训练时所需要的数据量,这显然是极其必要的,既可以让我们避免数据不足的情况又不至于让我们一直盲目地收集数据。
可问题就出在这里,这个数据量如何去测量?
————————————————————————————————
回复caozhy:感谢你的回答:)。是的,数据的获取存在困难是一个现实存在的问题,例如医院里病人的数据签了保密协议,要取出是很麻烦的,其他领域也是一样,只有用钱把数据砸出来,从这方面来说估计一个需要的数据的量也是必要的。即使是能够获取到大量的数据,我们也希望能通过计算直接得到一个最优的数据量,如果这个计算方法真的存在并且被发现,自然是一桩好事。
————————————————————————————————
说明一下,这个问题是在最近的第194期双清论坛上由高文院士提出的,我有幸听到教授的转述,才会对此有所思考,当然才疏学浅,对人工智能的理解也不够深入,只能做上述的一些浅层解读,请点拨指正。

1

8个回答

机器学习分为监督学习和非监督学习,alphazero根据规则“学习”最好的下棋策略,是一种无监督学习,不需要大数据。但是如果是NLP,人类自然语言,因为“学习”的是人类的语法规则,所以必须有大量的预料数据。
因此你的问题的答案是,要结合算法和场景。
另外,同样是学习围棋,也可以从人类棋谱开始,此时学习的是人类下棋的策略(下棋的规则),而不是围棋本身的规则。因此alphago就是属于此类。
坦率地说,虚假的数据样本和不足的数据样本对你做数据分析也好,机器学习也好,都是非常大的问题,而且无解。
你的样本太少,会出现过拟合(在测试样本上表现良好,在实际数据上没有卵用)、梯度消失(局限在局部最优解,得不到全局最优解)的情况。
如果样本很少,那么你可能需要使用领域知识来弥补,然而这和现在流行的深度学习是背道而驰的。
所以拿不到数据的小公司、学校和个人,都是在闭门造车自欺欺人。然而获取数据这件事,已经超出了技术的范畴。

1

需要大数据,没有大数据的支持,怎么对它进行操作运动啊

1

为什么ZERO能超过AlphaGo呢,因为AlphaGo是“人教”的,ZERO是自学的。两种不同的机器学习模型,一个需要大量数据,一个不需要大量数据

1

需要,到最精细的一步。没毛病。

1

需要大数据,就好比是经验的总结和传承,而更进一步的,应该是自己总结出规律,自己计算出经验。即以后的人工智能,应该是不需要大数据支撑。

1

需要大数据支持的。 监督学习基于大数据找到规则。无监督学习自己学习到规则也是需要大量数据做验证。

1

谢谢各位的回答,实际上我对我自己提出的两个问题中的前一个和大家的看法是差不多的,但实际上我希望得到第二个问题的解答。
我们的共识是,机器学习在大部分时候都是需要大量数据的(实际上我没有见过不需要大量数据就能训练出来的智能),然而在现实操作中总会面临数据量不是不够就是浪费的情况(且不说数据的质量),所以去预测一个具体需要的数据量就是极其必要的。打个比方,在运用人工智能对医学影像进行分析的时候,我们需要极其大量的数据,但我们不可能去向医院索取它的全部数据,所以就会想要通过计算得到一个大概的数据量的值,而不需要三番五次地去向医院申请数据。
再举一个例子,比如我们在打磨一个适用于某处的齿轮,我们当然可以一边打磨一边拿去比较大小是否合适,但这一点也不方便,我们通常通过测量来获取需要的数据,然后直接按照这个数据来打磨齿轮。
所以精确计算每次训练时所需要的数据量,这显然是极其必要的,既可以让我们避免数据不足的情况又不至于让我们一直盲目地收集数据。
可问题就出在这里,这个数据量如何去测量?

1

大数据对于机器而言就相当于人的一种经验总结,只有依靠大数据的统计,才能由此进行学习分析其规律

0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
百分点技术负责人:我们为什么需要大数据操作系统
去年9月,百分点公司发布了“全球首款”大数据操作系统BD-OS(基于Lambda架构)。日前,百分点技术副总裁刘译璟和百分点BD-OS产品高级研发总监线刘国栋接受CSDN记者采访,结合BD-OS的设计、研发和架构,对大数据技术演进及应用实践的趋势进行了解读。 所谓“全球首款”,意味着Hadoop、Storm、Spark等当前主流大数据技术的相关从业者几乎听说过“大数据操作系统”的存在(之所以
大数据与机器学习 基础篇 分类 支持向量机SVM
分类算法是机器学习中的一个重点,也是人们常说的“有监督的学习”。这是一种利用一系列已知类别的样本来对模型进行训练调整分类器的参数,使其达到所要求性能的过程,也成为监督训练或有教师学习。 注:本文中用到的Python及其模块安装教程参见 支持向量机SVM 支持向量机SVM是一种比较抽象的算法概念,全称是Support Vector Machine,它可以用来做模式识别,分类或者回归的机...
数据挖掘中的支持度 置信度 期望置信度 提升度
在各种数据挖掘算法中,关联规则挖掘算是比较重要的一种,尤其是受购物篮分析的影响,关联规则被应用到很多实际业务中,本文对关联规则挖掘做一个小的总结。 首先,和聚类算法一样,关联规则挖掘属于无监督学习方法,它描述的是在一个事物中物品间同时出现的规律的知识模式,现实生活中,比如超市购物时,顾客购买记录常常隐含着很多关联规则,比如购买圆珠笔的顾客中有65%也购买了笔记本,利用这些规则,商场人员可以很
利用已有的大数据技术,如何构建机器学习平台
随着AI技术进一步发展,它将与越来越多的传统行业结合。作为新兴技术,AI的人才市场开始出现供不应求,新技术总有一定的壁垒,需要自我学习和用项目实践来掌握。技术的更替常常猝不及防,例如现在的TensorFlow和前两年Spark,刚掌握好能熟练运用Spark了,主流又开始跟进TensorFlow了。技术人需要学习成本,企业项目开发也要考虑新技术采纳时间。有什么办法能在企业已有的大数据平台经验基础上进
为什么越来越多的公司选择了大数据!除了国家支持,还因为它包含着巨大的利润
在这里相信有许多想要学习大数据的同学,大家加大数据学习交流群763835121  即可免费领取一整套系统的大数据学习教程另外,大数据初学者有什么不懂的可以加大数据学习交流群763835121  ——我刚整理了一份大数据2018最新的0基础入门和进阶教程,无私分享...
大数据学习[16]--使用scroll实现Elasticsearch数据遍历和深度分页[转]
题目:使用scroll实现Elasticsearch数据遍历和深度分页 作者:星爷 出处: http://lxWei.github.io/posts/%E4%BD%BF%E7%94%A8scroll%E5%AE%9E%E7%8E%B0Elasticsearch%E6%95%B0%E6%8D%AE%E9%81%8D%E5%8E%86%E5%92%8C%E6%B7%B1%E5%BA%A6%
VC2005Express 要不要 .net 的支持?
VC2005Express 要不要 .net 的支持?rnrn听说 VC2005Express 做得不错,想试试。rnrn1. 问一问 VC2005Express 需不需要先安装 .net Framework ??rnrn2. 它有没有代码提示功能?rnrn
jxl实现excel大数据导出
jxl实现excel大数据导出,26000条记录,测试导出时间是19s,例子不算复杂,没有excel样式的处理,可以自己扩展哈,有数据库文件,部署即可看到效果!!! 有三个功能:代码构建数据的导出、数据库数据的导出(从配置文件读取表头)、从模板读取表头和列
大数据和机器学习的关系
在网上查了一些资料,整理了一下大数据,数据挖掘,机器学习,深度学习和云计算这些概念的区别和联系,希望能对数据科学的初学者有所帮助
treegrid,树结构表格,支持大量数据
bootstrap-treegrid 官方给出的组件在大数据量的时候会非常慢,原因是需要每次事后去给html标签加上样式与事件,我把一部分修改重构了,再修改了获取子节点的方式,速度提升非常大,数据量较多的时候基本上也不会卡顿, 源码:https://github.com/js1688/util/tree/master/treegrid 也可以直接下载,满足了基本上的需求了,如果还有其他需要可以自行修改.
php支持八种原始类型:
四种标量类型: 1、 boolean 布尔型 2、 integer 整型 3、 float 浮点型(也做double) 4、string (字符串)   两种符合类型:  array 数组 object 对象   最后是两种特殊类型: resource 资源 null
大数据技术Hadoop面试题,看看你能答对多少?答案在后面
单项选择题 1. 下面哪个程序负责 HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 2. HDfS 中的 block 默认保存几份? a)3 份 b)2 份 c)1 份 d)不确定 3. 下列哪个程序通常与 NameNode 在一个节点启动?
机器学习之软间隔支持向量机(机器学习技法)
为什么要软间隔SVM硬边距SVM的过拟合对于硬边距SVM产生过拟合的原因主要有两点:①我们选用的模型复杂度太高 ②我们坚持要将资料严格的分开。如下:从直觉来说Φ1虽然有一些犯错的地方但是它的模型复杂度较低不容易过拟合。我们不在执着于将资料严格分开(容忍一些小错误),我们想要的是较低的复杂度的模型来降低过拟合的危险。软边距SVM的诞生在pocket算法中我们的思想是找到犯错误最小的模型,它不执著与将...
Tushare金融大数据开放社区发布
var write_sceen_time = (+new Date()); Tushare金融大数据开放社区发布 ...
大数据存储中的列式存储
待完善
阿里云 机器学习pai的使用数据的使用以及模型的存储
1.数据的使用  读取pickle import os import sys import argparse import tensorflow as tf import pickle from tensorflow.python.lib.io import file_io FLAGS = None def main(_): dir = os.path.join(FLAGS.buck
机器学习习题(10)
1. 前言行百里者半于九十。此言末路之难也。2. 习题2.1 习题1(支持度) 考虑如下数据集,其中Customer ID(顾客id),Transaction ID(事务id),Items Bought(购买项)。如果将每个事务id看成一个购物篮,计算项集{e}, {b, d}, {b, d, e}的支持度: A.s({e}) =0.8s({b, d})= 0.2s({b, d
阿里云机器学习PAI-快速上手指南
阿里云机器学习PAI-快速上手指南 What is 机器学习 机器学习指的是机器通过统计学算法,对大量的历史数据进行学习从而生成经验模型,利用经验模型指导业务。目前机器学习主要在以下一些方面发挥作用: 营销类场景:商品推荐、用户群体画像、广告精准投放 金融类场景:贷款发放预测、金融风险控制、股票走势预测、黄金价格预测 SNS关系挖掘:微博粉丝领袖分析、社交关系链分析 文
ORACLE大数据量导入TB级别
1、先创建对应表空间,保证表空间容量充足;2、优化回滚表空间,用户表空间,临时表空间数据存储方式3、进行第一次导入,查看导入日志确定所缺用户和表空间名称3、如果有原用户,尽量使用原用户名称,如果没有,使用remap_schema替换用户;将所有表空间替换成本地表空间remap_tablespace4、进行第二次导入,导入表结构 include=tables,package,function,tri...
php支持连接sql server数据库
1、软件配置 Win7 64 +wampserver2.2d-x32+SQL Server 2008 R2数据库,wamp2.2中的php版本是5.3.10。 Php环境也可以换成php+apache。 2、支持连接MySQL Server配置  php版本5.3以前,有php_mssql功能,可以使用,但是5.3及以后的版本不支持。 2.1、php连接mssql设置(php5.3以前版
为什么很多JAVA程序员都是在转大数据
前言 首先JAVA的精密,强大,拥有其它语言不可替代的性能和可维护性,早已经是成为最受欢迎的编程语言之一,很多人想进入IT行业,首选的第一门语言就是JAVA。但是,在未来10年肯定是大数据的天下,人工智能的爆发,将会有大量企业会进入大数据领域,而从JAVA程序员转JAVA大数据就会有天然的优势,因为目前大数据的架构基本都是用JAVA语言完成,未来10年,JAVA大数据的需求量会越来越大。 现在学习...
如果网页内容需要支持多语言,你会怎么做?在设计和开发多语言网站时,有哪些问题你必须要考虑?
采用统一编码UTF-8方式编码 1- 应用字符集的选择;所以对提供了多语言版本的网站来说,Unicode字符集应该是最理想的选择。它是一种双字节编码机制的字符集,不管是东方文字还是西方文字,在Unicode中一律用两个字节来表示,因而至少可以定义65536个不同的字符,几乎可以涵盖世界上目前所有通用的语言的每一种字符。 所以在设计和开发多语言网站时,一定要注意先把非中文页面的字符集定义为“utf
聊聊这一款能真正匹配大数据性能的BI工具
最近在看关于大数据、数据仓库 、数据架构的《数据架构:大数据、数据仓库以及Data Vault》一书,关于大数据有些思考,结合FineBI的Spider引擎,可看看Spider引擎对于大数据的阐释,以及在大数据平台架构中,可以处于什么样的位置。 大数据一直被定义为3W(数量大,速度快,多样性),但这些特征用于描述高速公路上运载的各种货物也没有问题。因此数仓之父 Inmon提出大数据的识别特征为:...
在大量数据的情况下打乱数据 - 机器学习 训练技巧
我们在机器学习训练模型的时候常常需要将数据打乱,否则,假如一个数据集前半部分target是1,后半部分target是0,这样训练出来的效果很不好,很有可能模型会过拟合后半部分的样本,尤其是数据量很大的时候,尤其是你的模型要训练几天几夜的时候。别问我为什么,血一样的教训…… 如果数据量小,那么我们只需要使用random.shuffle函数就可以,具体用法在:https://blog.csdn.net...
机器学习笔试、面试题 三
1、假定你用一个线性SVM分类器求解二类分类问题,如下图所示,这些用红色圆圈起来的点表示支持向量,如果移除这些圈起来的数据,决策边界(即分离超平面)是否会发生改变? 如果移除这些圈起来的数据,决策边界(即分离超平面)是否会发生改变? A Yes B No 正确答案是: B 解析: 从数据的分布来看,移除那三个数据,决策边界不会受影响。 2、如果将数据中除圈起来的三个点以外...
Cognos做大数据分析也可以棒棒哒
大数据开辟了业务分析的新时代,使得企业基于更大范围数据(包括传统数据仓库、社交媒体、个人文本数据等)分析以制定更明智的决策变为可能。Cognos BI对Hadoop、分析数据存储和实时流数据等大数据源提供更广泛的支持,帮助企业获取更完整的业务视图并依据洞察迅速采取行动。
现阶段对数据库中知识发现KDD、数据挖掘、集成学习、深度学习、机器学习、人工智能、统计学、大数据、云计算的个人理解:
现阶段对数据库中知识发现KDD、数据挖掘、集成学习、深度学习、机器学习、人工智能、统计学、大数据、云计算的个人理解:
大数据开发需要学习哪些编程语言
对于零基础的朋友,一开始入门可能不会太简单。大数据零基础怎么学?大数据零基础学什么?难吗?要学习大数据你至少应该知道什么是大数据,大数据一般运用在什么领域。对大数据有一个大概的了解,你才能清楚自己对大数据究竟是否有兴趣。 大数据零基础怎么学?大数据零基础学什么?难吗? 你知道什么是大数据吗? 要学习大数据你首先应该知道什么是大数据,大数据一般运用在什么领域。对大数据的概念有一个大概的了解,这...
《机器学习实战》第十章 :K-均值聚类算法
《机器学习实战》系列博客主要是实现并理解书中的代码,相当于读书笔记了。毕竟实战不能光看书。动手就能遇到许多奇奇怪怪的问题。博文比较粗糙,需结合书本。博主边查边学,水平有限,有问题的地方评论区请多指教。书中的代码和数据,网上有很多请自行下载。
机器学习:SVR支持向量机回归
机器学习:SVR支持向量机回归      一直以来接触的都是支持向量去做分类,这里稍微谈一下SVR,就是用支持向量去做回归。SVR最回归在本质上类似于SVM,都有一个margin,只不过是这里的margin表示和SVM是不相同的,完全相反。在SVM中的margin是想把两个class分开,而这里SVR的margin是说:在margin里面的的数据是不会对对回归有任何的帮助,也就是没有贡献
机器学习分类篇-支持向量机SVM上
SVM(support vector machine)最早是由Vladimir N.Vapnik 和 Alexey Ya.Chervonenkis在1963年提出,目前的版本(soft margin)是Corinna Cortes 和 Vapnik在1993年提出,1995年发表。深度学习(2012)出现之前,SVM被认为是机器学习中近十几年最成功表现最好的算法。
大数据技术-数据仓库
nice的博客:http://webdataanalysis.net 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层
PHP 支持8种基本的数据类型。
四种标量类型: boolean (布尔型):这是最简单的类型,只有两种取值,可以为 TRUE/true 或 FALSE/false ,不区分大小写。详细请查看:PHP布尔类型(boolean) integer (整型):在32 位操作系统中它的有效范围是:-2 147 483 648~+2 147 483 647。整型值可以使用十进制,十六进制或八进制表示,前面可以加上可选的符号(- 或者 +
迎战大数据-Oracle篇
来自:http://www.cnblogs.com/wenllsz/archive/2012/11/16/2774205.html了解大数据带来的机遇;透视架构与工具;开源节流,获得竞争优势。聚焦大数据组织为了变得更高效,盈利能力更强,或生产率更高,对信息的渴求似乎永远也无法得到满足。为此它们一直在寻找更强大的数据存储技术,包括超大型数据库(VLDB),以满足他们对信息存储和获取的需求。最近几年数
大数据架构的典型方法和方式
NoSQL 技术为应用提供了缓存和搜索特性,但既然是处理数据,就需要定义一种方法来处理各种数据流,以便能够给用户输出见解或数据服务。通过审视被IT组织使用广泛的数据架构来定义处理的拓扑结构。当考虑服务水平SLA时 需要进行结构分割。最后,讨论一个特殊种类的架构, lambda这一多种类型架构的结合体。
大数据入门——手写体数据识别(支持向量机)
#手写体数据读取 from sklearn.datasets import load_digits digits=load_digits() print(digits.data.shape) #手写体数据分割 from sklearn.cross_validation import train_test_split X_train, X_test, y_train, y_test=trai
机器学习:支持向量机SVM原理与理解
引言 ——“举牌子:Support Vector Machines ” 一直在犹豫要不要写SVM,因为网上已经有很多详细的SVM原理的解释甚至详细推导,而这东西又庞大复杂,想了解的话直接可以参考。说实话,SVM确实到现在也不是说很懂,感觉最恐怖的是对偶问题后的KKT推导、Mercer定理以及最后的参数求解。随便拿出来一个都是及其晦涩的数学问题。无奈水平不行,只能囫囵吞枣。 之所以决定要敲一下...
数据挖掘关联分析中的支持度、置信度和提升度
购物篮分析 购物篮数据的二元0/1表示 利用关联分析的方法可以发现联系如关联规则或频繁项集。 二元表示 每一行对应一个事务,每列对应一个项,项用二元变量表示 项在事务中出现比不出现更重要,因此项是非对称的的二元变量。 项集(Itemset):包含0个或多个项的集合,如果包含k个项,则称为k-项集。 事务的宽度:事务中出现的项的个数 一般我们使用三个指标来度量一个关联规则
Mysql支持的数据类型有哪些?
Mysql支持的多种数据类型主要有:数值数据类型、日期/时间类型、字符串类型。 1.整数数据类型及其取值范围: 类型 说明 存储需求(取值范围) tinyint 很小整数 1字节([0~255]、[-128~127]); 255=2^8-1;127=2^7-1 smallint 小整数 2字节(0~65535、-32768~32767) ;65535=2
机器学习二十二:支持向量机回归SVR
AI菌在前四篇里面我们讲到了SVM的线性分类和非线性分类(核函数),以及在分类时用到的SMO算法。这些都关注于SVM的分类问题。实际上SVM也可以用于回归模型,本篇就对如何将SVM用于回归模型做一个总结。回归和分类从某种意义上讲,本质上是一回事。SVM分类,就是找到一个平面,让两个分类集合的支持向量或者所有的数据离分类平面最远;SVR回归,就是找到一个回归平面,让一个集合的所有数据到该平面的距离最
文章热词 机器学习教程 设计制作学习 Objective-C培训 交互设计视频教程 颜色模型
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 java 支持 机器学习 支持大数据的基础