2 qq 21194023 qq_21194023 于 2016.03.01 17:18 提问

hive随机抽取数据,保证数据随机性

在hive中随机抽取1000条数据,保证数据的随机性,确保两次抽取数据的不一致。

2个回答

qq_21194023
qq_21194023   2016.03.02 16:53
已采纳

本人已经解决,仅供参考
select * from mydata order by rand() limit 1000;
order by 排序
order by rand() 随机排序
limit 1000 取出前一千条数据
order by rand() limit 1000 取出随机排序后的前一千条数据

caozhy
caozhy   Ds   Rxr 2016.03.02 04:35
Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
Hive-2.HiveQL查询中抽样查询
当数据集非常大的时候,我们需要找一个子集来加快数据分析。此时我们需要数据采集工具以获得需要的子集。在此可以使用三种方式获得采样数据:random sampling, bucket sampling, block sampling。 8.1随机抽样(Random sampling )  使用RAND()函数和LIMIT关键字来获取样例数据,使用DISTRIBUTE和SORT关键字来保证数据是随机
随机取数据算法性能比较
您有在工作中有类似这样的需求吗:从10万条不重复的数据中随机取出1千条不重复的数据?这里我们通过几种方法来实现此需求,并对每种方法进行性能比较,然后得出较优的方案,如果您有更优的方案,欢迎分享。       初始化数据: //最大值 const int maxValue = 1000000; //循环次数
hive分组随机抽一定量数
分组随机抽数
hive 随机抽取 分流
背景:做AB testing, 需要分流出固定百分比70%(但数量不固定)的用户跑二级风控模型问题:查了几个函数,都不能满足要求,比如ntile, tablesample(n percent) (这个是按size分的,不是行数)解决:with temp1 as (    select ceil(count(*)*0.7) as cnt    from report.report_mxdai_ris...
Hive实现从表中随机抽样得到一个不重复的数据样本
select * from (   select e.*, cast(rand() * 100000 as int) as vidx from  e                          ) vt order by vt.vidx limit 1000 说明: 1,表e为一个普通的表,里面存有数据,我们要从表e中随机抽出1000条数据作为数据样本。 2,r
hive-随机取样
转自 http://daizj.iteye.com/blog/2273426 http://lxw1234.com/archives/2015/08/444.htm 0-Random sampling         使用RAND()函数和LIMIT关键字来获取样例数据。 使用DISTRIBUTE和SORT关键字来保证数据是随机分散到mapper和reducer的。O
hive 随机数避免数据倾斜
转载 仅作记录 发生数据倾斜时,通常的现象是: 任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。查看未完成的子任务,可以看到本地读写数据量积累非常大,通常超过10GB可以认定为发生数据倾斜。 数据倾斜一般是由于代码中的join或group by或distinct的key分布不均导致的,大量
Hive 数据抽样
Hive 抽样语法 桶抽样 块抽样 随机抽样 分类随机抽样 快捷键 Markdown及扩展 表格 定义列表 代码块 脚注 目录 数学公式 UML 图 离线写博客 浏览器兼容Hive 抽样语法Hive使用TABLESAMPLE语法对表进行抽样桶抽样桶抽样语法:tablesample (bucket x out of y [on colname]) tablesample可以用在任何表上,不单
从Hive表中进行数据抽样-Sampling
在Hive中提供了数据取样(SAMPLING)的功能,用来从Hive表中根据一定的规则进行数据取样,Hive中的数据取样支持分桶表取样和数据块取样。 16.1 数据块取样(Block Sampling) block_sample: TABLESAMPLE (n PERCENT) 根据输入的inputSize,取样n%。 比如:输入大小为1G,TABLESAMPLE (50
Hive取随机数 rand()函数
取随机数函数: rand 语法: rand(),rand(int seed) 返回值: double 说明:返回一个0到1范围内的随机数。如果指定种子seed,则会等到一个稳定的随机数序列 举例: hive> select rand() from lxw_dual; 0.5577432776034763 hive> select rand() from lxw_dual; 0.66