2 namedajipai namedajipai 于 2016.09.18 22:02 提问

海量大数据(大约1000万数据每天)要求按照时间排序后存入dat文件

海量大数据(大约1000万数据每天)要求按照时间排序后存入dat文件,用什么语句可以实现?怎么样做才能做到性能最高?

2个回答

caozhy
caozhy   Ds   Rxr 2016.10.11 19:16
已采纳
CSDN_ZOL
CSDN_ZOL   2016.09.18 23:16

每天一千万数据还算中等吧,不是数据量特别大。中国移动那个一天通信通话上亿记录。一千万数据分开读写。比如切割成几个文件,用多线程同时读取,然后写入。
mapreduce就是做这个事情,就是分解然后再归并。速度很快。

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
海量数据处理之外排序
前言: 本文是对July博文http://blog.csdn.net/v_JULY_v/article/details/6451990的一些总结 现在先让我们来看一道有关外排序的题: 问题描述: 输入:一个最多含有n个不重复的正整数(也就是说可能含有少于n个不重复正整数)的文件,其中每个数都小于等于n,且n=10^7。 输出:得到按从小到大升序排列的包含所有输入的整数的列表。 条件:最
测试大数据(快速排序)100万条数据
该类生成了100万条数据。!!每条数据数据都是转型完成的10位的长整型并且该类还用到了了快速排序import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; public class TestWrite { public sta
如何给1000万条记录排序,每条记录都是7位的整数
1. 问题描述 输入: 一个最多包含n个不重复的正整数的文件,其中每个数都小于n,每个数是一个7位的整数, n=10^7。 条件: 最多有1MB的内存可用, 排序最多只允许执行几分钟,10s是比较理想的运行时间.有充足的磁盘存储空间可用. 输出: 按升序排列的输入整数的列表. 2. 解决方案 2.1 归并排序 由于内存的限制, 只能采用多路归并的方法来解决这个问题. 排序方法; 把这
关于Oracle 大数据排序问题的优化之一
对Oracle的数据进行排序,在数据量比较大的情况下,往往性能会非常低,由于排序需要耗费大量存储空间,一旦涉及磁盘排序,就会有导致效率低下,为了提供其排序效率,经常需要对数据库的相关参数进行调整,但是也无法达到理想的结果,所以需要从应用端进行考虑,尽量减少排序和排序的结果集。           1、减少排序:在没有必要的时候,尽量不使用排序,如果一定要使用排序,排序字段最好包含在筛选字段之中,
随机生成1000万个随机数作为海量测试数据
写于2012.5 上个星期天(2012.5.6)中午去华科参加了百度的笔试,试卷的最后一题是问百度搜索框的suggestion提示功能如何实现,用什么数据结构和算法。 我简单地提及了一下Top K。 前段时间看过算法大牛JULY博客中的一些面试题,其中有讲到Top K算法。且《编程之美》中也有一节专门讲解Top K。现如今百度也考到了,说明Top K算法真的是太重要了。可惜之前都只是粗浅
给一千万个数据量的文件排序
#include #include #include #include #include #include #include #include #include #include #include #define MAXN 5000000 #define RST(N)memset(N, 0, sizeof(N)) using namespace std; typedef u
Hive导入大数据文件
转自http://blog.fens.me/hadoop-hive-10g/ 主要介绍了如何把一个大数据文件导入到hive中以及操作
大数据之使用hadoop对海量数据进行统计并排序
不得不说,Hadoop确实是处理海量离线数据的利器,当然,凡是一个东西有优点必定也有缺点,hadoop的缺点也很多,比如对流式计 算,实时计算,DAG具有依赖关系的计算,支持都不友好,所以,由此诞生了很多新的分布式计算框 架,Storm,Spark,Tez,impala,drill,等等,他们都是针对特定问题提出一种解决方案,新框架的的兴起,并不意味者他们就可以替 代hadoop,一手独大,HDF
算法学习(七)有内存限制的海量数据排序
磁盘文件排序问题描述: 输入:给定一个文件,里面最多含有n个不重复的正整数(也就是说可能含有少于n个不重复正整数),且其中每个数都小于等于n,n = 10^7。 输出:得到按从小到大升序排列的包含所有输入的整数的列表。 条件:最多有大约1MB的内存空间可用,但磁盘空间足够。且要求运行时间在五分钟以下,10秒为最佳结果。 分析: 首先注意的是它的内存要求,基本上否决了大多数的排序算法。 文
大数据排序算法
http://www.51projob.com/a/bishimianshi/hailiangshuju/2012/0322/111.html 处理海量数据问题,无非就是: 分而治之/hash映射 + hash统计 + 堆/快速/归并排序; Bloom filter/Bitmap;Trie树/数据库/倒排索引;外排序;分布式处理之hadoop/mapreduce。