2 namedajipai namedajipai 于 2016.09.18 19:49 提问

海量大数据实时需要排序存入文件中使用什么文件比较好?

海量大数据实时需要排序存入文件中使用什么文件比较好?使用dat可以实现么,除了put语句还有什么语句可以快速写入dat文件的?

3个回答

caozhy
caozhy   Ds   Rxr 2016.09.18 23:39
已采纳
coding_hello
coding_hello   2016.09.18 20:18

没有dat文件一说。就是个二进制文件。

提高写入性能,硬件固定了的情况下,一次多写一点,避免频繁API调用,另外,应该采用异步写文件的方式提高性能。

cangyingzhijia
cangyingzhijia   2016.09.18 21:29

影响写入的方面可能很多,得具体问题具体分析,而常用的有这么些方面:
1、随机写换成顺序写
2、使用带缓冲的写
3、并行化,可以把排序和写入分开
4、硬件优化,换更好的硬盘,ssd,raid
5、文件内存映射减少内存拷贝次数
6、direct io,要求比较高可能需要自己实现文件cache

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
归并法外排序—海量数据排序
1.外归并排序讲完了内排序,我们来了解一下,外归并排序,外归并排序一般是应对于数据量非常大的数据,这些数据放在硬盘上,无法一次性的放到内存上。所以,我们通常采用的思路对于这些数据就是进行切分,然后对切分出来的文件进行排序。在排序的时候,小文件我们采用快排来排序,如果是大文件,我们就从两个文件中一个一个读取,然后进行归并排序,放入合并以后的文件当中,最后最大的文件就是排序以后的结果。外排序是指在排序期
大数据排序的几种方法
关于大数据排序方法的一些总结
大数据之使用hadoop对海量数据进行统计并排序
不得不说,Hadoop确实是处理海量离线数据的利器,当然,凡是一个东西有优点必定也有缺点,hadoop的缺点也很多,比如对流式计 算,实时计算,DAG具有依赖关系的计算,支持都不友好,所以,由此诞生了很多新的分布式计算框 架,Storm,Spark,Tez,impala,drill,等等,他们都是针对特定问题提出一种解决方案,新框架的的兴起,并不意味者他们就可以替 代hadoop,一手独大,HDF
学长写的一个处理大数据多个文件的排序算法
/*************************************************************************** * * Copyright (c) 2014 Baidu.com, Inc. All Rights Reserved * $Id$ * ***********************************************
java海量大文件数据处理方式
http://dotnet.cnblogs.com/page/68772/  1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a,对每个url求取,然后
海量数据插入数据库的快速方案
在我们开发项目过程中,一般都会遇到大批量的数据导入。比如根据订购日志来生成订购记录。经过查询资料发现了2种比较快速的方法:  方法一   需要对日志文件做解析出来的。   public class JDBCMoreQuick { private static String JDBC_URL = "jdbc:mysql://127.0.0.1:3306/test"; private
实时海量日志分析系统的架构设计、实现以及思考
1 序 对ETL系统中数据转换和存储操作的相关日志进行记录以及实时分析有助于我们更好的观察和监控ETL系统的相关指标(如单位时间某些操作的处理时间),发现系统中出现的缺陷和性能瓶颈。 由于需要对日志进行实时分析,所以Storm是我们想到的首个框架。Storm是一个分布式实时计算系统,它可以很好的处理流式数据。利用storm我们几乎可以直接实现一个日志分析系统,但是将日志分析系统进行模块
【大数据】海量数据处理方法
 1、海量日志数据,提取出某日访问百度次数最多的那个IP。    首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最...
大数据去重
前天接到电话面试,有一个url 去除重复的问题,场景大概是: 公司获取了大量url,肯定是超过内存了,按行存放,现在目的想剔除重复的数据 比如:一个5G 的txt 文件,url 一行一行的存放,而我们的内存只限制1G   我当时首先考虑分拆文件,然后hash,然后想排序比较,当时没想到好的办法,这里先说第一种:   方案一: 1.拆分文件,A B C D
解决大数据方面的问题
1、给超过100G大小的log file,log中存着ip地址,设计算法找到出现次数最多的ip地址? 2、与上题条件相同,如何找到top k的ip?如何直接用linux命令实现? 3、给定100亿个整数,设计算法找到只出现一次的整数 4、给两个文件,分别有100亿个整数,我们只有1G内存,如何找到这两个文件交集 5、一个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有