求海量数据的高性能查询统计的方法?

目前有每天过亿的历史数据产生,这些数据要保存三个月,可以用什么技术或处理方案可以
实现对这些数据的快速查询统计等操作?

3个回答

这个属于大数据的处理,你需要借助一些专业大数据处理软件,比如hadoop,Storm等。

用大数据平台,hadoop加spark吧,spark查询速度快,也能支持各种统计。

Hash法

Hash一般被翻译为哈希,也被称为散列,它是一种映射关系,即给定一个数据元素,其关键字为key,按一个确定的哈希函数Hash计算出hash(key),把hash(key)作为关键字key对应元素的存储地址(或称哈希地址),再进行数据元素的插入和检索操作。简而言之,哈希函数就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。

哈希表是具有固定大小的数组,其中,表长(即数组的大小)应该为质数。哈希函数是用于关键字与存储地址之间的一种映射关系,但是不能保证每个元素的关键字与函数值是一一对应的,因为极有可能出现对应于不同的元素,却计算出了相同的函数值。冲突是指两个关键字映射到同一个存储地址的情况,即对不同的关键字可能得到同一散列地址,即key1≠key2,而f(key1)=f(key2)。

哈希函数一般应具备以下几个方面的特点:

1)运算应该尽可能简单。

2)函数的值域必须在散列表的范围内。

3)尽可能地减少冲突。

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!