现在有一个表 暂时有80多个字段 数据量比较大 一天几亿条数据
1、不是每一个字段都能够用得上 不同的设备上传上来的数据不同(使用通用表会有冗余)
2、数据要进行计算 不能以以文本的方式存储,计算的时候会大量消耗cpu 内存等 (非实时计算,可离线)
3、后期还会继续增加字段
4、分布式应用场景
请问 如何选择数据库、表设计, 以及实体类的设计
现在有一个表 暂时有80多个字段 数据量比较大 一天几亿条数据
1、不是每一个字段都能够用得上 不同的设备上传上来的数据不同(使用通用表会有冗余)
2、数据要进行计算 不能以以文本的方式存储,计算的时候会大量消耗cpu 内存等 (非实时计算,可离线)
3、后期还会继续增加字段
4、分布式应用场景
请问 如何选择数据库、表设计, 以及实体类的设计
看要求这是一个典型的大数据场景。传统的关系型数据库就显得不够了。
可以用Hive,数据文件存储在hdfs, 用ORC等column based 格式,方便压缩和值计算部分字段时高效运算。增加字段时也不影响之前的数据文件。
可以按日期建立partition。
计算也用cluster分布处理。
Spark 正时基于内存的大数据处理引擎。编程语言可以用你熟悉的。python门槛相对低一些。
附注:求赞助积分和C币。加入CSDN将近20年了。最近几年忙小孩没登录。刚才搜索到一本电子书想下载,需要20积分/C币。赞助多少都可以。多谢。