sfwe323323 2019-04-15 19:43
浏览 613

大数据项目技术选型问题请教

我们有一个项目,采集了全国各地运营车辆的相关信息,如gps定位,油耗,车速等。

车辆每10秒上报一次数据,全国车辆每天上报的数据量约为一亿条左右,占用存储约150g/天。

数据上报上来后,并不会对这些数据进行修改,主要用于对数据进行离线分析,另外也对某个具体的车辆轨迹在地图上进行轨迹查询回放。

离线分析一般是按日,周,月,季,年进行离线分析,统计完了放到rdbms就是死数据,对数据实时性要求并不高。

系统的用户数约有5000人。

技术选型:
由于数据量比较大,担心用传统RDBMS存储的话分析性能太差,计划用flume+hbase+spark框架实现,心里一直担忧几个问题:

  1. 这种场景适合用大数据吗?用hbase+spark是不是杀鸡用牛刀了?

  2. 数据量虽然比较大,但用户规模比较小,在线用户数才500人,用hbase进行存储合适吗?用hbase对单车的明细轨迹数据进行查询速度快吗?

3.数据上报上来后存储到某个目录,统计时有简单聚合操作,也有计算平均值和同环比分析,用以下哪种方式合适?
a. flume->spark(数据清洗)->hbase->spark(离线分析)->mysql
b. flume->kafka->spark streaming(数据清洗)->hbase->spark (离线分析)->mysql。
c.flume->kafka->spark streaming (数据清洗和聚合统计)->hbase->spark (离线分析,均值,同环比,年报月报)->mysql

麻烦各位前辈指点指点,越详细越好,谢了

  • 写回答

0条回答

    报告相同问题?

    悬赏问题

    • ¥60 版本过低apk如何修改可以兼容新的安卓系统
    • ¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
    • ¥50 有数据,怎么建立模型求影响全要素生产率的因素
    • ¥50 有数据,怎么用matlab求全要素生产率
    • ¥15 TI的insta-spin例程
    • ¥15 完成下列问题完成下列问题
    • ¥15 C#算法问题, 不知道怎么处理这个数据的转换
    • ¥15 YoloV5 第三方库的版本对照问题
    • ¥15 请完成下列相关问题!
    • ¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像,如何解决?