关于某大数据项目技术选型的问题请教

我们有一个项目，采集了全国各地运营车辆的相关信息，如gps定位，油耗，车速等。

车辆每10秒上报一次数据，全国车辆每天上报的数据量约为一亿条左右，占用存储约150g/天。

数据上报上来后，并不会对这些数据进行修改，主要用于对数据进行离线分析，另外也对某个具体的车辆轨迹在地图上进行轨迹查询回放。

离线分析一般是按日，周，月，季，年进行离线分析，统计完了放到rdbms就是死数据，对数据实时性要求并不高。

系统的用户数约有5000人。

技术选型：
由于数据量比较大，担心用传统RDBMS存储的话分析性能太差，计划用flume+hbase+spark框架实现，心里一直担忧几个问题：

这种场景适合用大数据吗？用hbase+spark是不是杀鸡用牛刀了？

数据量虽然比较大，但用户规模比较小，在线用户数才500人，用hbase进行存储合适吗？用hbase对单车的明细轨迹数据进行查询速度快吗？

3.数据上报上来后存储到某个目录，统计时有简单聚合操作，也有计算平均值和同环比分析，用以下哪种方式合适？
a. flume->spark（数据清洗)->hbase->spark(离线分析)->mysql
b. flume->kafka->spark streaming（数据清洗)->hbase->spark (离线分析)->mysql。
c.flume->kafka->spark streaming （数据清洗和聚合统计)->hbase->spark (离线分析，均值，同环比，年报月报)->mysql

麻烦各位前辈指点指点，越详细越好，谢了

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
你知我知皆知 2024-08-08 14:59
关注
以下回答参考 皆我百晓生、券券喵儿 等免费微信小程序相关内容作答，并由本人整理回复。

这个问题的答案取决于许多因素，包括但不限于你的具体需求、可用资源、预算和时间限制。然而，我可以提供一些关于如何解决这些问题的一般建议。

首先，Hadoop生态系统是处理大规模数据的理想选择，特别是对于具有大量读写操作的大数据应用。Spark是Apache Spark项目的一部分，是一个高性能的数据处理引擎，可以用于实时流式处理和批处理任务。Flume是一种开源的日志收集系统，可以帮助您将数据从各种来源收集并传输到HDFS或S3等存储系统中。

对于您的数据集，使用Hadoop和Spark来处理可能不是最优的选择。在这种情况下，您可以考虑使用Kafka作为消息队列，以便于异步处理和分发数据。然后，您可以将数据发送到Hadoop集群中的一个数据仓库，如HBase或MySQL。这可以通过使用Flume和Kafka之间的集成来完成。

至于数据清洗，您可以使用Spark SQL或其他SQL数据库工具来执行数据清洗操作。例如，您可以创建一个简单的SQL查询来删除重复项、填充缺失值或转换数据类型。如果您的数据包含日期时间字段，则可以使用SQL的DATE_FORMAT函数将其转换为标准格式。

此外，您可以使用Hive或Pig等SQL数据库工具来执行复杂的统计和分析操作，如求和、平均值、方差、标准差等。如果您需要更高级的功能，如聚类、回归分析或机器学习，可以使用Apache Mahout库或类似的库。

最后，您应该根据您的实际需求和可用资源来决定最佳的数据存储和处理方法。例如，如果您的数据量非常大，而且用户数量较少，那么使用Hadoop和Spark可能不是一个好主意。相反，您可以考虑使用其他数据处理解决方案，如Google Bigtable、Amazon Redshift或Microsoft Azure Data Lake Analytics等。

请注意，以上建议仅供参考，具体情况应根据您的具体需求和实际情况来决定。

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

编辑

预览

报告相同问题？

关注问题

大数据视频项目的架构选型问题，急急急急急急急急急急急急急急急大数据架构
2015-11-23 20:00

回答 2 已采纳前端用flex，后端用流媒体服务器就可以了。如果是双向实时授课，也可以用现成的网络会议软件。没必要自己做。
android与j2ee交互技术选型问题
2013-10-17 09:11

回答 2 已采纳使用Spring MVC 提供RestFul的api给andorid app调用;
关于element ui 选型改造的问题讨论越多还是越少？ html5 vue.js
2021-05-28 09:04

回答 3 已采纳 1.最好不要剪掉element-ui的api因为很多都是依赖其他的api 2.讲实话现在不是大量数据操作，根本对性能没有影响 3.element-ui作为vue最受欢迎的组件库，其api强大和性能
大数据毕业设计：2025年计算机毕业设计选题汇总✅
2024-10-24 13:57

vx_biyesheji0001的博客 大数据毕业设计：2025年计算机毕业设计选题汇总✅
请教：关于技术选型
2009-07-12 16:30

回答 4 已采纳淘宝是用java 框架用到 apache+jboss spring iBATIS 自己开发类似STRUTS的MVC框架 oracle + mysql 缓存:
开发Windows原生桌面应用程序的技术选型 asp.net c# microsoft visual studio
2019-03-05 01:40

回答 3 已采纳 1. 有JavaScript基础，该如何入门C# 基础语法差不多，面向对象的思想js也会遇到。快速入门的方法，个人觉得有2个：
关于JSP构建大型建材商务网站的框架选型问题
2011-10-21 08:24

回答 2 已采纳这些服务器都可以，关键是你会不会了。做网站前台ext不考虑
趣说技术 | 用MQ 能完全替代 RPC 调用？
2021-09-25 01:58

kevin_tech的博客曾经专门向朋友请教过这个设计，话说某大厂曾经在某个项目做了 MQ 代替 RPC 的实践，但是三个月不到这个项目就被毙了。所以你看不到这个设计方案的缺点：因为很多人不能把失败的案例放出来而已。简单说下这个方案的...
求助 Java模块之间无侵入式设计解决方案 java java-ee spring
2019-09-05 06:20

回答 3 已采纳提供一个思路：利用spring aop机制，定义一个注解，如@AddPoint，注解的拦截处理类中实现积分的相关操作，将注解加在需要处理积分的方法（如登录模块的方法）上就可以了。具体实现去网上
java做开发一般用什么做缓存？ java
2020-05-07 08:37

回答 2 已采纳 3.2、分布式缓存(Redis、Memcached等nosql) 服务端的应用数据，一般考虑放在分布式缓存Redis中
求推荐项目管理系统框架 java vue.js
2021-09-07 06:21

回答 3 已采纳这个 Bladex 也是个相对不错的选择（前面那个 Jeecg 太贵了...） BladeX 快速开发平台,官方网站,基于SpringBoot,SpringCloud的微
【总结】1038- 校招前端在字节跳动一年的收获
2021-08-03 00:20

pingan8787的博客很幸运能在刚毕业的时候就有机会自主对一个C端组件库从技术选型到开发落地，当时调研了公司内外的C端组件库技术方案，结合我们业务的特点整理了一套技术方案。除了实现组件库本身，也适当“折腾”了一下，比如...
规则引擎方案选型，大佬们给出你专业的意见 java
2019-02-21 07:47

回答 1 已采纳规则引擎我推荐：aviator；原因是已经用于生产，并且是作用于规则引擎类型的系统中，可以支持很多复杂的规则表达式，以及自定义函数（计数，唯一计数，中位数等函数实现）；首先用规则引擎，它首先一个是
大数据面试题总结
2020-12-28 08:20

鸭梨山大哎的博客介绍一下最近的项目？目前在研究什么技术？如何判定一个表是事实表还是维度表？数据建模过程说一下？三范式知道吗，说一下？数据仓库模型建设可以使用范式建模吗，你是怎么看的？缓慢变化维处理...
2018 大数据面试
2018-10-02 08:01

Simple_Zz的博客 大数据工程师(开发)面试 1.HBase和Hive都是基于Hadoop，为什么Hive查询起来非常慢，但HBase不是？ Hive是类SQL引擎，其查询都需要遍历整张表，跑MapReduce自然很慢，但HBase是一种NoSQL的列式数据库，基于Key/...
没有解决我的问题, 去提问

关于某大数据项目技术选型的问题请教

1条回答 默认 最新

1条回答默认最新