如何高效的将kafka中的数据（T/day）写入hdfs？

问题背景：

目前kafka中每天有10T数据左右，需要每天将这些数据写入hdfs中。每秒数据量量为10000/s条，每条数据10kB左右。

以做尝试：

1.使用logstash直接消费kafka中的数据，在output中写入hdfs中。结果：处理效率500/s。

2.使用logstash将数据写入本地磁盘，每个小时使用hadoop fs -put语句定时上传。每小时大概400G数据，勉强可以处理完，但后续若数据量继续变大，必然出现数据积压。

考虑将数据压缩后上传：

1.每小时上传数据前将数据压缩，测试lz4压缩效率为3g/min，gzip压缩效率为1g/min。明显压缩所花的时间足以上传所有数据了。

2.使用logstash在输出数据时使用流式压缩为gzip格式，logstash处理数据能力大幅降低为1000/s条。

请问各位大佬指点一下其他处理大数据量从kafka到hdfs的思路，不限以上提到的组件。本人大数据新手，感谢你的回答。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
XuTengRui 2021-07-06 12:44
关注
解决方案：
首先你要确定是上游kafka的数据输出太多还是下游hdfs写入能力太差造成的

如果kafka的数据输出太多，消费不过来，你可以通过增大分区，增加每个批次拉取量来解决
如果hdfs写入能力太差，可能考虑下多线程写入或者并发写入的问题了
看了你使用logstash工具同步每秒500条感觉性能有点差，你看看logstash有没有增加poll的参数，设置多线程的参数之类的，
我一般遇到这种场景都是使用streamsets工具的，上T级别数据量没压力，最近实现了Kafka同步到HBase的功能，你要感兴趣的话可以看看：
https://blog.csdn.net/BlackArmand/article/details/118367522?spm=1001.2014.3001.5502
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

大数据领域HDFS与Kafka的数据交互
2025-08-27 16:52

AI开发架构师的博客在当今数据驱动的世界中，企业面临着双重挑战：如何高效存储海量历史数据，以及如何实时处理源源不断的流数据。HDFS作为大数据存储的基石，为我们提供了可靠的"数据仓库"；而Kafka则作为高性能的"数据传送带"，实现...
将数据上传至hdfs的两种方式：java代码上传、将数据放入kafka中,通过flume抽取
2024-11-12 20:12

jlting195的博客第一步：生成随机数据，将数据放入kafka中。第二步：创建数据存入kafka的topic。
实战Flink Java api消费kafka实时数据落盘HDFS
2024-01-07 22:30

程序终结者的博客在Java api中，使用flink本地模式，消费kafka主题，并直接将数据存入hdfs中。
整合kafka与flume，Flume读取Kafka数据写入Hdfs（forty-nine day）
2019-05-14 18:27

高辉的博客读kafka中topic的消息发到hdfs，flume配置：注意：我不确定是不是必须要写成zookeeper的leader，我写成本机zookeeper的时候报一个错误，大概就是没找到zookooper，我换成leader的域名slave3就好了所以agent....
flink-streaming消费kafka动态分区写入HDFS(SequenceFile)文件
2022-01-09 10:59

huobumingbai1234的博客大致的数据流程是消费kafka，拆解json，数据写到hdfs(sequenceFile)路径。 1、分区需要自定义，这里是读取流数据，获取分区字段 package partitionassigner; import org.apache.flink.api.java.tuple.Tuple2; ...
Flink DataStream之Kafka数据写入HDFS，并分区到Hive
2019-07-10 11:05

张行之的博客 Flink DataStream之Kafka数据写入HDFS，并分区到Hive 因业务要求，我们需要从Kafka中读取数据，变换后最终Sink到业务的消息队列中，为保证...下面就介绍如何将流式数据写入HDFS，同时将数据load到Hive表中。一、po...
将Kafka中的数据流式写入到数据湖Delta Lake中
2022-04-12 10:36

花信風-Ling的博客将Kafka的数据流式写入到Delta数据湖中 2. kafka原始数据格式名称类型 user_id Long station_time String score Int local_time String 3.1 构建spark val spark: SparkSession = SparkSession....
二百零七、Flume——Flume实时采集5分钟频率的Kafka数据直接写入ODS层表的HDFS文件路径下
2023-11-21 10:48

天地风雷水火山泽的博客 Flume实时采集5分钟频率的Kafka数据直接写入ODS层表的HDFS文件路径下
sparkstreaming 读取kafka数据，写入hdfs，使用saveAsHadoopFile
2020-07-10 18:08

荣晓的博客 * @auther FRX * @date 2020/7/8 * 项目描述：sparkstreaming，每十分钟读取一次数据，按天+小时分区存入 */ object FileToHdfs { def main(args: Array[String]): Unit = { import org.apache.kafka.common....
二百三十三、Flume——Flume采集JSON文件到Kafka，再用Flume采集Kafka数据到HDFS中
2024-04-19 14:56

天地风雷水火山泽的博客 Flume采集JSON文件到Kafka，再用Flume采集Kafka数据到HDFS中
没有解决我的问题, 去提问

如何高效的将kafka中的数据（T/day）写入hdfs？

3条回答 默认 最新

3条回答默认最新