flume+kafka+hdfs 整合问题 5C

本想搭建一个 flume+hdfs+kafka+storm+mysql 的日志实时分析和存储的系统,但是flume日志收集这块一直不通,查看flume的日志也没有报错,不知道该怎么解决了,求大家帮帮忙,贴出集群配置和配置文件如下:
共5台机器:node1~node5,其中node3~node5为日志收集的agent,node1~node2为flume的collector,最终存储两份,一份到kafka,一份到hdfs。
agent的配置文件如下:

#def
agent.sources = src_spooldir
agent.channels = file memory
agent.sinks = collector_avro1 collector_avro2

sources

agent.sources.src_spooldir.type = spooldir
agent.sources.src_spooldir.channels = file memory
agent.sources.src_spooldir.spoolDir = /data/flume/spoolDir
agent.sources.src_spooldir.selector.type = multiplexing
agent.sources.src_spooldir.fileHeader = true

channels

agent.channels.file.type = file
agent.channels.file.checkpointDir = /data/flume/checkpoint
agent.channels.file.dataDirs = /data/flume/data
agent.channels.memory.type = memory
agent.channels.memory.capacity = 10000
agent.channels.memory.transactionCapacity = 10000
agent.channels.memory.byteCapacityBufferPercentage = 20
agent.channels.memory.byteCapacity = 800000

sinks

agent.sinks.collector_avro1.type = avro
agent.sinks.collector_avro1.channel = file
agent.sinks.collector_avro1.hostname = node1
agent.sinks.collector_avro1.port = 45456
agent.sinks.collector_avro2.type = avro
agent.sinks.collector_avro2.channel = memory
agent.sinks.collector_avro2.hostname = node2
agent.sinks.collector_avro2.port = 4545

collector端的配置文件如下:

#def
agent.sources = src_avro
agent.channels = file memory
agent.sinks = hdfs kafka

sources

agent.sources.src_avro.type = avro
agent.sources.src_avro.channels = file memory
agent.sources.src_avro.bind = node1
agent.sources.src_avro.port = 45456
agent.sources.src_avro.selector.type = replicating

channels

agent.channels.file.type = file
agent.channels.file.checkpointDir = /data/flume/checkpoint
agent.channels.file.dataDirs = /data/flume/data
agent.channels.memory.type = memory
agent.channels.memory.capacity = 10000
agent.channels.memory.transactionCapacity = 10000
agent.channels.memory.byteCapacityBufferPercentage = 20
agent.channels.memory.byteCapacity = 800000

sinks

agent.sinks.hdfs.type = hdfs
agent.sinks.hdfs.channel = file
agent.sinks.hdfs.hdfs.path = hdfs://node1/flume/events/%y-%m-%d/%H%M/%S
agent.sinks.hdfs.hdfs.filePrefix = log_%Y%m%d_%H
agent.sinks.hdfs.hdfs.fileSuffix = .txt
agent.sinks.hdfs.hdfs.useLocalTimeStamp = true
agent.sinks.hdfs.hdfs.writeFormat = Text
agent.sinks.hdfs.hdfs.rollCount = 0
agent.sinks.hdfs.hdfs.rollSize = 1024
agent.sinks.hdfs.hdfs.rollInterval = 0

agent.sinks.kafka.type = org.apache.flume.sink.kafka.KafkaSink
agent.sinks.kafka.channel = memory
agent.sinks.kafka.kafka.topic = test
agent.sinks.kafka.kafka.bootstrap.servers = node3:9092,node4:9092,node5:9092
agent.sinks.kafka.kafka.flumeBatchSize = 20
agent.sinks.kafka.kafka.producer.acks = 1
agent.sinks.kafka.kafka.producer.linger.ms = 1
agent.sinks.kafka.kafka.producer.compression.type = snappy

最终 hdfs和kafka都没有接收到数据。

0

1个回答

0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
kafka+flume+hdfs实时日志流系统初探
kafka+flume+hdfs搭建实时日志流系统
大数据集群搭建(12)——Flume和Kafka的整合
Flume和Kafka的整合 1.配置flume,在flume的conf目录下新建文件(flume_kafka.conf)并配置。  ######################################################## ##主要作用是监听目录中的新增数据,采集到数据之后,输出到kafka ##    注意:Flume agent的运行,主要就是配置source...
基于cdh3.7.5的Flume+Kafka+Sparkstreaming+HDFS+CM+IDEA准实时处理日志(测试通过)
本文的主要目的就是为了实现以下需求: 通过flume收集日志; 将收集到的日志分发给kafka; 通过sparksteaming对kafka获取的日志进行处理; 然后将处理的结果存储到hdfs的指定目录下。 Flume连通Kafka配置 a1.sources = r1 a1.channels = c1 a1.sinks =s1 ...
Flume采集数据到Kafka,然后从kafka取数据存储到HDFS的方法思路和完整步骤
自己研究大数据多年,写的一个日志数据采集方案笔记,可快速熟悉Flume,Kafka,Hdfs的操作使用,以及相互的操作接口。
flume实现kafka到hdfs实时数据采集 - 有负载均衡策略
方案: 两台采集机器pc1,pc2.有两个写hdfs的sink,分别部署到两台机器,然后两个负载均衡的agent,也是分布部属到两台机器上,每一个agent都是写到两个hdfs sink的source端.   配置: *******************************************hdfs sink hdfs-sink.sources = r1 hdfs-sink.si...
通过Flume拉取Kafka数据保存到HDFS
通过Flume拉取Kafka数据保存到HDFS
数据离线分析:kafka+flume+hdfs
       数据采集到kafka中之后,既可以对数据进行离线分析,又可以对数据进行实时分析,有些数据适合进行离线分析,比如用户画像。离线分析,需要将数据从kafka中存到hdfs中,这里使用flume,将数据从kafka中导入到hdfs中。flume的启动配置文件(kafkaToHdfs.conf):# ------------------- 定义数据流---------------------...
Flume将日志log文件从本地导入kafka,再从kafka导入HDFS。(以Kafka在两个文件中分别作为Source和Sink)
kafka-in.conf文件(在/etc/flume-ng/conf文件夹下) #文件从本地路径到kafka配置文件# #-----------------------------# # 指定Agent的组件名称 agent1.sources = file_source agent1.sinks = kafka_sink agent1.channels = mem_channel #---...
分布式消息中间件(四)——Flume+Kafka+Storm+Redis生态架构实战
一、Kafka项目应用架构分析 1、Kafka生态架构        数据收集的速度,跟处理的速度不一定一致,故使用Kafka中间件作为数据收集和数据处理的一个Access入口,接收flume收集的数据,并通过kafkaSpout提交给Storm进行处理。 2、kafka 消息生产者 3、kafka 消息消费者   二、Kafka Producer  1、配置FlumeCl
CentOS7搭建Flume与Kafka整合及基础操作与测试
前提已完成Kafka的搭建,具体步骤参照CentOS7搭建Kafka单机环境及基础操作Flume安装下载wget http://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.6.0/apache-flume-1.6.0-bin.tar.gz解压tar -zxvf apache-flume-1.6.0-bin.tar.gz移动文件夹mv apache-flu...
flume的kafka到hdfs的配置
1.htrace-core-3.0.jar2.commons-configuration-1.6.jar3.hadoop-auth-2.6.0.jar4.hadoop-common-2.6.0.jar5.hadoop-hdfs-2.6.0.jar6.hadoop-mapreduce-client-core-2.6.0.jar遇到这些错误时,添加以上包就可以解决:java.lang.NoClassD...
flume实时接收kafka消息并保存至HDFS
#-------agent------ # 定义sources agent.sources = kafkaSource # 定义channels agent.channels = memoryChannel # 定义sinks agent.sinks = hdfsSink agent.sources.kafkaSource.channels = memoryC
Flume与Kafka整合案例详解
环境配置 名称 版本 下载地址 Centos 7.0 64x 百度 Zookeeper 3.4.5 Flume 1.6.0 Kafka 2.1.0 配置Flume这里就不介绍了零基础出门右转看Flume的文章flume笔记直接贴配置文件[root@zero239 kafka_2.10-0.10.1.1]# cat /opt/hadoop
Flume将日志log文件从本地导入kafka,再从kafka导入HDFS--使用kafka作为channel
作为前面两篇文章的整合,并使用kafka作为channel: 1、Flume将日志log文件从本地导入kafka,再从kafka导入HDFS。地址: https://blog.csdn.net/m0_37890482/article/details/81126522#0-qzone-1-10214-d020d2d2a4e8d1a374a433f596ad1440 2、Flume根据文件中每行...
大数据———Flume与Kafka整合
环境配置 名称 版本 下载地址 Centos 7.0 64x 百度 Flume 1.8.0 http://flume.apache.org/download.html Kafka 2.11 http://mirror.bit.edu.cn/apache/kafka/1.0.0/kafka_2.11-1.0.0.tgz
flume接收kafka数据存储到hdfs
1、Flume介绍 Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 设计目标: 可靠性当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障,从强到弱依次分别为:end-to-end(收到数据agent首先将event写到磁...
05 flume+kafka实现对nginx日记收集并存储到hdfs
1.在集群上每台nginx服务器安装flume 2.配置flume         使用spooldir做为source,监控/soft/nginx/logs/flume文件夹。         创建eshop.conf配置文件 [/soft/flume/conf/eshop.conf]         a1.sources = r1         a1.channels = c1      ...
flume从kafka获取数据并按时间保存到hdfs上
#############################flume-config-name  从kafka获取数据并保存到hdfs上########################### #source名称 flume-config-name.sources = source-flume-config #channel名称 flume-config-name.channels = cha
CDH-Kerberos环境下使用flume消费带权限认证的kafka数据保存到hdfs中
前提: 1.kerberos环境可用 2.flume服务可用 3.kafka服务可用并做了sentry权限管理 4.hdfs服务可用并集成了sentry权限管理 1 配置flume 打开CDH-Flume服务界面,点击配置,搜索配置。输入agent配置内容(注意代理名称要和配置文件中的一致!!!) 配置文件内容 : testkafka.channels = c1 testkafka.source...
flume将数据发送到kafka、hdfs、hive、http、netcat等模式的使用总结
1、source为http模式,sink为logger模式,将数据在控制台打印出来。conf配置文件如下:# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources.r1.type = http #该设置表示接收通过h...
利用Flume将MySQL表数据准实时抽取到HDFS、MySQL、Kafka
软件版本号 jdk1.8、apache-flume-1.6.0-bin、kafka_2.8.0-0.8.0、zookeeper-3.4.5集群环境安装请先测试; 参考以下作者信息,特此感谢;http://blog.csdn.net/wzy0623/article/details/73650053https://www.cnblogs.com/sunyaxue/p/6645415.html需要向/u...
如何使用Maxwell和flume,kafka 把MySQL数据实时同步到HDFs?
Hadoop实战:使用Maxwell把MySQL数据实时同步到HDFsMaxwell介绍Maxwell是一个守护程序,一个应用程序,能够读取MySQL Binlogs然后解析输出为json。支持数据输出到Kafka中,支持表和库过滤。→ Reference:http://maxwells-daemon.io→ Download: https://github.com/zendesk/maxwell...
Flume将日志log文件从本地导入Kafka_channel,再存储到HDFS。
作为前一篇的修改版,取出来kafka-in.conf文件中的sink和kafka-out.conf文件中的source。 前一篇链接:https://blog.csdn.net/m0_37890482/article/details/81130840 以下配置文件都存储于 /etc/flume-ng/conf/ 下面 kafka-in.conf #--------文件从本地路径到kafk...
flume采集数据输出到kafka还是hdfs
主要由以下四点区别 1、实时性:hdfs的实时性没有kafka高。 2、消费量的记录:hdfs不会记录你这个块文件消费到了哪里,而基于zookeeper的kafka会记录你消费的点。 3、并发消费:hdfs不支持并发消费,而kafka支持并发消费,即多个consumer. 4、弹性且有序:当数据量会很大,而且处理完之后就可以删除时,频繁的读写会对hdfs中NameNode造成很大的压力。而kafk...
Flume采集数据到HDFS中,开头信息有乱码
Flume采集数据,在生成的HDFS文件中,总是有“SEQ!org.apache.hadoop.io.LongWritable"org.apache.hadoop.io.BytesWritable??H謺NSA???y”信息,在Flume文档中介绍,hdfs.fileType默认为SequenceFile,将其改为DataStream就可以按照采集的文件原样输入到hdfs,加一行a1.sinks....
flume与kafka整合安装。
环境:kafka_2.10-0.10.2.1.tgz,Hadoop-2.7.3集群,zookeeper-3.4.10,kafka_2.10-0.10.2.1安装Flume之前先安装kakaf集群。点此查看kafka安装一、Flume安装我这里一共有一个Master,三个Slave。我只将Flume安装在其中的一个Slave(主机名Server3)上1.解压到指定目录    tar -zxvf ap...
flume从mysql采集数据同时存入hdfs和kafka,加载数据到hive中
1.在mysql创建表导入数据 use test; create table wlslog (id int not null, time_stamp varchar(40), category varchar(40), type varchar(40), servername varchar(40), code varchar(4...
Flume和Kafka整合安装
版本号: RedHat6.5   JDK1.8    flume-1.6.0   kafka_2.11-0.8.2.1 1.flume安装 RedHat6.5安装单机flume1.6:http://blog.leanote.com/post/2630794313@qq.com/26781d33b435 2.kafka安装 RedHat6.5安装kafka集群 : 
Flume与Kafka整合完成实时数据处理
Flume与Kafka整合完成实时数据处理
flume整合kafka外加操作代码及配置文件!!亲测有效
我这次写的是我在学习完flume和kafka之后做的一个Demo,而且在flume采集完成之后,加上一个kafka能起到消峰缓冲的效果 首先需要的两大组件及其版本 Kafka2.11 Flume1.7 (jdk1.8 scala2.11) 当然具体的安装我就不做过多的解释了, 我是在本地的idea使用log4j自己创建信息: 在此之前我们需要创建一个properties文件(...
Flume+Kafka整合案例实现
  一、为什么要集成Flume和Kafka 我们很多人在在使用Flume和kafka时,都会问一句为什么要将Flume和Kafka集成?那首先就应该明白业务需求,一般使用Flume+Kafka架构都是希望完成实时流式的日志处理,后面再连接上Flink/Storm/Spark Streaming等流式实时处理技术,从而完成日志实时解析的目标。第一、如果Flume直接对接实时计算框架,当数据采集速...
Flume + kafka + HDFS构建日志采集系统
 Flume是一个非常优秀日志采集组件,类似于logstash,我们通常将Flume作为agent部署在application server上,用于收集本地的日志文件,并将日志转存到HDFS、kafka等数据平台中;关于Flume的原理和特性,我们稍后详解,本文只简述如何构建使用Flume + kafka + HDFS构建一套日志采集系统。    1)Flume:作为agent部署在每个appli...
Flume增量采集mysql数据库数据到HDFS、Kafka
软件版本号 jdk1.8、apache-flume-1.6.0-bin、kafka_2.8.0-0.8.0、zookeeper-3.4.5 需要向apache-flume-1.6.0-bin/lib 放入两个jar包 flume-ng-sql-source-1.3.7.jar   -->flume的mysql source 下载地址: https://github.com/keedio/...
大数据系列之分布式发布订阅消息系统Kafka(四)Kafka与Flume的3种整合
前面我们已经介绍了Flume,现在我们将Kafka与Flume整合 先看一下Flume的结构组成:            我们可以发现,将Flume与Kafka进行整合无非3种情况,Flume作为生产者——Sink输出到Kafka,Flume作为消费者——Source接受Kafka的输出,Flume既做生产者也做消费者,格式为Source接受数据——Kafka(作为Flume的Channel...
linux集成 kafka数据通过flume发送到hadoop
上一篇文章《 linux安装flume和集成kafka测试》,我们介绍了flume安装和集成数据到kafka,本篇文章我们将集成kafka,flume,hadoop,通过flume发送kafka数据到hadoop的hdfs文件。 一.前期准备 1.1 hadoop安装 版本:Hadoop 2.6.5 安装: linux hadoop完全分布式集群搭建图文详解 1.2 zookeeper安装 版本:zookeeper-3.4.9 安装: linux zookeeper3.4.9集群搭建图文详解 1.3
Flume + Kafka学习——整合Demo
Flume + Kafka学习——整合Demo 环境 Flume 1.6.0-cdh5.7.0 Kafka 0.9.0.0 FLume官方文档 Flume1.6.0 User Guide Kafka官网文档 Kafka Documentation Flume Apache Flume is a distributed, reliable, and availab...
spark streaming 整合flume ,kafka 打造通用流处理
一、编写LoggerGenerator.java文件用于生成日志信息 添加依赖 <dependency> <groupId>org.apache.flume.flume-ng-clients</groupId> <artifactId>flume-ng-log4jappender&...
Spark与kafka和flume的集成
kafka原理 Topic在逻辑上可以被认为是一个queue,每条消费都必须指定它的Topic,可以简单理解为必须指明把这条消息放进哪个queue里。为了使得Kafka的吞吐率可以线性提高,物理上把Topic分成一个或多个Partition,每个Partition在物理上对应一个文件夹,该文件夹下存储这个Partition的所有消息和索引文件。若创建topic1和topic2两个topic
kafka接flume遇到的问题
同事遇到点问题,抛出来了4个问题,如下 1  flume的source是kafka,sink是hdfs,怎样判断flume是否堆积,或者是说怎么样保证落地的速度和消费的速度是平衡的 2  怎么判断flume的agent程序是否挂掉 3  挂掉时tmp文件爱呢怎么处理(hdfs上的tmp文件) 4  我遇到一个问题,当agent是6个时,一小时约生成26.5G文件,当有3个agent时,一小
flume监听端口整合kafka以及相关错误
之前的http.conf: #savecontenttofile agent2.sources=httpSrc agent2.channels=channel agent2.sinks=sink agent2.sources.httpSrc.type=http agent2.sources.httpSrc.bind=172.16.90.61 agent2.sources.ht
文章热词 设计制作学习 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 nlp与教育整合 大数据如何和深度学习整合