IBM BigInsights Flume 简介
Flume 是开源的海量日志收集系统,支持对日志的实时性收集。初始的 flume 版本是 flume OG(Flume original generation) 由 Cloudera 公司开发,叫做 Cloudera Flume;后来,cloudera 把 flume 贡献给 Apache,版本改为 FLUME NG(Flume next generation)现在称为 Apache Flume。最初始的 BigInsights 使用 flume 0.9.1,随后 BigInsights 将 Flume 升级到 0.9.4。这两个版本都属于 flume OG,基于开源的 Cloudera Flume。 本人认为,在 BigInsights 以后发布的版本中,flume 升级到 flume NG 是必然趋势。
BigInsights 包含了两个和 flume 密切相关的组件:hadoop 和 zookeeper。Flume 和 hadoop 的链接是其可以将收集的日志存于 hdfs,从而可以使用 hadoop 高效的处理日志数据,从日志中提取有用信息;而和 zookeeper 的关系是,flume 内部收集日志的各类节点可以通过 zookeeper(高效可靠的协同工作系统)进行管理,flume 各个节点的配置信息存放在 zookeeper 的 data 文件中。从整体上来讲,flume 和 zookeeper 是 hadoop 周边组件,都是和 hadoop 密切相关的;hadoop 也可以使用 zookeeper 管理内部各类节点。以 hadoop 为核心的大数据处理系统 BigInsights,将 zookeeper 和 flume 整合在系统中,为用户提供了可视化洁面,方便对多个组件的在多个节点上的整合安装;也就是说,使用 BigInsights 的可视化界面,用户可以轻松的在多个节点上部署 hadoop+flume+zookeeper,实现日志系统的布置。
另外,BigInsights 内部的 flume 通过 Flume Runtime Toolkit,为用户提供了无需配置的 flume 安装包,实现对当前 flume 集群的快速扩展。
Flume 基础知识
Flume 对日志数据的收集通过三种节点:master,agent,collector 之间的协作完成(表 1)。其中 agent、collector 都属于日志收集节点。数据的传输需要指定数据源(source)和数据汇集点(sink)(表 2)。Flume 中还有个重要的概念叫数据流(data flow)。数据流就是数据传输的管道,描述了日志数据从产生处到最终目的地的数据传送过程。flume 中通过对日志收集节点的 source,sink 配置,实现数据流的建立。
Flume 配置
Flume 的配置文件为 $FLUME_HOME/conf/flume-conf.xml,如果用户没有配置此文件,flume 将使用默认配置文件 flume-conf.xml.template。属性的描述以一下形式描述(以属性 flume.master.zk.servers 为例):
<property> <name>flume.master.zk.servers</name> <value>hostname:2181</value> <description>Zookeeper server<description> </property>
配置文件针对每个属性给出属性名(name)、属性值(value)与属性描述(description),其中属性描述不是必需的,可以省略。部署 Flume 过程中,与用户密切相关的属性(property)有如下几个(表 4):
除此之外,存放 flume 的 log 的目录可以在 log4j.properties 文件中通过属性 flume.log.dir 指定,如:flume.log.dir=/tmp/flume/logs。Flume 有两个 log 文件:flumemaster.out 和 flumenode.out。顾名思义,flumemaster.out 存放主节点(master)的 log 信息,flumenode.out 存放日志收集节点的信息(agent 和 collector)。当 flume 节点启动后,会有相应的进程文件存放 pid,存放路径可以在 flume-env.sh 中设定,如:export FLUME_PID_DIR=“/tmp/flume/pids”。
查看本栏目更多精彩内容:http://www.bianceng.cnhttp://www.bianceng.cn/Programming/extra/
以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索日志
, zookeeper
, hive zookeeper
, 属性
, 节点
, flume
, cloudera
, flume kafka
, flume到hdfs写入问题
, 大数据 flume ng
, cloudera impala
, linux发布zookeeper
, flume hdfs
zookeeper 无进程
flume实时收集日志、flume windows部署、flume安装部署、flume 部署、flume 分布式部署,以便于您获取更多的相关知识。