IBM BigInsights Flume 轻松部署可扩展的实时日志收集系统

IBM BigInsights Flume 简介

Flume 是开源的海量日志收集系统，支持对日志的实时性收集。初始的 flume 版本是 flume OG（Flume original generation）由 Cloudera 公司开发，叫做 Cloudera Flume；后来，cloudera 把 flume 贡献给 Apache，版本改为 FLUME NG（Flume next generation）现在称为 Apache Flume。最初始的 BigInsights 使用 flume 0.9.1，随后 BigInsights 将 Flume 升级到 0.9.4。这两个版本都属于 flume OG，基于开源的 Cloudera Flume。本人认为，在 BigInsights 以后发布的版本中，flume 升级到 flume NG 是必然趋势。

BigInsights 包含了两个和 flume 密切相关的组件：hadoop 和 zookeeper。Flume 和 hadoop 的链接是其可以将收集的日志存于 hdfs，从而可以使用 hadoop 高效的处理日志数据，从日志中提取有用信息；而和 zookeeper 的关系是，flume 内部收集日志的各类节点可以通过 zookeeper（高效可靠的协同工作系统）进行管理，flume 各个节点的配置信息存放在 zookeeper 的 data 文件中。从整体上来讲，flume 和 zookeeper 是 hadoop 周边组件，都是和 hadoop 密切相关的；hadoop 也可以使用 zookeeper 管理内部各类节点。以 hadoop 为核心的大数据处理系统 BigInsights，将 zookeeper 和 flume 整合在系统中，为用户提供了可视化洁面，方便对多个组件的在多个节点上的整合安装；也就是说，使用 BigInsights 的可视化界面，用户可以轻松的在多个节点上部署 hadoop+flume+zookeeper，实现日志系统的布置。

另外，BigInsights 内部的 flume 通过 Flume Runtime Toolkit，为用户提供了无需配置的 flume 安装包，实现对当前 flume 集群的快速扩展。

Flume 基础知识

Flume 对日志数据的收集通过三种节点：master，agent，collector 之间的协作完成（表 1）。其中 agent、collector 都属于日志收集节点。数据的传输需要指定数据源（source）和数据汇集点（sink）（表 2）。Flume 中还有个重要的概念叫数据流（data flow）。数据流就是数据传输的管道，描述了日志数据从产生处到最终目的地的数据传送过程。flume 中通过对日志收集节点的 source，sink 配置，实现数据流的建立。

Flume 配置

Flume 的配置文件为 $FLUME_HOME/conf/flume-conf.xml，如果用户没有配置此文件，flume 将使用默认配置文件 flume-conf.xml.template。属性的描述以一下形式描述（以属性 flume.master.zk.servers 为例）：

<property>
<name>flume.master.zk.servers</name>
<value>hostname:2181</value>
<description>Zookeeper server<description>
</property>

配置文件针对每个属性给出属性名（name）、属性值（value）与属性描述（description），其中属性描述不是必需的，可以省略。部署 Flume 过程中，与用户密切相关的属性（property）有如下几个（表 4）：

除此之外，存放 flume 的 log 的目录可以在 log4j.properties 文件中通过属性 flume.log.dir 指定，如：flume.log.dir=/tmp/flume/logs。Flume 有两个 log 文件：flumemaster.out 和 flumenode.out。顾名思义，flumemaster.out 存放主节点（master）的 log 信息，flumenode.out 存放日志收集节点的信息（agent 和 collector）。当 flume 节点启动后，会有相应的进程文件存放 pid，存放路径可以在 flume-env.sh 中设定，如：export FLUME_PID_DIR=“/tmp/flume/pids”。

查看本栏目更多精彩内容：http://www.bianceng.cnhttp://www.bianceng.cn/Programming/extra/

以上是小编为您精心准备的的内容，在的博客、问答、公众号、人物、课程等栏目也有的相关内容，欢迎继续使用右上角搜索按钮进行搜索日志
， zookeeper
， hive zookeeper
，属性
，节点
， flume
， cloudera
， flume kafka
， flume到hdfs写入问题
，大数据 flume ng
， cloudera impala
， linux发布zookeeper
， flume hdfs
zookeeper 无进程
flume实时收集日志、flume windows部署、flume安装部署、flume 部署、flume 分布式部署，以便于您获取更多的相关知识。

时间： 2024-10-20 09:49:39

IBM BigInsights Flume 轻松部署可扩展的实时日志收集系统

IBM BigInsights Flume 简介

Flume 基础知识

IBM BigInsights Flume 轻松部署可扩展的实时日志收集系统的相关文章

Flume开源的海量日志收集系统使用指南

基于Flume的美团日志收集系统

分布式日志收集系统Apache Flume的设计介绍

Flume环境部署和配置详解及案例大全_Linux

Flume日志收集分层架构应用实践

使用Docker、CoreOS、Mesos部署可扩展的Web应用

IBM平台集成和部署服务

IBM首席执行官提出人工智能部署三大基本原则

威瑞信在.com顶级域名中部署安全扩展技术