IBM BigInsights Flume 轻松部署可扩展的实时日志收集系统

IBM BigInsights Flume 简介

Flume 是开源的海量日志收集系统,支持对日志的实时性收集。初始的 flume 版本是 flume OG(Flume original generation) 由 Cloudera 公司开发,叫做 Cloudera Flume;后来,cloudera 把 flume 贡献给 Apache,版本改为 FLUME NG(Flume next generation)现在称为 Apache Flume。最初始的 BigInsights 使用 flume 0.9.1,随后 BigInsights 将 Flume 升级到 0.9.4。这两个版本都属于 flume OG,基于开源的 Cloudera Flume。 本人认为,在 BigInsights 以后发布的版本中,flume 升级到 flume NG 是必然趋势。          

BigInsights 包含了两个和 flume 密切相关的组件:hadoop 和 zookeeper。Flume 和 hadoop 的链接是其可以将收集的日志存于 hdfs,从而可以使用 hadoop 高效的处理日志数据,从日志中提取有用信息;而和 zookeeper 的关系是,flume 内部收集日志的各类节点可以通过 zookeeper(高效可靠的协同工作系统)进行管理,flume 各个节点的配置信息存放在 zookeeper 的 data 文件中。从整体上来讲,flume 和 zookeeper 是 hadoop 周边组件,都是和 hadoop 密切相关的;hadoop 也可以使用 zookeeper 管理内部各类节点。以 hadoop 为核心的大数据处理系统 BigInsights,将 zookeeper 和 flume 整合在系统中,为用户提供了可视化洁面,方便对多个组件的在多个节点上的整合安装;也就是说,使用 BigInsights 的可视化界面,用户可以轻松的在多个节点上部署 hadoop+flume+zookeeper,实现日志系统的布置。          

另外,BigInsights 内部的 flume 通过 Flume Runtime Toolkit,为用户提供了无需配置的 flume 安装包,实现对当前 flume 集群的快速扩展。          

Flume 基础知识

Flume 对日志数据的收集通过三种节点:master,agent,collector 之间的协作完成(表 1)。其中 agent、collector 都属于日志收集节点。数据的传输需要指定数据源(source)和数据汇集点(sink)(表 2)。Flume 中还有个重要的概念叫数据流(data flow)。数据流就是数据传输的管道,描述了日志数据从产生处到最终目的地的数据传送过程。flume 中通过对日志收集节点的 source,sink 配置,实现数据流的建立。          

Flume 配置

Flume 的配置文件为 $FLUME_HOME/conf/flume-conf.xml,如果用户没有配置此文件,flume 将使用默认配置文件 flume-conf.xml.template。属性的描述以一下形式描述(以属性 flume.master.zk.servers 为例):

<property>
<name>flume.master.zk.servers</name>
<value>hostname:2181</value>
<description>Zookeeper server<description>
</property>

配置文件针对每个属性给出属性名(name)、属性值(value)与属性描述(description),其中属性描述不是必需的,可以省略。部署 Flume 过程中,与用户密切相关的属性(property)有如下几个(表 4):  

除此之外,存放 flume 的 log 的目录可以在 log4j.properties 文件中通过属性 flume.log.dir 指定,如:flume.log.dir=/tmp/flume/logs。Flume 有两个 log 文件:flumemaster.out 和 flumenode.out。顾名思义,flumemaster.out 存放主节点(master)的 log 信息,flumenode.out 存放日志收集节点的信息(agent 和 collector)。当 flume 节点启动后,会有相应的进程文件存放 pid,存放路径可以在 flume-env.sh 中设定,如:export FLUME_PID_DIR=“/tmp/flume/pids”。

查看本栏目更多精彩内容:http://www.bianceng.cnhttp://www.bianceng.cn/Programming/extra/

以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索日志
, zookeeper
, hive zookeeper
, 属性
, 节点
, flume
, cloudera
, flume kafka
, flume到hdfs写入问题
, 大数据 flume ng
, cloudera impala
, linux发布zookeeper
, flume hdfs
zookeeper 无进程
flume实时收集日志、flume windows部署、flume安装部署、flume 部署、flume 分布式部署,以便于您获取更多的相关知识。

时间: 2024-10-20 09:49:39

IBM BigInsights Flume 轻松部署可扩展的实时日志收集系统的相关文章

Flume开源的海量日志收集系统使用指南

BigInsights 将实时日志收集体统 Flume 整合为产品的一部分,支持对 flume 极其相关组件 hadoop.zookeeper 的组合安装,用可视化界面为用户部署实时日志收集系统:另外 BigInsights flume 通过 flume runtime toolkit 支持快速的添加日志收集节点,无需配置,轻松实现日志收集系统的可扩展性. Flume 是开源的海量日志收集系统,支持对日志的实时性收集.初始的 flume 版本是 flume OG(Flume original g

基于Flume的美团日志收集系统

基于Flume的美团日志收集系统(一)架构和设计 问题导读: 1. Flume-NG与Scribe对比,Flume-NG的优势在什么地方? 2.架构设计考虑需要考虑什么问题? 3.Agent死机该如何解决? 4.Collector死机是否会有影响? 5.Flume-NG可靠性(reliability)方面做了哪些措施? 美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流.美团的日志收集系统基于Flume设计和搭建而成. <基于Flu

分布式日志收集系统Apache Flume的设计介绍

概述 Flume是Cloudera公司的一款高性能.高可能的分布式日志收集系统.现在已经是Apache Top项目.Github地址.同Flume相似的日志收集系统还有Facebook Scribe,Apache Chuwka,Apache Kafka(也是LinkedIn的).Flume是后起之秀,本文尝试简要分析Flume数据流通过程中提供的组件.可靠性保证来介绍Flume的主要设计,不涉及Flume具体的安装使用,也不涉及代码层面的剖析.写博文来记录这个工具主要是觉得与最近开发的一个流式的

Flume环境部署和配置详解及案例大全_Linux

一.什么是Flume? flume 作为 cloudera 开发的实时日志收集系统受到了业界的认可与广泛应用.Flume 初始的发行版本目前被统称为 Flume OGoriginal generation属于 cloudera.但随着 FLume 功能的扩展Flume OG 代码工程臃肿.核心组件设计不合理.核心配置不标准等缺点暴露出来尤其是在 Flume OG 的最后一个发行版本 0.94.0 中日志传输不稳定的现象尤为严重为了解决这些问题2011 年 10 月 22 号cloudera 完成

Flume日志收集分层架构应用实践

Flume作为一个日志收集工具,非常轻量级,基于一个个Flume Agent,能够构建一个很复杂很强大的日志收集系统,它的灵活性和优势,主要体现在如下几点: 模块化设计:在其Flume Agent内部可以定义三种组件:Source.Channel.Sink 组合式设计:可以在Flume Agent中根据业务需要组合Source.Channel.Sink三种组件,构建相对复杂的日志流管道 插件式设计:可以通过配置文件来编排收集日志管道的流程,减少对Flume代码的侵入性 可扩展性:我们可以根据自己

使用Docker、CoreOS、Mesos部署可扩展的Web应用

使用Docker.CoreOS.Mesos部署可扩展的Web应用 [编者的话]本文作者重点介绍了如何使用Docker.CoreOS.Mesos.Vulcand.对象存储来部署一个可扩展的Web应用,他首先介绍了 为什么要选择这些工具以及与其它工具相比这些工具的优势.紧接着,他通过实际案例演示了整个部署过程,图文并茂,推荐阅读. 介绍 让我们先来讨论一下为什么我决定使用这些软件来展示如何创建一个可扩展的Web基础架构. 为什么选择Docker? 那问题来了,为啥要选择Linux容器?因为相比于虚拟

IBM平台集成和部署服务

在整个企业内部署 PC 平台并实现更新 大多数企业都希望竭力保持技术更新,因为这样才可能最大程度地提高员工生产率并促进相互协作.即便是最为耐用.扩展性最强的 PC 环境,其性能最终也会无可幸免地开始成为实现业务目标的绊脚石.随着新操作系统的逐步推出,新的硬件也往往势在必行.然而,要想在避免业务暴露于不当风险的情况下确保在整个企业中实现持续快速的 PC 初装与硬件更新,将会是一项艰难的挑战. 首先,您可能不具备组装.配置并施用新 PC 所需的物理空间或内部员工.最好的条件下,在多个位点(通常包含多

IBM首席执行官提出人工智能部署三大基本原则

IBM首席执行官吉尼·罗梅蒂(Ginni Rometty)日前呼吁,业界需在人工智能和认知应用程序方面增加透明度及分析其伦理和社会影响.在此之前,科技界其他领袖也曾发表过类似的看法.   罗梅蒂正在准备在达沃斯世界经济论坛上的演讲,目的是介绍人工智能技术部署的基本原则. 无独有偶.麻省理工学院.哈佛和LinkedIn的Reid Hoffman,还有其他人,他们联合起来建了一个2700万美元的基金会研究人工智能的影响.奥巴马政府最近发布了一份报告人工智能对就业的影响,卡内基梅隆(科技巨头支持的非营

威瑞信在.com顶级域名中部署安全扩展技术

2011年4月19日,威瑞信公司在.com顶级域名中部署安全扩展技术,实现关键性的DNSSEC里程碑.威瑞信公司在日前宣布,全球域名注册数量超过 9000万.互联网中最大的域名系统.com现在支持DNS安全扩展协议( DNSSEC ).在.com域中部署DNSSEC表明威瑞信在改善互联网通信 完整性及域名系统(DNS)交易安全方面实现了一个关键性的里程碑.这一成绩的取得, 源于威瑞信.互联网名称与数字地址分配机构(ICANN)以及 众多互联网相关机构多年以来密切审慎的协作,这些机构包括了注册商.