IBM Accelerator for Machine Data Analytics(四)

加快多种数据的启动和运行体验

机器数据的特征

在本系列的 第 1 部分:加快机器数据分析 中,您学习了机器数据如何由记录组成。在许多情况下,记录只包含一行,在另一些情况下,许多行一起形成一个记录。包含异常堆栈跟踪、XML 内容或者从写入多行记录的应用程序生成的内容的机器日志就是一个典型的例子。记录边界通常由是否存在主时间戳来识别。在记录中,有时在主时间戳之前会出现一些字符。

请参阅 第 1 部分:加快机器数据分析 中的 开始前的一点准备、已知的日志类型 和 未知的日志类型,了解一些这样的示例。

正确识别和定义这些记录边界对于执行机器数据分析是重要的第一步。无论机器数据包含一行或还是多行记录,遵循以下流程都有助于确定主时间戳,它是其余分析的关键。

由于数据的多样性,描述记录边界或主时间戳的规则可能会略有不同或需要重新定义。利用工具的帮助,可以简化准备多种类型的任务。

在开始之前关于本系列

IBM Accelerator for Machine Data Analytics 的主要优点和长处之一是能够很容易地对该工具进行配置和定制。 本系列的 文章和教程 面向那些希望初步了解加速器,进一步加快机器数据分析,同时还想获取自定义洞察的读者。

关于本教程

本教程是一个分步的示例,将演示如何使用 IBM InfoSphere BigInsights 工具(Web 或 Eclipse)加快 IBM Accelerator for Machine Data Analysis 的启动和运行体验。您将学习如何轻松准备数据,并反复测试数据的提取。这为余下的分析奠定了基础。在这个过程中,将会引入一些用来加快这一过程的辅助工具。

目标

在本教程中:

您将学习如何配置机器数据,以进行分析。您将引入 BigInsights Eclipse 辅助工具,您可以选择性地使用它。

如果您喜欢先在本地配置和测试数据,然后再移动到 BigInsights 集群,您将学习如何使用 Eclipse 工具来执行此任务。

如果您喜欢直接在 BigInsights 集群中进行配置和测试,那么您可以学习如何执行此任务。

由于有多种数据用于分析,针对少量数据使用以下步骤,以准备进行分析。一旦经过测试,就能够以类似的配置在大数据上运行分析。

先决条件

阅读本系列的 第 1 部分:加快机器数据分析,获得 IBM Accelerator for Machine Data Analytics 的概述。可以选择阅读本系列的 第 2 部分: 加快分析新的日志类型,了解如何使用 Eclipse 工具来支持新的日志类型,以及 第 3 部分:加快机器数据搜索,了解如何从整合的可搜索存储库中搜索已知的和定制的日志类型。

系统要求

为了运行本教程中的示例,您需要:

已经安装 InfoSphere BigInsights 2.0

已经安装 IBM Accelerator for Machine Data Analytics

已经安装面向 Eclipse 的 BigInsights 2.0 工具(可选)

用于机器数据分析的数据集。下载数据的链接请参阅 下载 部分。

一家虚构的 Sample Outdoors 公司的情况

Sample Outdoors 公司的数据科学家接受的任务是向大量新组织推广 IBM Accelerator for Machine Data Analytics,而每个组织都有自己的日志格式。他们预计要为分析准备多种日志。他们决定使用 BigInsights 工具,为分析加快数据的准备和测试。在准备好之后,他们会使用这些配置进行常规持续的分析。

加快机器数据分析的启动和运行体验

在本系列前面的教程和文章中,已使用过事先准备好的数据批处理,它们是可供下载的。在本教程中,您将准备一个数据批处理。准备批处理的工作包括识别记录边界和主时间戳,并创建规则来定义它们。 然后,此信息用于为批处理创建元数据。最后,您将测试准备好的批处理。

以下是在本文中要遵循的步骤:

查看流程,识别记录边界。

如果有需要,可使用 BigInsights Eclipse 工具 提供第一条规划。它代表主时间戳之前的字符串。如果您不需要工具来帮助构建一个正则表达式,或者对使用 Eclipse 工具不感兴趣,那么请继续下一步 提供第二条规则。

提供第二条规则。它代表主时间戳。

将规则放在一起,形成这种类型的日志的元数据。

如果您选择先在 Eclipse 上使用本地方式对少量数据进行测试,然后再将数据移动到 BigInsights 集群,那么请 使用 Eclipse 在本地为小数据测试规则。

查看 使用 Eclipse 工具进行迭代测试和故障排除的提示。

如果您选择在 BigInsights 集群上测试小数据,那么请 使用 BigInsights 控制台为小数据测试规则。

查看 使用 BigInsights 控制台进行迭代测试和故障排除的提示。

了解内幕。

在大数据上运行。

在 Sample Outdoors 公司

Sample Outdoors 公司的数据科学家通过 Web 工具组从前端应用程序获得机器数据,作为使用工具的一个练习。接下来,他们要准备数据,以便进行分析。

识别记录边界

记录边界包含两部分:

主时间戳,应该在 Java SimpleDateFormat 中提供。

主时间戳之前的字符串,应该以正则表达式的形式提供。

我们用一个 Apache Web Access 日志的示例来帮助复习这个过程。

查看本栏目更多精彩内容:http://www.bianceng.cnhttp://www.bianceng.cn/Programming/extra/

时间: 2025-01-31 05:48:33

IBM Accelerator for Machine Data Analytics(四)的相关文章

IBM Accelerator for Machine Data Analytics(三)加快机器数据搜索

开始之前 关于本系列 IBM Accelerator for Machine Data Analytics的主要优点和长处之一是能够很容易地对该工具进行配置和定制.此 系列 文章和教程面向那些希望初步了解加速器,进一步加快机器数据分析,同时还想获取自定义洞察的读者. 关于本教程 在本系列的 第 1 部分 中,探讨了一些已知的日志和一些鲜为人知的日志.在本系列的 第 2 部分 中,创建了一种新的日志类型,用于分析新的数据类型.在本教程中,您将看到如何即插即用 地使用新的电子邮件日志类型,就像使用开

IBM Accelerator for Machine Data Analytics(二)加快新日志类型的分析

开始之前 IBM Accelerator for Machine Data Analytics 的主要优点和长处之一是能够轻松地对工具进行配置和定制. 此 系列文章和教程面向那些希望初步了解加速器,进一步加快机器数据分析,同时还想获取自定义洞察的读者. 本教程是使用 IBM Accelerator for Machine Data Analytics 来分析一种全新类型的数据的一个具体示例.它为第 3部分建立了基础,第 3 部分将说明如何在索引和搜索中即插即用 地使用这种新的日志类型. 目标 在

IBM Accelerator for Machine Data Analytics(一)加速机器数据分析

机器数据分析是一项紧迫的商业需要 半数财富 500 强公司每年都会经历超过 80 小时的系统宕机时间.如果均匀分到全年,每天大约有 13 分钟的宕机时间.尽管宕机不可能每天都发生,但有可能在一周后出现 1.5 小时的宕机,或者在一个月后出现 6 小时的宕机. 作为用户,在线银行操作的频繁不可用令人非常烦恼.作为业务所有者,当系统宕机时,所有流程都会停滞.正在执行的工作被中断,且无法满足 SLA,合同债务可能导致昂贵的费用.负面的公众形象,以及失去当前和潜在的未来客户.最终,如果无法提供可靠而又稳

IBM DB2 日常维护汇总(四)_DB2

正在看的db2教程是:IBM DB2 日常维护汇总(四). 46.如何快速清除一个大表? ALTERTABLETABLE_NAMEACTIVENOTLOGGEDINITALLYWITHEMPTYTABLE     ALTER TABLETABLE_NAME ACTIVE NOT LOGGED INITALLY  WITH EMPTYTABLE     两个commit之间的delete 动作是不记日志的      commit      alter table ab activate not l

[文档]Big Data Analytics

Big Data Analytics: The Future of Information Storage Justin Larsen In order to understand the future of the wealth of information being stored, one must define Big Data and the ways that businesses, scientific institutions, and society interacts wit

为 IBM PureApplication System 做好准备(四)

使用高级中间件配置工具将您的应用程序迁移到云 简介 本文是系列文章的第 4 部分,将介绍可迁移到 IBM PureApplication System 的应用程序,以及如何利用高级中间件配置 (AMC) 工具和 IBM Workload Deployer 来迁移应用程序,并将应用程序的新实例部署到云. 注意:IBM Workload Deployer 用户也可利用 IBM PureApplication System 中的工作负载来管理控制台. 虚拟应用程序模式与虚拟系统模式的对比 有关选择虚拟

IBM力推4款AMD四核皓龙处理器服务器产品

新皓龙处理器具有业内领先的每瓦性能和出色的虚拟化能力外,还可以平滑升级至AMD下一代下真正的四核x86平台.在新一代皓龙处理器推出的同时AMD还正式宣布已经完成真正的四核皓龙处理器的设计工作.皓龙处理器基于AMD创新的直连架构的最新产品.直连架构是业内第一个提供基于x86的32位和64位计算技术的架构,它克服了传统前端总线的技术瓶颈,能够为客户的1路.2路.4路和8路系统提供具有一致性和稳定性的计算内核. &http://www.aliyun.com/zixun/aggregation/3795

IBM System x3550搭载至强四核处理器售价10500元

IBM在笔记本领域口碑向来不错,高端的定位也令众多消费者望而生畏,同样的,IBM的服务器依然本着高品质的宗旨出台,价位上也是颇受争议的,近日笔者了解到售价http://www.aliyun.com/zixun/aggregation/33666.html">10500元,需要的朋友可以关注一下. IBM System x3550(7978B1C)搭载英特尔至强四核E5405处理器,主频为2.0GHz,拥有12MB二级缓存,支持1333MHz前端总线,最多可扩展至2路处理器.标配2GB EC

数据库组件 Hxj.Data (四)(添加操作篇)

上一节讲述如何使用查询.这节将讲添加数据操作即Insert<T>方法的使用. 先上例子(使用asp.net) 这个是页面html代码: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1- transitional.dtd"> <html xmlns="http://www.