加快多种数据的启动和运行体验
机器数据的特征
在本系列的 第 1 部分:加快机器数据分析 中,您学习了机器数据如何由记录组成。在许多情况下,记录只包含一行,在另一些情况下,许多行一起形成一个记录。包含异常堆栈跟踪、XML 内容或者从写入多行记录的应用程序生成的内容的机器日志就是一个典型的例子。记录边界通常由是否存在主时间戳来识别。在记录中,有时在主时间戳之前会出现一些字符。
请参阅 第 1 部分:加快机器数据分析 中的 开始前的一点准备、已知的日志类型 和 未知的日志类型,了解一些这样的示例。
正确识别和定义这些记录边界对于执行机器数据分析是重要的第一步。无论机器数据包含一行或还是多行记录,遵循以下流程都有助于确定主时间戳,它是其余分析的关键。
由于数据的多样性,描述记录边界或主时间戳的规则可能会略有不同或需要重新定义。利用工具的帮助,可以简化准备多种类型的任务。
在开始之前关于本系列
IBM Accelerator for Machine Data Analytics 的主要优点和长处之一是能够很容易地对该工具进行配置和定制。 本系列的 文章和教程 面向那些希望初步了解加速器,进一步加快机器数据分析,同时还想获取自定义洞察的读者。
关于本教程
本教程是一个分步的示例,将演示如何使用 IBM InfoSphere BigInsights 工具(Web 或 Eclipse)加快 IBM Accelerator for Machine Data Analysis 的启动和运行体验。您将学习如何轻松准备数据,并反复测试数据的提取。这为余下的分析奠定了基础。在这个过程中,将会引入一些用来加快这一过程的辅助工具。
目标
在本教程中:
您将学习如何配置机器数据,以进行分析。您将引入 BigInsights Eclipse 辅助工具,您可以选择性地使用它。
如果您喜欢先在本地配置和测试数据,然后再移动到 BigInsights 集群,您将学习如何使用 Eclipse 工具来执行此任务。
如果您喜欢直接在 BigInsights 集群中进行配置和测试,那么您可以学习如何执行此任务。
由于有多种数据用于分析,针对少量数据使用以下步骤,以准备进行分析。一旦经过测试,就能够以类似的配置在大数据上运行分析。
先决条件
阅读本系列的 第 1 部分:加快机器数据分析,获得 IBM Accelerator for Machine Data Analytics 的概述。可以选择阅读本系列的 第 2 部分: 加快分析新的日志类型,了解如何使用 Eclipse 工具来支持新的日志类型,以及 第 3 部分:加快机器数据搜索,了解如何从整合的可搜索存储库中搜索已知的和定制的日志类型。
系统要求
为了运行本教程中的示例,您需要:
已经安装 InfoSphere BigInsights 2.0
已经安装 IBM Accelerator for Machine Data Analytics
已经安装面向 Eclipse 的 BigInsights 2.0 工具(可选)
用于机器数据分析的数据集。下载数据的链接请参阅 下载 部分。
一家虚构的 Sample Outdoors 公司的情况
Sample Outdoors 公司的数据科学家接受的任务是向大量新组织推广 IBM Accelerator for Machine Data Analytics,而每个组织都有自己的日志格式。他们预计要为分析准备多种日志。他们决定使用 BigInsights 工具,为分析加快数据的准备和测试。在准备好之后,他们会使用这些配置进行常规持续的分析。
加快机器数据分析的启动和运行体验
在本系列前面的教程和文章中,已使用过事先准备好的数据批处理,它们是可供下载的。在本教程中,您将准备一个数据批处理。准备批处理的工作包括识别记录边界和主时间戳,并创建规则来定义它们。 然后,此信息用于为批处理创建元数据。最后,您将测试准备好的批处理。
以下是在本文中要遵循的步骤:
查看流程,识别记录边界。
如果有需要,可使用 BigInsights Eclipse 工具 提供第一条规划。它代表主时间戳之前的字符串。如果您不需要工具来帮助构建一个正则表达式,或者对使用 Eclipse 工具不感兴趣,那么请继续下一步 提供第二条规则。
提供第二条规则。它代表主时间戳。
将规则放在一起,形成这种类型的日志的元数据。
如果您选择先在 Eclipse 上使用本地方式对少量数据进行测试,然后再将数据移动到 BigInsights 集群,那么请 使用 Eclipse 在本地为小数据测试规则。
查看 使用 Eclipse 工具进行迭代测试和故障排除的提示。
如果您选择在 BigInsights 集群上测试小数据,那么请 使用 BigInsights 控制台为小数据测试规则。
查看 使用 BigInsights 控制台进行迭代测试和故障排除的提示。
了解内幕。
在大数据上运行。
在 Sample Outdoors 公司
Sample Outdoors 公司的数据科学家通过 Web 工具组从前端应用程序获得机器数据,作为使用工具的一个练习。接下来,他们要准备数据,以便进行分析。
识别记录边界
记录边界包含两部分:
主时间戳,应该在 Java SimpleDateFormat 中提供。
主时间戳之前的字符串,应该以正则表达式的形式提供。
我们用一个 Apache Web Access 日志的示例来帮助复习这个过程。
查看本栏目更多精彩内容:http://www.bianceng.cnhttp://www.bianceng.cn/Programming/extra/