日志数据的关键字统计与报警实践指南

目的

统计业务日志中关键字的数量,并在统计数量达到一定条件时报警是业务日志的常见需求之一。本教程的目的是通过一个具体案例介绍如何对存储在日志服务产品中的数据进行关键字统计和报警。参照本教程的介绍,您可以快速走通日志的关键字统计、查询图表可视化和设置报警流程。

实战案例

使用前提

  1. 首先需要您将本地日志收集到日志服务(Log Service)中,如果您未使用过阿里云日志服务产品,可查看日志服务快速入门了解产品。
  2. 需要确保主账号的AccessKey是激活状态。AccessKey保持激活状态后您才能授权云监控读取您的日志数据。
    • 激活方法:登录阿里云控制台,将鼠标移至页面右上角您的用户名上方,在显示的菜单中单击 "AccessKeys" 。在弹出的确认对话框中单击“继续使用AccessKey”以进入 AccessKey管理页面 。创建密钥对(Access Key),确认状态已设置为“启用”。

    统计日志关键字

    在使用日志监控前,需要您确保收集到日志服务中的日志已经被切分为Key-Valve格式。参考常见日志格式的处理方法。

日志样例

2017-06-21 14:38:05 [INFO] [impl.FavServiceImpl] execute_fail and run time is 100msuserid=
2017-06-21 14:38:05 [WARN] [impl.ShopServiceImpl] execute_fail, wait moment 200ms
2017-06-21 14:38:05 [INFO] [impl.ShopServiceImpl] execute_fail and run time is 100ms,reason:user_id invalid
2017-06-21 14:38:05 [INFO] [impl.FavServiceImpl] execute_success, wait moment ,reason:user_id invalid
2017-06-21 14:38:05 [WARN] [impl.UserServiceImpl] execute_fail and run time is 100msuserid=
2017-06-21 14:38:06 [WARN] [impl.FavServiceImpl] execute_fail, wait moment userid=
2017-06-21 14:38:06 [ERROR] [impl.UserServiceImpl] userid=, action=, test=, wait moment ,reason:user_id invalid

切分成如下字段

Key Value
content 2017-06-21 14:38:05 [INFO] [impl.FavServiceImpl] execute_fail and run time is 100msuserid=
content 2017-06-21 14:38:05 [WARN] [impl.ShopServiceImpl] execute_fail, wait moment 200ms
content 2017-06-21 14:38:06 [ERROR] [impl.ShopServiceImpl] execute_success:send msg,200ms
content ... ...

1. 授权云监控只读权限。

  • 进入云监控首页,选择日志监控功能。

    • 按照页面提示,点击“这里”进行授权。初次使用日志监控功能时需要授权,后续不再需要授权。授权后云监控会获得读取您日志数据的权限,并且仅用于按照您配置的处理规则进行日志数据处理的用途。

2. 配置统计方式

  • 授权后可进入如下日志监控列表页面。
  • 点击“新建日志监控”,进入创建页面。
    • 关联资源,选择您需要进行关键字统计的日志服务资源。
    • 预览数据:如果您选择的日志服务中已经写入数据,可以在第二步分析日志的预览框中查看到原始的日志数据。
    • 分析日志,本步骤用于定义如何处理日志数据。不支持日志的字段名称为中文。这里以统计ERROR关键字数量为例,统计日志每分钟出现的ERROR关键字数量。通过“日志筛选”过滤出content中包含“ERROR”关键字的日志记录,并通过“统计方法”中的计数(Count)方法计算筛选后的记录数。
    • 点击“确定”按钮后保存配置。

3. 查看统计数据

创建完日志监控以后,等待3-5分钟即可查看统计数据。查看方法是进入日志监控的指标列表页面,点击“操作”中的“监控图表”查看监控图。

4. 设置报警规则

  • 设置方法是进入日志监控的指标列表页面,点击“操作”中的“报警规则”进入报警规则列表页面。
  • 然后点击页面右上角的“新建报警规则”按钮,进入创建报警规则页面。
  • 为报警规则命名,并在规则描述中配置需要报警的情况。
  • 选择需要报警的联系人组和通知方式并确认保存,便完成了报警规则的设置。
时间: 2025-01-20 20:10:23

日志数据的关键字统计与报警实践指南的相关文章

帮助企业做好MaxCompute大数据平台成本优化的最佳实践

阿里云大数据计算服务MaxCompute通过灵活性.简单性和创新为您企业的业务环境带来了变革,但是您企业是否通过其实现了原本预期的节省成本的目标呢?本文中,我们将为广大读者诸君介绍优化您企业MaxCompute开销的一些关键性的策略. 自从MaxCompute于2010年进入市场以来,计算服务MaxCompute就已然永远地改变了整个IT世界了.尽管其价格优势已经领先业界了,但仍然有许多企业客户了解到,迁移到公共云服务并不总是能够帮助他们实现预期的成本节约的目标. 这并不意味着迁移到公共云服务是

行为、审计日志 (实时索引/实时搜索)建模 - 最佳实践 2

标签 PostgreSQL , ES , 搜索引擎 , 全文检索 , 日志分析 , 倒排索引 , 优化 , 分区 , 分片 , 审计日志 , 行为日志 , schemaless 背景 在很多系统中会记录用户的行为日志,行为日志包括浏览行为.社交行为.操作行为等. 典型的应用例如:数据库的SQL审计.企业内部的堡垒机(行为审计)等. 前面写了一篇最佳实践,通过PostgreSQL来存储审计日志,同时对审计日志需要检索的字段建立全文索引. SSD机器可以达到7万/s的写入(换算成全文索引条目,约28

《日志管理与分析权威指南》一1.2.2 日志数据是如何传输和收集的

1.2.2 日志数据是如何传输和收集的 日志数据的传输和收集在概念上非常简单.计算机或者其他设备都实现了日志记录子系统,能够在确定有必要的时候生成日志消息,具体的确定方式取决于设备.例如,你可以选择对设备进行配置,设备也可能本身进行了硬编码,生成一系列预设消息.另一方面,你必须有一个用来接收和收集日志消息的地方.这个地方一般被称为日志主机(loghost).日志主机是一个计算机系统,一般来说可能是Unix系统或者Windows服务器系统,它是集中收集日志消息的地方.使用集中日志收集器的优点如下:

云如何帮助企业处理安全日志数据

所有信息安全控制的共同点是都有以日志事件和报警的格式所生成的数据输出.随着企业规模的增加或者安全级别的增加,安全日志数据及其存储需求也在快速增长. 最近很多服务迁移到云服务提供商的过程给企业带来了一些挑战,如何处理这样大规模的数据--这些数据现在位于同一个云平台的外部.幸运的是,很多这样的CSP在该领域非常活跃,并且一些令人激动的新机遇也随之出现. 分析云上的安全日志数据 有1000多名员工以及平均网络规模的企业能够在一天内轻松生成100GB的日志.如果该企业的大多数环境都托管在云平台上,那么在

基于Apache Flume Datahub插件将日志数据同步上云

本文用到的 阿里云数加-大数据计算服务MaxCompute产品地址:https://www.aliyun.com/product/odps 简介 Apache Flume是一个分布式的.可靠的.可用的系统,可用于从不同的数据源中高效地收集.聚合和移动海量日志数据到集中式数据存储系统,支持多种Source和Sink插件.本文将介绍如何使用Apache Flume的Datahub Sink插件将日志数据实时上传到Datahub. 环境要求 JDK (1.7及以上,推荐1.7) Flume-NG 1.

flume学习(六):使用hive来分析flume收集的日志数据

前面已经讲过如何将log4j的日志输出到指定的hdfs目录,我们前面的指定目录为/flume/events. 如果想用hive来分析采集来的日志,我们可以将/flume/events下面的日志数据都load到hive中的表当中去. 如果了解hive的load data原理的话,还有一种更简便的方式,可以省去load data这一步,就是直接将sink1.hdfs.path指定为hive表的目录. 下面我将详细描述具体的操作步骤. 我们还是从需求驱动来讲解,前面我们采集的数据,都是接口的访问日志数

《深入理解大数据:大数据处理与编程实践》一一1.3 MapReduce并行计算技术简介

1.3 MapReduce并行计算技术简介 1.3.1 MapReduce的基本概念和由来 1.?什么是MapReduce MapReduce是面向大数据并行处理的计算模型.框架和平台,它隐含了以下三层含义: 1)MapReduce是一个基于集群的高性能并行计算平台(Cluster Infrastructure).它允许用市场上普通的商用服务器构成一个包含数十.数百至数千个节点的分布和并行计算集群. 2)MapReduce是一个并行计算与运行软件框架(Software Framework).它提

【ATF】林伟:大数据计算平台的研究与实践

  2016 ATF阿里技术论坛于4月15日在清华大学举办,主旨是阐述阿里对世界创新做出的贡献.阿里巴巴集团技术委员会主席王坚,阿里巴巴集团首席技术官(CTO)张建锋(花名:行癫),阿里巴巴集团首席风险官(CRO)刘振飞(花名:振飞),蚂蚁金服首席技术官(CTO)程立(花名:鲁肃)以及来自阿里巴巴集团各部门多位技术大咖齐聚一堂,与莘莘学子分享阿里的技术梦想.   在下午的云计算与大数据论坛上,阿里云资深专家林伟(花名:伟林)带来了以<大数据计算平台的研究与实践>为主题的深度分享.林伟目前负责阿

【独家】马宁宇清华演讲:运用大数据提升政府治理的贵州实践

[前记]本文整理自在清华大学<大数据治理与政策>课上特邀演讲者马宁宇(清华大学自动化系校友.现任贵州省政府副秘书长.省大数据发展管理局局长)题为<运用大数据提升政府治理的贵州实践>的报告的听课笔记. 2015年2月,首个国家大数据产业发展集聚区"落户"贵州.2015年5月,全球首次以大数据为主题的峰会和展会--贵阳国际大数据产业博览会暨全球大数据时代贵阳峰会举行.2015年7月,科技部同意支持贵州省开展"贵阳大数据产业技术创新试验区"建设试点