日志服务自助排查问题

收集端错误

根据ilogtail.LOG中具体错误来判断

文件位置:/usr/local/ilogtail/ilogtail.LOG,用户需要关心的是ERROR/WARNNING级别日志。

常见错误

  1. 在日志中出现下列错误,表示gbk日志转码utf8错误,请确认日志文件是gbk编码

    convert GBK to UTF8 fail, errno

  2. 日志切行错误,请查看日志行首正则表达式是否正确,另外保证单条日志大小在512KB以内。

    no log lines parse success : please check log_begin_regex

  3. 行首正则表达式与日志内容不匹配。

    regex_match in LogSplit fail, exception

  4. 正则解析日志错误,日志内容与正则解析表达式不匹配,请修改正则。

    parse regex log fail

  5. 丢弃历史数据,logtail在解析新增日志内容完成后,会检查当前的日志时间是否合法,并丢弃在当前系统时间5分钟前产生的日志数据。请减少内存中buffer的日志数据大小并尽快flush让日志落盘。

    scard history data

  6. 数据发送错误

    send data to SLS fail : discard data

  7. 数据发送失败并丢弃数据,请关注该发送错误对应的error_code、error_message。logtail发送数据失败,会立即重试发送该请求,数据不丢失。

    send data to SLS fail, will retry soon
    send data to SLS fail, write to buffer file and retry later

  8. logtail发送数据失败,会将该日志数据写到本地磁盘文件(最多1GB,大小移出后FIFO覆盖最旧文件写),在接下来的24小时内为用户进行重试。

    send data fail, unknown excepiton, retry later

  9. quota超限导致数据无法写入,请提工单,申请调整quota。

    send data fail, errorCode: SLSWriteQuotaExceed

  10. 日志时间计算错误

    Parse Time Fail, exception

  11. 请检查time字段设置的次数是否正确,日期格式timeformat与日志内容是否匹配。

    extract time of first log line fail

  12. 计算日志的首行数据的日志时间出错,请检查time字段设置的次数是否正确,日期格式timeformat与日志内容是否匹配。

    parse apsara log time fail

  13. 飞天日志的时间格式错误,请检查是否使用正确的apsara logger。

    paser time for regex log fail

  14. 使用正则表达式解析的日志时间格式错误,请检查time字段设置的次数是否正确,日期格式timeformat与日志内容是否匹配。

    discard error timeformat log

  15. 注册监控项超出限制,logtail最多使用操作系统的三千个目录,(logtail默认会递归注册监控目录),请缩小监控目录范围。

    failed to register dir, exceed the max allowed watch num

  16. 日志文件轮转过快,日志文件在短时间内多次发生轮转,logtail处理不及,可能会丢失部分已轮转的日志尾部数据。请尝试降低日志轮转频度。

    file rollback again in a short interval, stop read file

  17. 日志截断写错误,当日志截断写的时候,logtail发现文件签名(前1024字节)发生变化,会从头开始解析该日志文件。

    currentOffset little than lastReadOffset, file maybe truncated

  18. 配置错误,用户收集config配置的日志目录不存在,请检查应用日志目录、文件。

    logPath in config not exist

  19. 网络错误,请测试网络是否可以联通,logtail使用域名在/usr/local/ilogtail/ilogtail_config.json

    send data fail, error_code:SLSClientNetworkError errorMessage:Request operation failed. CURL_ERROR_CODE:6

根据监控信息判断发生了什么错误

通过logstore监控查看日志服务是否正常

机器组机器心跳fail问题解决办法

请参考文档中的"为什么我的Logtail心跳状态不正常?"

预览能看到日志,无法查询日志

预览日志功能只提供查看20条日志,如果需要查询具体的日志,请先创建索引

多久能看到写入的数据

使用sdk写入的数据,可以立刻通过SDK批量消费,30s后可以通过关键字查询。

使用logtail写入的数据,3s后可以通过SDK批量消费,30s后可以通过关键字查询。

时间: 2024-10-31 00:52:48

日志服务自助排查问题的相关文章

【最佳实践】如何使用云监控+日志服务快速完成故障发现和故障定位

今天分享一篇开发小哥哥如何使用云监控和日志服务快速发现故障定位问题的经历. 事件起因 小哥哥正在Coding,突然收到云监控报警,说他的API调用RT过高,小哥哥的业务主要为线上服务提供数据查询,RT过高可能会导致大量页面数据空白,这还了得,赶紧查. 排查过程 收到报警后查看指标趋势,发现突然RT突然增高. 查看单台机器维度的指标,发现30.239这台机器RT延时非常大. 具体机器的RT走势图: 查看存储在日志服务的原始数据,查看发生问题时的原始日志,发生某一次请求的rt突然变的很大,之后的rt

日志服务(原SLS)五月份发布:支持SQL进行日志实时分析

日志服务(原SLS)是针对大规模日志实时存储与查询服务,半年内我们逐步提供文本.数值.模糊.上下文等查询能力.在五月份版本中日志服务提供 SQL 实时统计分析功能 ,能够在秒级查询的基础上支持实时统计分析. 支持SQL包括:聚合.Group By(包括Cube.Rollup).Having.排序.字符串.日期.数值操作,以及统计和科学计算等(参见分析语法). 如何使用? 例如,对访问日志(access-log)查询 "状态码=500,Latency>5000 us,请求方法为Post开头&

阿里云日志服务(SLS)安装使用方法简介

使用前准备 开通阿里云账号 申请一台阿里云服务器(Elastic Compute Service,简称 ECS) 开通日志服务 登录阿里云后进入控制台,选择产品与服务-日志服务,根据提示开通日志服务 创建日志配置 日志服务开通后,跳转到控制台,点击创建project 填入project相关属性,注意所属区域要填成你申请的阿里云服务器(ECS)对应所在的区域 project创建成功后,会提示创建logstore(project和logstore属于包含关系,一个project下可创建多个logst

日志服务使用Python SDK快速入门指南

为快速开始使用日志服务Python SDK,请按照如下步骤进行: 创建阿里云账号 为了访问阿里云日志服务,你需要有一个阿里云账号.如果没有,可首先如下创建阿里云账号: 访问阿里云官方网站,点击页面上"注册"按钮. 按照屏幕提示完成注册流程并进行实名认证. 为了更好地使用阿里云服务,建议尽快完成实名认证,否则部分阿里云服务将无法使用.具体实名认证流程请参考这里 获取阿里云访问秘钥 为了使用SDK,你必须申请阿里云的访问秘钥: 登陆阿里云管理控制台. 访问阿里云秘钥管理页面. 选择一对用于

日志服务商业化计费FAQ和账单优化

1 如何收费 请参考收费文档. 2 如何查看账单 打开阿里云控制台,依次找到 "费用中心" -> "消费记录" -> "消费明细" ,产品选择"日志服务",在右侧取消选中"隐藏0元消费明细",点击查询,即可看到账单. 3 如何节省费用 费用和两方面因素相关:第一和用户的数据量相关,数据量是业务决定的,无法优化:第二和配置相关,优化配置,使用和数据量相匹配的配置,选择最优的解决方案,才能使得费用达

5分钟搭建网站实时分析:Grafana+日志服务实战

阿里云日志服务是针对日志类数据一站式服务,用户只需要将精力集中在分析上,过程中数据采集.对接各种存储计算.数据索引和查询等琐碎工作等都可以交给服务.2017年9月日志服务加强日志实时分析功能(LogSearch/Analytics),可以使用查询+SQL92语法对日志进行实时分析. 在结果分析可视化上,除了使用自带Dashboard外,还支持DataV.Grafana.Tableua.QuickBI等对接方式.本文主要通过一个例子,演示如何通过日志服务对Nginx日志进行分析与可视化. 演示:线

通过日志服务调试分布式系统

为了解决分布式系统开发过程中调试和分析性能的问题,在过去阿里云产品的开发调试过程中,我们开发了Tracer工具.Tracer主要用来解决分布式系统执行过程关联问题,它的基本原理如下: 用户在关键程序的入口埋点以日志方式输出时间.Trace ID.上下文等信息.当用户请求经过埋点函数时,输出日志.通过以上步骤,我们就能通过关联同样的Trace ID来记录一个请求生命周期内访问多个进程的情况. 当携带Trace ID的请求每一次执行到这个宏,会留下这样一条日志: [2013-07-13 10:28:

自建ELK vs 日志服务(SLS)全方位对比

简介 提到日志实时分析,很多人都会想到很火的ELK Stack(Elastic/Logstash/Kibana)来搭建.ELK方案开源,在社区中有大量的内容和使用案例. 阿里云日志服务产品在新版中增强查询分析功能(LogSearch/Analytics),支持对日志数据实时索引与查询分析,并且对查询性能和计算数据量做了大量优化.在这里我们做一个全方位的比较,对于用户关心的点,我们依次展开分析: 易用:上手及使用过程中的代价 功能(重点):主要针对查询与分析两块 性能(重点):对于单位大小数据量查

日志服务接入方式之JS篇

本篇主要介绍使用JS SDK收集浏览器端的数据,附件是我们提供的JS库,使用它可以非常方便的收集浏览器端的信息,比如用户操作系统类型.浏览器类型和版本.屏幕分辩率等.除此以外,JS SDK还支持收集用户自定义的数据,比如在事件响应中收集特定的信息. JS SDK提供了一种非常灵活的前端页面代码埋点方式,您可以使用JS SDK将您关心的任何数据写入日志服务,后续可以在日志服务中消费这些数据,比如导入ODPS.OSS,也可以使用Client Library进行自定义消费,下面将介绍下JS SDK的使