Logstash为什么那么慢?—— json序列化

今天跟峡谷金桥聊天,询问起Logstash的性能,金桥提示说Logstash中json的序列化是浪费性能的一方面。于是便有了下面的测试:

第一步,造数据

首先需要造一份数据,数据可以通过logstash的generator来造。

input{
    generator{}
}
output{
    file{
        path => "E:/test.log"
    }
}

生成的数据格式如下:

{"message":"Hello world!","@version":"1","@timestamp":"2016-07-12T13:46:48.821Z","host":"DESKTOP-1GPAD95","sequence":0}
{"message":"Hello world!","@version":"1","@timestamp":"2016-07-12T13:46:48.824Z","host":"DESKTOP-1GPAD95","sequence":1}
{"message":"Hello world!","@version":"1","@timestamp":"2016-07-12T13:46:48.824Z","host":"DESKTOP-1GPAD95","sequence":2}
{"message":"Hello world!","@version":"1","@timestamp":"2016-07-12T13:46:48.825Z","host":"DESKTOP-1GPAD95","sequence":3}
...

第二步,编写测试脚本

测试的思路是,从test.log文件中读取数据。然后计算一定范围内写入的日志数量(靠人工计算啦!)

codec => json 的测试的脚本如下:

input{
    file{
        path => "E:/test.log"
        codec => json
        start_position => "beginning"
    }
}
filter{
    ruby {
        code => "event['tag'] = Time.now"
    }
}
output{
    file{
        path => "E:/json_result3.log"
    }
}

codec => plain 的测试的脚本如下:

input{
    file{
        path => "E:/test.log"
        codec => plain
        start_position => "beginning"
    }
}
filter{
    ruby {
        code => "event['tag'] = Time.now"
    }
}
output{
    file{
        path => "E:/json_result3.log"
    }
}

第三步,计算每10S中产生的日志数量

这里在每条事件中写入了1个时间戳字段,然后打开文件,定位随机定位一个开始的秒数,比如从2016-07-12 22:12:442016-07-12 22:12:54这十秒钟,产生的日志数量就是解析的数量。

为了避免机器差异以及运行环境的差异,所带来的误差,这里每个codec执行了3次,计算得出的数据大致如下:

日志名称 起始时间(行数) 结束时间(行数) 总行数(结束-起始)
json_result1.log 2016-07-12 22:12:44(63) 2016-07-12 22:12:54(34728) 34665
json_result2.log 2016-07-12 22:26:18(517) 2016-07-12 22:26:28(27599) 27082
json_result3.log 2016-07-12 22:27:48(147) 2016-07-12 22:27:58(30352) 30205
plain_result1.log 2016-07-12 22:13:41(300) 2016-07-12 22:13:51(50437) 50137
plain_result2.log 2016-07-12 22:22:32(187) 2016-07-12 22:22:42(53525) 53338
plain_result3.log 2016-07-12 22:24:43(360) 2016-07-12 22:24:53(43580) 43220

测试结果也可以参考下面的图片,更为直观一点:

最后说明

从测试的结果来看,的确plan要比json性能高一些,也就是说logstash在做json序列化的时候浪费了很多的性能。

这就给想要自己写数据采集框架的朋友一点提示——Event对象该如何设计?

PS:由于我选取的数据样本范围都是第一个完整的10秒钟,因此可以看到采集的数据量比较少,平均每秒还不到1w.

这可能受多方条件影响:

  • 1 我是读文件--写文件,对于磁盘IO可能有一定的影响
  • 2 我选取的都是开始的10秒钟数据,可能刚开始数据采集还没有稳定~ 如果有时间的朋友,可以采集个1分钟左右,从最后的10s测试。

本文转自博客园xingoo的博客,原文链接:Logstash为什么那么慢?—— json序列化,如需转载请自行联系原博主。

时间: 2024-09-09 15:25:56

Logstash为什么那么慢?—— json序列化的相关文章

JSON序列化与反序列化

以下是对JSON序列化与反序列化进行了详细的分析介绍,需要的朋友可以过来参考下   方法一:引入System.Web.Script.Serialization命名空间使用 JavaScriptSerializer类实现简单的序列化序列化类:Personnel 复制代码 代码如下:     public class Personnel         {             public int Id { get; set; }             public string Name {

asp.net JSON序列化与反序列化使用

  对JSON数据进行序列化和反序列化 可以使用DataContractJsonSerializer类将类型实例序列化为JSON字符串,并将JSON字符串反序列化为类型实例. DataContractJsonSerializer在System.Runtime.Serialization.Json命名空间下,.NET Framework 3.5包含在System.ServiceModel.Web.dll中,需要添加对其的引用;.NET Framework 4在System.Runtime.Seri

C#实现的json序列化和反序列化代码实例

  这篇文章主要介绍了C#实现的json序列化和反序列化代码实例,本文讲解了两种实现方法,并直接给出代码示例,需要的朋友可以参考下 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64

Json序列化和反序列化方法解析

 本篇文章主要是对Json序列化和反序列化方法进行了介绍,需要的朋友可以过来参考下,希望对大家有所帮助  代码如下:  /// <summary>         /// Json序列化,用于发送到客户端         /// </summary>         public static string ToJsJson(this object item)         {               DataContractJsonSerializer serializer

C#JSON序列化与反序列化

原文:C#JSON序列化与反序列化 windows phone学习也有一段时间了,想要做一个新闻客户端练练手,于是就在网上找看有没有接口之类.在天狗播客找到了热点热词新闻资讯API开放接口,接口提供的是JSON格式的数据,由于之前没用过JSON,于是就在网上各种查.技术讨论群上各种问...... 废话不多说了,下面把我收获分享出来.望像我一样的小白少走弯路. 一个实体类 public class NewsModel { public string Title { get; set; } publ

C# Json 序列化与反序列化一

public class JsonSerializer { /// <summary> /// json序列化 /// </summary> /// <typeparam name="T"></typeparam> /// <param name="t"></param> /// <returns></returns> public static string JsonS

使用jsoncpp封装的Json序列化和反序列化的工具类

C++序列化和反序列化json需要写的代码实在是太多了,太过于臃肿了.相比较其他的语言,如:js,php等.如果在其他语言里面用过json,再在c++里面来使用,那种感觉会是非常无奈的,而且抗拒的.怎么说呢,勉强的还是能用的吧.凑合用吧. JsonSerializer.h /********************************************************************** * Copyright (C) 2015 - tx7do - All Rights

Json序列化之.NET开源类库Newtonsoft.Json的研究

原文:Json序列化之.NET开源类库Newtonsoft.Json的研究 一.Json简介                                                                                                                    JSON(全称为JavaScript Object Notation) 是一种轻量级的数据交换格式.它是基于JavaScript语法标准的一个子集. JSON采用完全独立于语言

新的 JSON 序列化的思路

通常来说,序列化json,实际上有2总方式 通过当前流行的JSON工具. 编写代码,手工序列化 这俩种方式各有优劣.第一种方式毫无疑问,不需要开发者做什么工作,直接调用序列化接口,输出就是json.但是,如果需要特殊需求,比如需要将日期格式化按照yyyy-mm-dd 输出,这些JSON工具可以指定日期格式化输出,比如FastJSON里: SerializeConfig mapping = new SerializeConfig(); String dateFormat = "yyyy-MM-dd