C#如何在海量数据下的高效读取写入MySQL_Mysql

前提

由于工作的原因,经常需要对海量数据进行处理,做的数据爬虫相关,动辄千万级别的数据,单表几十个G都是都是家常便饭。  主要开发语言是C#,数据库使用的是MySQL。

最常见的操作便是 select 读取数据,然后在C#中对数据进行处理, 完毕后再插入数据库中。  简而言之就 select -> process -> insert三个步骤。 对于数据量小的情况下(百万级别 or 几百兆)可能最多1个小时就处理完了。但是对于千万级数据可能几天,甚至更多。 那么问题来了,如何优化??

 (数据库的一览,有图有真相)

第一步 解决读取的问题

跟数据库打交道的方式有很多,我来列举下吧:

1. 【重武器-坦克大炮】使用重型ORM框架,比如EF,NHibernat 这样的框架。
2. 【轻武器-AK47】 使用Dapper,PetaPoco之类,单cs文件。灵活高效,使用简单。居家越货必备(我更喜欢PetaPoco :))
3. 【冷兵器?匕首?】使用原生的Connection、Command。 然后写原生的SQL语句。。

分析:

【重武器】在我们这里肯定直接被PASS, 他们应该被用在大型项目中。 

【轻武器】Dapper,PetaPoco 看过源码你会发现用到了反射,虽然使用IL和缓存技术,但是还是会影响读取效率,PASS
好吧那就只有使用匕首,原生SQL走起, 利用DataReader 进行高效读取,并且使用索引取数据(更快),而不是列名。
大概的代码如下:

using (var conn = new MySqlConnection('Connection String...'))
{
  conn.Open();
  //此处设置读取的超时,不然在海量数据时很容易超时
  var c = new MySqlCommand('set net_write_timeout=9999999; set net_read_timeout=9999999', conn);
  c.ExecuteNonQuery();

  MySqlCommand rcmd = new MySqlCommand();
  rcmd.Connection = conn;
  rcmd.CommandText = @'SELECT `f1`,`f2` FROM `table1`';
  //设置命令的执行超时
  rcmd.CommandTimeout = 99999999;
  var myData = rcmd.ExecuteReader();

  while (myData.Read())
  {
    var f1= myData.GetInt32(0);
    var f2= myData.GetString(1);
    //这里做数据处理....
  }
}

哈哈,怎么样,代码非常原始,还是使用索引来取数据,很容易出错。  当然一切为了性能咱都忍了

第二步 数据处理

其实这一步,根据你的业务需要,代码肯定不一, 不过无非是一些字符串处理,类型转换的操作,这时候就是考验你的C#基础功底的时候了。 以及如何高效编写正则表达式。。。

具体代码也没法写啊 ,先看完CLR via C# 在来跟我讨论吧 ,O(∩_∩)O哈哈哈~ 跳过。。。。

第三部 数据插入

如何批量插入才最高效呢?  有同学会说, 使用事务啊,BeginTransaction, 然后EndTransaction。 恩,这个的确可以提高插入效率。 但是还有更加高效的方法,那就是合并insert语句。

那么怎么合并呢?

insert into table (f1,f2) values(1,'sss'),values(2,'bbbb'),values(3,'cccc');

就是把values后面的全部用逗号,链接起来,然后一次性执行 。

当然不能一次性提交个100MB的SQL执行,MySQL服务器对每次执行命令的长度是有限制的。 通过 MySQL服务器端的max_allowed_packet  属性可以查看, 默认是1MB

咱们来看看伪代码吧

 //使用StringBuilder高效拼接字符串
 var sqlBuilder = new StringBuilder();
 //添加insert 语句的头
 string sqlHeader = 'insert into table1 (`f1`,`f2`) values';
 sqlBuilder.Append(sqlHeader);
 using (var conn = new MySqlConnection('Connection String...'))
 {
   conn.Open();
   //此处设置读取的超时,不然在海量数据时很容易超时
   var c = new MySqlCommand('set net_write_timeout=9999999; set net_read_timeout=9999999', conn);
   c.ExecuteNonQuery();

   MySqlCommand rcmd = new MySqlCommand();
   rcmd.Connection = conn;
   rcmd.CommandText = @'SELECT `f1`,`f2` FROM `table1`';
   //设置命令的执行超时
   rcmd.CommandTimeout = 99999999;
   var myData = rcmd.ExecuteReader();
   while (myData.Read())
   {
     var f1 = myData.GetInt32(0);
     var f2 = myData.GetString(1);
     //这里做数据处理....
     sqlBuilder.AppendFormat('({0},'{1}'),', f1,AddSlash(f2));
     if (sqlBuilder.Length >= 1024 * 1024)//当然这里的1MB length的字符串并不等于 1MB的Packet。。。我知道:)
     {
       insertCmd.Execute(sqlBuilder.Remove(sqlBuilder.Length-1,1).ToString())//移除逗号,然后执行
       sqlBuilder.Clear();//清空
       sqlBuilder.Append(sqlHeader);//在加上insert 头
     }
   }
}

好了,到这里 大概的优化后的高效查询、插入就完成了。 

结语

总结下来,无非2个关键技术点,DataReader、SQL合并,都是一些老的技术啦。

其实,上面的代码只能称得上 高效 , 但是, 却非常的不优雅。。。甚至难看。。。

那那么问题来了?  如何进行重构呢? 通过重构抽象出一个可用的类,而不必关心字符串拼接这些乱七八糟的东西,支持多线程合并写入,最大限度提高写入IO,  我们在下一篇文章中再来谈谈。

以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索mysql
, 海量数据
, mysql海量数据存储
海量数据处理
c站、c语言、cf、ch、c罗,以便于您获取更多的相关知识。

时间: 2024-10-24 07:41:22

C#如何在海量数据下的高效读取写入MySQL_Mysql的相关文章

C#在MySQL大量数据下的高效读取、写入详解_C#教程

前言 C#操作MySQL大量数据最常见的操作便是 select 读取数据,然后在C#中对数据进行处理, 完毕后再插入数据库中.  简而言之就 select -> process -> insert 三个步骤. 对于数据量小的情况下(百万级别 or 几百兆)可能 最多1个小时就处理完了.但是对于千万级数据可能几天,甚至更多. 那么问题来了,如何优化?? 第一步 解决读取的问题 跟数据库打交道的方式有很多,我来列举下吧: 1. [重武器-坦克大炮]使用重型ORM框架,比如 EF,NHibernat

[翻译] YLGIFImage 高效读取GIF图片

YLGIFImage 高效读取GIF图片 https://github.com/liyong03/YLGIFImage Asynchronized GIF image class and Image viewer supporting play/stop GIF images. 异步加载GIF图片的类,支持GIF图片的播放与暂停. It just use very less memory. Following GIF usually will cost almost 600MB memory i

海量数据下的IoT监控场景

海量数据下的IoT监控场景 阿里云业务实时监控服务(ARMS)针对物联网海量数据的快速数据收集,计算,展示,和报警,显著提高物联网的平台计算能力和监控能力. 能够解决: 1. 移动终端 手机App PV, UV统计,用户地域分布统计,新老用户统计等. 2. 车联网 车联网的汽车在线率,故障统计等. 3. 工业物联网 生产设备生产状态,总体功率,异常设备数量统计等. 推荐搭配使用: 消息队列 MQ 消息服务 MNS 分布式关系型数据库服务 DRDS

c++-vc2013下.bmp图片读取处理与保存

问题描述 vc2013下.bmp图片读取处理与保存 写一个C++后台程序,可以自动地对指定文件夹中的bmp图片进行处理,处理后的图片保存到另一个文件夹中,如果文件夹中无需要处理的图片,则程序处于休眠状态 如何遍历指定文件夹中的所有图片文件? 解决方案 void ProcPicDir(CString strPicDir) { CFileFind fileFinder; if (strPicDir.Right(1) == TEXT("")) { int nPos = strPicDir.R

c++-C++下如何从读取文件内的数据并且排序然后输出到另外一个文件

问题描述 C++下如何从读取文件内的数据并且排序然后输出到另外一个文件 如题 大一新手 自学太累了 希望有引路人 拜托各位了 谢谢! 解决方案 即便你学会了,写起来也要好多行,建议你用C#吧.实现整个需求只要1行代码就行了: File.WriteAllLines("输出文件.txt", File.ReadAllLines("文件名.txt").OrderBy(x => 排序条件)); 解决方案二: 自学太累?是你没有用心吧.偶也是自学走过来的,非计算机及相关专

fgets-ubuntu下用fget读取每行文本后怎么检测中文标点?

问题描述 ubuntu下用fget读取每行文本后怎么检测中文标点? ubuntu下,用fgets()读取每行后,想判断其中是否含有标点符号(句号逗号),求指点,谢谢!(C语言) 解决方案 遍历字符数组,然后一个个跟句号字符比较==判断 解决方案二: 自己顶,up.....

权限-关于/data/data/<package name>/shared_prefs目录下文件的读取

问题描述 关于/data/data/<package name>/shared_prefs目录下文件的读取 想要读取一个第三方应用shared_prefs目录下的xml文件内容,转换格式后显示出来,但因为权限问题,不知道该如何实现,手动更改该文件权限rw-rw----为rw-rw-r---后虽然可以实现功能但会导致第三方应用无法正常运行

php-在linux下 需要PHP读取 access数据库。请问怎么解决?

问题描述 在linux下 需要PHP读取 access数据库.请问怎么解决? 目前的需求就是这样.要读取.mdb文件.如何解决?win下当然可以.现在就是想在linux下实现. 查了一下,都说不可能.但是我不死心. 解决方案 linux下还是用sqlite3等数据库吧,可以跨平台支持windows,linux

tomcat下java程序读取文件名乱码

问题描述 tomcat下java程序读取文件名乱码 我的系统运行环境是FreeNAS9.2(可以参考FreeBSD).TOMCAT6.JAVA7,我在系统的一个目录下放了很多文件,文件名都是中文的,但是在tomcat下部署了一个web项目,web项目读取这些文件并把这些文件的文件名输出到一个文件,但是出现下图的乱码.但是我在系统里放几个本地文件,跑java本地程序(java test),这样输出到文件就不出现乱码,不知道有没有大神知道这个问题,求指导