MySQL中的批量初始化数据的对比测试(r12笔记第71天)

  一直以来对于MySQL的存储过程性能还是颇有微词的,说实话够慢的。有时候想做一些对比测试,存储过程初始化几万条数据都得好一会儿,这功夫Oracle类似的测试早都做完了,今天就赶个晚班车,把这个没做完的任务完成了。

    我大体测试了一下,以100万数据为基准,初始化性能的提升会从近8分钟提升到10多秒钟。

     我自己尝试了以下4种方案。

     1.存储过程批量导入(近8分钟)

     2.存储过程批量导入内存表,内存表导入目标表(近5分钟)

     3.使用shell脚本生成数据,使用load data的方式导入数据(近20秒)

     4.使用shell脚本生成数据,使用load data的方式导入内存表,内存表数据导入目标表(近18秒)

方案1:存储过程导入

我们测试使用的表为users,InnoDB存储引擎,计划初始化数据为100万。

create table users(
userid int(11) unsigned not null,
user_name varchar(64) default null,
primary key(userid)
)engine=innodb default charset=UTF8;使用如下的方式来初始化数据,我们就使用存储过程的方式。

delimiter $$
drop procedure if exists proc_auto_insertdata$$
create procedure proc_auto_insertdata()
begin
    declare
    init_data integer default 1;
    while init_data<=100000 do
    insert into users values(init_data,concat('user'    ,init_data));
    set init_data=init_data+1;
    end while;
end$$
delimiter ;
call proc_auto_insertdata();因为我对这个过程还是信心不足,所以就抓取了十分之一的数据10万条数据,测试的结果是执行了47秒钟左右,按照这个数据量大概需要8分钟左右。
> source create_proc.sql
Query OK, 0 rows affected, 1 warning (0.04 sec)
Query OK, 0 rows affected (0.02 sec)
Query OK, 1 row affected (47.41 sec)    所以这个过程虽然是一步到位,但是性能还是差强人意,我看有 的同学在不同的配置下性能差别很大,有的同学达到了近50分钟。这一点上以自己的测试环境为准,然后能够得到一个梯度的数据就可以了。

   我们来看看第二个方案。

方案2:使用内存表

第二个方案,我们尝试使用内存表来优化,这样一来我们就需要创建一个内存表,比如名叫users_memory。

create table users_memory(
userid int(11) unsigned not null,
user_name varchar(64) default null,
primary key(userid)
)engine=memory default charset=UTF8;然后使用如下的存储过程来导入数据,其实逻辑和第一个存储过程几乎一样,就表名不一样而已,这个里面数据是入到内存表中。

delimiter $$
drop procedure if exists proc_auto_insertdata$$
create procedure proc_auto_insertdata()
begin
    declare
    init_data integer default 1;
    while init_data<=1000000 do
    insert into users_memory values(init_data,concat('user'    ,init_data));
    set init_data=init_data+1;
    end while;
end$$
delimiter ;
call proc_auto_insertdata ;这个过程可能会抛出table is full相关的信息,我们可以适当调整参数tmpdir(修改需要重启),max_heap_table_size(在线修改),然后重试基本就可以了。
> source create_proc_mem.sql
Query OK, 0 rows affected (0.00 sec)
Query OK, 0 rows affected (0.00 sec)
Query OK, 1 row affected (4 min 40.23 sec)这个过程用时近5分钟,剩下的内存表数据导入InnoDB表很快了,几秒钟即可搞定。
> insert into users select *from users_memory;
整个过程下来不到5分钟,和第一种方案相比快了很多。

方案3:使用程序/脚本生成数据,批量导入

第三种方案只是抛砖引玉,如果你对php熟悉,可以完全用php来写,对哪种语言脚本熟悉,只要实现需求即可。比如我使用shell,也没有使用什么特别的技巧。
shell脚本内容如下:

for i in {1..1000000}
do
echo  $i,user_$i
done > a.lst脚本写得很简单,生成数据的过程大概耗时8秒钟,文件有18M左右。

# time sh a.sh
real    0m8.366s
user    0m6.312s
sys     0m2.039s然后使用load data来导入数据,整个过程花费时间大概在8秒钟左右,所以整个过程的时间在19秒以内。

> load data infile '/U01/testdata/a.lst'  into table users fields terminated by ','  ;
Query OK, 1000000 rows affected (8.05 sec)
Records: 1000000  Deleted: 0  Skipped: 0  Warnings: 0

方案4:内存表,外部文件导入混合

第四种方案是临时想的,也是结合了这几种方案的一些特点,当然不能说它就是最好的。

首先使用脚本生成数据,还是和方案3一样,估算为9秒钟,导入数据到内存表users_memory里面。

> load data infile '/U01/testdata/a.lst'  into table users_memory fields terminated by ','  ;
Query OK, 1000000 rows affected (1.91 sec)
Records: 1000000  Deleted: 0  Skipped: 0  Warnings: 0然后把内存表的数据导入目标表users

> insert into users select *from users_memory;                                   
Query OK, 1000000 rows affected (7.48 sec)
Records: 1000000  Duplicates: 0  Warnings: 0整个过程耗时在18秒,和第三种方案很相似,看起来略微复杂了或者啰嗦了一些。

   以上几种方案只是个人的一些简单测试总结,如果你有好的方案,希望多提意见,多多沟通。

扫码或者长按如下的图片都可以关注我的公众号,继续努力中。。。

时间: 2024-10-29 20:33:37

MySQL中的批量初始化数据的对比测试(r12笔记第71天)的相关文章

MySQL中的double write(二)(r12笔记第17天)

    MySQL里的double write是InnoDB的三大闪亮特性,另外两个是insert buffer 和自适应哈希,其实还有几个比如异步IO,Flush neighbour Page(刷新邻接页),这个和系统层面的关联性较高,所以三大亮点还是更有针对性的.    当然一说到MySQL里的double write,其实主要是要应对一个很自然的问题,那就是partial write. 经典的partial write问题    这个问题比较经典,很多数据库设计中都需要考虑到这样一个临界点

MySQL中一些常用的数据表操作语句笔记_Mysql

0.创建表 CREATE TABLE 表名 (属性名 数据类型 [完整性约束条件], 属性名 数据类型 [完整性约束条件], 属性名 数据类型 [完整性约束条件]) "完整性约束条件"是指指定某些字段的某些特殊约束条件. 在使用CREATE TABLE创建表时首先要使用USE语句选择数据库.比如有个example数据库,用USE EXAMPLE选择这个数据库. 表名不能用SQL的关键字,如create,update等,字母不区分大小写. 下面是一个创建表的例子: create tabl

用java向mysql中导入大量txt数据

问题描述 用java向mysql中导入大量txt数据 用java向mysql中导入大量txt数据大约一百万条,怎样能用jdbc高效的存储,不用jdbc有其他方法也可以,重要的是,快求大神指点一二,尽量不要发百度连接啥的,我差不多都找过了,说的详细点,跪求 解决方案 批处理..什么?批处理还不爽?那就批处理这种语句:insert into XXX(abcdd) values(11111)(222222)(33333)还不爽?那就多线程去跑.一百W数据不大.连本地库应该数秒就可以解决 解决方案二:

mysql LOAD语句批量录入数据_Mysql

幸运的是,MySQL提供了一些方法用于批量录入数据,使得向表中添加数据变得容易了.本节以及下一节,将介绍这些方法.本节将介绍SQL语言级的解决方法. 1.基本语法 语法:LOAD DATA [LOCAL] INFILE 'file_name.txt' [REPLACE | IGNORE] INTO TABLE tbl_name LOAD DATA INFILE语句从一个文本文件中以很高的速度读入一个表中.如果指定LOCAL关键词,从客户主机读文件.如果LOCAL没指定,文件必须位于服务器上.(L

mysql-JSP怎么获取在MySql中查询到的数据中的指定值?

问题描述 JSP怎么获取在MySql中查询到的数据中的指定值? 这是我的table结构,一共6列,主键是id,table名是user,现在想通过查找username来获取指定username的name值,并存入session中,用SELECT * FROM user where 语句可以获取一行值,如果我只要取name列的值,代码应该怎么写呢?比如我想取username为zeng的用户的name值,应当怎么写?之前遇到个问题卡了很久,提问求个例子之后大家都只说个大概思路,无奈只好把问题拆分开来问

mysql-请教数据库大神,MySQL中的point类型数据取出来之后如何转化为字符串在后台使用?

问题描述 请教数据库大神,MySQL中的point类型数据取出来之后如何转化为字符串在后台使用? 请教数据库大神,MySQL中的point类型数据取出来之后如何转化为字符串在后台使用?我想通过这个得到的坐标去计算两个坐标之间的距离,但是取出来后没法转化成字符串,大神们,帮帮忙,谢谢了! 解决方案 select AsText(point) from T;

mysql使用mybatis批量添加数据,返回主键

问题描述 mysql使用mybatis批量添加数据,返回主键 mysql使用mybatis批量添加,使用各种方法都无法返回对应的主键,请兄弟们不吝赐教 解决方案 该功能无法实现,只能分步骤来,先插入在查询 解决方案二: 批量添加还要返回主键??这个不太可能吧.最多也就返回插入的条数.如果返回主键,那不是了返回一个list然后里面放主键?一条一条插入倒是可以返回主键 解决方案三: 分步骤来,先插入在查询

MYSQL中约束及修改数据表

MYSQL中约束及修改数据表 28:约束约束保证数据的完整性和一致性约束分为表级约束和列级约束约束类型包括:    NOT NULL(非空约束)    PRIMARY KEY(主键约束)    UNIQUE KEY(唯一约束)    DEFAULT(默认约束)    FOREIGN KEY(外键约束) 29:查看数据表的存储引擎SHOW CREATE TABLE 数据表名; 30:删除表中的数据DELETE FROM 数据表名 WHERE 条件; 31:外键约束的参照操作(外键约束的要求解析)外

使用JDBC在MySQL数据库中快速批量插入数据

使用JDBC连接MySQL数据库进行数据插入的时候,特别是大批量数据连续插入(10W+),如何提高效率呢? 在JDBC编程接口中Statement 有两个方法特别值得注意: void addBatch() throws SQLExceptionAdds a set of parameters to this PreparedStatement object's batch of commands.int[] executeBatch() throws SQLExceptionSubmits a