目前暂时还没有哪款数据库产品是专门针对跨IDC进行的优化,在理论上被业界认为最优的方案是采用基于Paxos协议(暂时只有google做出了实现,google f1),今天只讨论MySQL在这方面的注意事项:
对于跨IDC的情况基本都会设计到以下问题:
1、MySQL多IDC的数据同步,数据一致性
2、多IDC之间的高可用
3、多IDC的多点写入问题
4、运维监控
对于MySQL多IDC数据之间的同步问题:
1、MySQL的复制是异步的(对于5.5的半同步来说,还是属于“异步的”),MySQL同步依赖的因素很多,同步的网络环境,硬件配置,SQL语句是否高效,以及数据量的大小。
在数据量较大的情况下在master和slave端启用slave-compressed-protocol = 1压缩模式,网络环境采用专线。可以利用blackhole存储引擎的MySQL作为relay server实现级联复制,这个最好控制在三层内,减少同步的延迟,减少机房之间传输的数据量。关于SQL语句,索引不要太多,影响插入速度,注意更新和删除的问题,如果采用row模式进行复制,数据量是个问题,建议采用mixed模式进行复制。对于实时性要求较高的应用可以允许第一次读的时候从主库上读取。或者在应用端给出等待时间来缓解同步延迟对用户的影响。
2、对于多IDC中的高可用问题。
本栏目更多精彩内容:http://www.bianceng.cn/database/MySQL/
对于采用relay server的方式,可以采用两台server,每隔relay下面都是一个slave集群。当某个出现问题的时候,可以只访问另一个slave集群。
对于采用双主模式的情况下,这个容灾方式比较明显,每个master下都接一个slave集群。但对于多IDC部署的话缺点也很明显,只能使用两个IDC。
3、多点写入问题
双主复制,环状复制,通过federated引擎都可以实现多点写入。这个时候对于多点写入需要考虑自增问题,可通过auto_increment_increment=N(增量值,且N是节点数)和auto_increment_offset=1,2,3,。。。N (初始值)来解决。更新丢失问题。每个master只写本地数据,slave拥有全部数据,这个时候数据是以一定次序出现的。利用消息队列,数据写入本地数据库时也写入消息队列中(本人为涉及到)
4、运维监控问题
监控系统对整个维护过程中起着很重要的作用。为防止在多IDC之间网络环境的影响,最好采用分布式监控,并且每个IDC的监控系统都能独立工作,可以参考zabbix,ganglia(两个开源企业级监控系统)