容器混搭搞出线上 Redis 事故,这坑我先踩为敬

事情是这样的, 现在有一个 redis 3.0 集群节点都是裸 redis 或 host 网络模式部署的容器 redis (基本上跟裸 redis 差不多), 需要把它们替换成 macvlan 网络模式的 redis 容器, 以显得我们的 dockerized redis cluster 很上档次。

这事情几个月前也搞过一次毫无压力。然而这一次又搞, 就出岔子了。(这剧本不对啊摔)

于是开始加了两个 macvlan 的容器到上述 redis 集群作为从节点,打算稍候 failover 替换掉主, 过了十分钟左右群里炸毛, 说数据都取不到,或者格式不对。上线一查, 发现正在加从节点的这个集群跟另一个集群的节点混到一起去了。这里吐槽一下 redis 集群的协议,两个正常服务的集群可以直接通过一个 cluster meet 合并成一个集群, 然后槽位分布乱了...

首先当然是紧急恢复线上业务,先拉一个新集群出来再说 (所幸这个集群的数据不需要持久化)。结果,新集群刚弄出来。又被合进了上面那个集群。(这时我满脑子都是某个科教片里两个星系合并的一段视频, 满天都在炸!

然后 cluster nodes 看了一下,发现集群里有几个节点地址变成了 172.17.x.x,这应该是 docker 的内部网段地址,所以反应过来,可能是 docker 网络配置问题,将握手流量发给了错误的节点,然后那些节点被并了进来。这时候创建一个新网段有点来不及了 (还打了个电话给已经请假回家的 @小六哇啦啦 老师...) 换了个思路,把新 redis 换个端口部署,再组个集群,观察了一会儿,这方法起作用了 -.-!!

恢复了被炸得鸡飞狗跳的线上业务之后,就开始排查问题了。线索还是之前 cluster nodes 看到的那个 172.17.x.x 网段, 测试确认了一下,从 docker 容器内连宿主机,宿主机 accept 得到的会是 172.17.x.x 这个地址。而容器内路由表是这样的:

确实如果宿主机的 IP 是 10.100.1.100 那么流量走的是 eth0 也就是 172.17.x.x 网卡。(10.222.0.0/16 是容器 macvlan 地址)之后就明白了,172.17.x.x 这样的网卡地址在不同物理机上是可能相同的。也就是说,遭遇的问题可能是如下过程所致

* 四个 redis #a #b #c #d
* #a #b 是两个 host 网络的 redis,在同一个集群中,#d 是 macvlan 部署的 redis,在另一个集群中
* #c 是一个空闲的 redis,它与 #d 恰好有相同的 eth0 地址

1> #c 通过 eth0 向 #a 发送了一个 handshake
2> #a 确认, 这时, 它认为 #c 的地址是 172.17.0.55
3> #a 将新节点地址广播给 #b
4> #b 向 172.17.0.55 发送一个握手请求,然而,此地址在它所在机器上对应的是 #d,之后两个集群就混一起去了

这也解释了为啥几个月之前这么搞的时候没出问题,应该是那时候运气好没有相同地址的容器;同时也解释了为啥不是每个纯 macvlan 模式的 redis 集群都中枪。后来在测试机房找了两个恰好相同网卡的容器,按上述思路搭了集群试了试,果然重现了。

解决方案

  • 因噎废食 : 以后别这么混搭玩了
  • 绕过 : 端口号不一样法
  • 改默认路由 : 默认就走 vlan 网卡,不过这样的话不能访问外网, 对 redis 而言没问题, 但其他业务可能就不行了
  • 加路由 : 其实可以通过在容器内加一条路由 10.100.0.0/16 走 vlan 这样宿主机 accept 到的地址就会是机房唯一的 vlan 网卡地址了,这个方案 @CMGS 正在评估中。

文章转载自 开源中国社区[https://www.oschina.net]

时间: 2024-07-30 17:26:20

容器混搭搞出线上 Redis 事故,这坑我先踩为敬的相关文章

180迈购车网将立足北京,推出线上汽车售后服务活动

摘要: 5月16日消息,5月中旬汽车电子商务服务平台180迈购车网将立足北京,推出线上汽车售后服务活动. 180迈官网截图 相关数据显示,2014年我国汽车保养量将近1.4亿,而到2015年我国汽车后 5月16日消息,5月中旬汽车电子商务服务平台180迈购车网将立足北京,推出线上汽车售后服务活动. 180迈官网截图 相关数据显示,2014年我国汽车保养量将近1.4亿,而到2015年我国汽车后市场产值有望增至7000亿元,成为全球第一大汽车后市场. 180迈购车网是中国第一家提供网上汽车销售和市场

利用iframe无刷新上传文件的坑

原文:利用iframe无刷新上传文件的坑 页面里经常要用到文件上传的功能,而且要求页面不刷新,先说一下原理:页面里放一个file控件和submit按钮,外面用form表单包住,给form表单加上对应的属性值,action.method.entype.name,到这一步,能上传文件了,但是这样上传文件会刷新页面,这不是我们想要的.我们要的是文件上传时不刷新页面,那么也简单,在页面里放一个iframe,设置它的宽高为0,这里有两个坑: 1.需要设置iframe的name值与form的target属性

在容器技术改造与应用上,美团云如何做到择善而从?

摘要: 今天我将分享<美团云容器实践之路>,我会先点明为什么美团要开始探索容器,再介绍我们在容器方面做了哪些事情,以及做这些事情的效果,最后也会提到美团云未来的一些发展思路.    一.引进容器技术的原因    有了美团云后,美团整体的基础设施交付效率有了很大的提升. 今天我将分享<美团云容器实践之路>,我会先点明为什么美团要开始探索容器,再介绍我们在容器方面做了哪些事情,以及做这些事情的效果,最后也会提到美团云未来的一些发展思路.    一.引进容器技术的原因     有了美团云

企业从虚拟化向容器化迁徙道路上的十大误区

过去的一年中,以Docker为代表的容器化技术成了最热门的云计算词汇,而从虚拟化向容器化过渡也成了一件非常时髦的事情,很多企业经不住诱惑纷纷试水Docker. 但是,随着市场炒作的喧嚣和迷雾渐去,企业的CTO和CIO们发现从虚拟化到容器化的迁徙道路上布满了坑洞.企业云计算技术的未来,也许不会是一边倒的格局,而是结合了类似VMware的可控性和Docker代表的自由.流动和协作趋势. 近日,StackEngine的首席执行官Bob Quillin在VB上撰文指出:企业容器化道路上存在十大误区: 误

Castle IOC容器内幕故事(上)

主要内容 1.WindsorContainer分析 2.MicroKernel分析 3.注册组件流程 一.WindsorContainer分析 WindsorContainer是Castle的IOC容器,也是它的一个核心,先来看一下WindsorContainer在Castle中所处的位置: 图1 WindsorContainer构建于MicroKernel之上,MicroKernel仅仅是提供了一个IOC的容器,非常的轻巧,它只依赖于Castle.Model一个程序集,但它的可扩展能力却很强,

Line泰国推出线上杂货递送服务,计划推广东南亚

据国外媒体报道, 日本即时聊天应用Line在泰国推出了线上杂货递送服务.与此同时,Line母公司Naver还计划在其它东南亚国家推广该服务. Naver公司周一表示,其"Cheap Sure Sure(绝对便宜)"网上杂货服务将于2月4日在泰国上线.泰国目前是在日本之后,Line的第二大市场,拥有超过3300万的活跃用户.如果推广成功,该服务可以帮助减轻Naver在金融市场上的压力.上周该公司公布了令人失望的季度财报. Line并没有给出该服务的财务细节.在东南亚地区有接近6亿的消费者

百度推出线上动物园:视频秀O2O模式的发展前景如何

中介交易 SEO诊断 淘宝客 云主机 技术大厅 最近百度推出的线上动物园很火,所谓线上动物园,其实就是在线视频直播.在动物活动的地方安装摄像头,然后再借助于百度的小度I耳目云摄像头.百度云技术来实现.现在我们在通过百度百科就可以看到"企鹅"."大象"等动物的在线直播,也不必去动物园去看动物了.百度此举的目的是什么呢?有人说是试水O2O,也顺便推广下自己的产品,包括硬件设备和软件设备.不过现在只是尝试阶段,全国各个城市都有动物园,甚至还有不少马戏团.通过在线直播的方式

尊酷网国内首推出线上奢品拍卖

近日,国内知名奢侈品网站尊酷网奢华拍卖频道正式上线.芬迪 (FENDI) 普拉达 (Prada)等品牌奢侈品高调亮相,并以一元的价格竞拍.在短短一天的时间内,买家频繁出价,竞价从一元一路走高到了上千元,奢侈品年根儿抄底大戏正式上演. 互联网的世界是永远新鲜的.此事经媒体广泛报道后,引发了广大奢侈品受众的关注.带着一些问题,记者也采访了尊酷网副总裁文颐,了解其真实情况. 记者:您如何看待尊酷网奢侈品的拍卖? 文颐:线上奢侈品拍卖与时尚品牌拍卖.它们都有着非常珍贵稀少.特定范围内认可度和被渴望度高.

对话·洞见:政企用户在云计算上遇到的那些坑

在题为"对话·洞见"的圆桌对话环节,嘉宾包括泰康人寿数据信息中心基础设施部总经理杜宇.北京农商行数据中心总经理肖国彬.国家气象局信息中心副总工程师沈文海和中科软科技股份有限公司总裁左春,共同探讨云计算路上遇到的那些坑.  泰康人寿数据信息中心基础设施部总经理杜宇介绍,泰康人寿在信息化上做了巨大努力.初见成效.从2年前开始,在互联网崛起后,市场和客户的需求都发生了很大变化,而保险是非刚性.低频的产品,需要做很多转型.这就要求信息技术从业者要支持公司的转型.泰康人寿选择腾出一只手,在云计算