初衷:
在2011年初我学习交换机链路聚合技术的时候,心中一直有一个疑问:
交换机收到一个报文,到达聚合口的时候,是怎么选择成员口出去的呢?
是随机选的吗?还是按成员编号从小到大或从大到小轮循?如果选择源IP算法,是怎么实现不同源IP就走不同的端口的呢?那时网上也找不到介绍,这个疑问,直到2011年底做测试工程师时,才得到研发兄弟的回答,一直记在心里,总想找个时间发布到网上,让更多人知道,原来负载均衡算法其实是这么的简单!
链路聚合的主要作用是增加带宽,增加可靠性,防止二层环路。在这儿,我不讨论这技术为何而来与作何而用了,只说说报文到达聚合口时,是怎么选择出端口的。
感叹:
2012年底测试一个交换机项目时,和另一家公司(是大企业)是竞争关系,我负责测试本公司交换机(中小企业),名称就都不说了。
在进行入网测试时,工信部测试人员引入真实流量,分光成两份,分别进入两家厂商的交换机,交换机上配置同样的负载分担算法(如:都是SIP hash),同样的聚合组成员数(如:32个)。测试结果是:真实流10G两分钟,两家厂商各成员接口输出报文一模一样(判断出两家厂商负载均衡算法一模一样)。由此我才深深感叹,原来牛逼的厂商用的算法也不过如此而已(以前一直觉得大企业肯定很牛逼,事实最后的测试结果报告还不如我们)。
HASH表介绍:
在交换机内部,每创建一个聚合组时,底层同时创建对应该聚合组的一个hash表,该表存在于交换芯片上,hash表内容如下(简化):
左列index为芯片的硬性支持,现在一般是256,512,1024,更高的未见过。index数量越高,负载分担越均衡。
这儿以3个成员为例:
index | interface |
0 | eth0_0 |
1 | eth0_1 |
2 | eth0_2 |
3 | eth0_0 |
4 | eth0_1 |
5 | eth0_2 |
. | . |
. | . |
. | . |
1022 | eth0_0 |
1023 | eth0_1 |
HASH表维护:
交换机里有专门的线程,实时检测聚合组有效成员,一旦成员状态发生变化,立即刷新hash表项。
顺便谈谈刷新HASH表这个技术。
工程师up/down成员口,底层就必须实时的刷新成员(这儿比较考验厂商技术),刷新速度越慢,成员状态变动时丢包越多。技术最强的如cisco,可以做到up/down成员口时,不丢包。而我公司最初会丢一秒钟的包(研发设计思路问题)。后来优化后才达到up/down成员端口,有0.0几秒的丢包,无法做到不丢包。
up/down分析:当工程师在命令行up/down聚合组成员时,底层表项会有那么一丁点儿的响应时间刷新表项,这丁点儿时间,已经down掉的接口还存在hash表里,而报文是一直都有的,正好被hash到这个无效的出端口的报文都会被丢弃!)
交换机负载均衡转发原理:
虽然底层有了一张HASH表,那么到底是怎么利用这张表的呢?
1)工程师设定端口成员与HASH算法,如SIP、DIP、SIP+DIP、SIP+DIP+SP+DP等。
2)交换机根据成员生成HASH表,根据算法提取报文中相应内容。
3)使用特定HASH值的计算方法,把提取的内容计算出一个10bits的值。
4)找到底层HASH表项中该值对应的出端口。
5)把报文从这个出端口转发出去。
HASH值的计算方法:
xor是异或运算,即两个值不相同,则异或结果为真;反之,为假。不同为1,相同为0。
1、SIP(源IP)
1)SIP xor 0 得到一个32bit的值.
2)然后作高16bits和低16bits的xor.
3)再用16bits的15-12bits与11-8bitsxor,将得到的4bits替换到11-8bits,得到12bits右移2位得到10bits的hash值
注:10bits的值必然是0-1023里的一个数,该index对应的interface是多少,就从该接口转发出去。(相同的IP必然是相同的hash值)