1.
总体架构规划
在实施前先做物理与逻辑地图:列出机房机柜位置、光纤入点(多供电、更换路由)、核心/汇聚/接入交换机型号与端口、与两个以上ISP的等价入链点。实际步骤:1)到现场用光纤测试仪测量每条链路时延与衰减并标注编号;2)画出逻辑网络图(VLAN、VRF、BGP ASN);3)制定SLA与RTO/RPO目标用于冗余等级决策。
2.
物理互联与多路由多宿主(Diverse Paths)
确保至少两条物理光纤进入机房并走不同路径。操作指南:1)与机房提供商确认POE(Path of Entry)和POU(Point of Use);2)在交换机上为每条光纤配置不同描述(描述包含路径ID);3)启用光纤链路的光层告警并接入NMS。
3.
上游互联:BGP多宿主配置
与两个或以上ISP建立eBGP会话。具体步骤:1)分配一个本地ASN;2)为每个ISP配置静态route-map与prefix-list,示例(Cisco风格):neighbor X.X.X.X remote-as 65001;neighbor X.X.X.X ebgp-multihop 2;ip prefix-list OUT seq 5 permit 203.0.113.0/24;3)设定本地优先级(local-preference)和AS-path prepend策略用于流量工程;4)启用BFD以加快故障检测(bfd interval 50 min_rx 50 multiplier 3)。
4.
机房内部冗余:Leaf-Spine与MLAG
建议Leaf-Spine架构并在接入层采用MLAG或Stack。操作细则:1)配置两个 spine 节点互连;2)在接入交换机上启用MLAG(示例:配置peer-link为LACP聚合,确保peer-keepalive通过独立管理网络);3)在LACP聚合上设置hash算法并固定MTU;4)关闭不必要的STP端口或启用BPDU Guard、防环策略。
5.
默认网关冗余:VRRP/HSRP/GLBP 实战
对于二层冗余,使用VRRP或HSRP为服务器提供单一虚拟网关。步骤示例(VRRP):1)在两台汇聚交换机配置相同VRID和虚拟IP;2)设置优先级(优主机优先);3)配置track接口以便下游故障时降低优先级触发主备切换;4)测试graceful preemption与定时。
6.
电力与链路冗余联动
互联不仅是网络链路,还要联动供电与空调。实施步骤:1)核对每台关键网络设备双电源是否分别接到A/B两路UPS;2)在机房监控中接入PDUs和门禁报警,设定阈值告警;3)进行断电演练:先切掉B路电源,观察设备是否无缝切换并记录日志。
7.
健康检查与主动故障演练
定期演练比只靠硬件更可靠。详细操作:1)制定演练计划并在维护窗口执行;2)执行命令模拟:shutdown interface X/Y(关闭某上游接口),观察BGP会话何时收敛并记录收敛时间;3)使用脚本自动化检测(ping、traceroute、BGP summary、show vrrp);4)恢复并核对路由表与流量分布。
8.
流量工程与避险策略(Traffic Engineering)
通过BGP属性调整流量走向。步骤:1)为不同客户或服务制定路由策略(route-map,set local-preference,set community);2)在ISP侧协调community策略用于出站路由控制;3)对敏感业务设置备份路径并验证RTO目标;4)仿真突发流量,观察QOS队列与丢包。
9.
监控、日志与告警配置
可视化和快速告警是关键。实操步骤:1)启用SNMP v2/v3、NetFlow/IPFIX采样并汇报到NMS;2)集中Syslog至独立集群并做长时归档;3)为BGP、接口、CPU、温度设定多级告警并配置短信/邮件/ChatOps通知;4)定期演练告警响应流程。
10.
变更管理与文档化
每次调整都要可回滚。操作清单:1)在CMDB记录端口映射、路由策略、设备序列号;2)变更前备份配置并写成Runbook;3)执行变更时按步骤操作并保存快照;4)变更后执行回归测试并更新文档。
11.
安全与抗DDoS设计
互联要同时考虑安全。步骤:1)在边界做ACL与RTBH/Remotely-Triggered Black Hole配置;2)与上游ISP建立DDoS清洗联动方案;3)在BGP上启用TTL、prefix-limit保护及最大前缀数;4)对管理面启用ACL、AAA与基于角色的权限。
12.
可测量的SLA验证方法
验证冗余是否满足SLA的操作:1)定义关键路径KPI(收敛时间、可用率、丢包率);2)编写自动化脚本每小时采样并存档;3)按季度生成报告并与SLA比对;4)对不足项制定改进计划。
13.
问:在美国MS机房互联中,如何快速定位BGP收敛问题?
答:先用show ip bgp summary看会话状态,再用show bgp neighbor X advertised-routes/received-routes核对前缀;启用BFD可加速检测;用tcpdump在端口抓包观察TCP三次握手或BGP Keepalive;最后查看route-map与prefix-list是否误拦。
14.
问:演练断链时如何保证对客户影响最小?
答:采用维护窗口、先在备份实例上演练、分流非关键流量,演练前通知客户并设置快速回滚脚本(恢复接口、撤销route-map),同时全程监控关键业务流量和用户影响。
15.
问:做互联冗余的首要投入是什么?
答:首要投入是规划与监控体系:保证物理多路径、多ISP和完善的监控/告警、变更与演练流程,技术实现(BGP/MLAG/VRRP)可以通过标准化模板和自动化降低人力错误。
来源:网络工程师视角解读美国ms机房介绍中的互联与冗余设计