数据中心的系统互连架构设计和物理布线互连设计日益成为数据中心的焦点。基于光互连速率和密度的不断升级展望,人们对数据中心的架构设计和投资成本回报性产生了踌躇和疑虑。数据中心的系统设计横跨了多个学科,确实很少人能对数个学科的未来都有精确的预计。基于不同存储量和不同计算量的数据中心理应有不同的设计模型,希望本文对链路采用平行和波分复用的架构讨论能够厘清一些思路,带来更多有益的思考。 数据中心是一个含混的概念。它不仅仅包括计算机系统和其它与之配套的设备(例如通信和存储系统),还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置。因此我们在考量数据中心设计的时候必须基于计算能力、存储能力,互连能力,以及环境控制和监控能力来做对应的设计,这些设计无疑将带来计算成本、存储成本,互连成本,以及环境控制和监控的成本。如果我们不清晰地依据当前的技术以及当前的需求,结合未来需求和未来技术展望性做出合理的规划,数据中心会成为一个巨大烧钱的仓库。数据中心一旦建成,其是不可逆的。架构设计师必须非常小心! 在数据中心内。普遍建议的光互连方案如下: 基于系统对运算和传输速率的不同,系统设备的内连可以采用10G AOC(300米链路),4*10G AOC(300米链路) 和4*25G AOC(100米链路) 以及100G PSM4 技术(500米到2公里)。近年来海量数据中心更引入CWDM4(2公里链路)作为减少光纤数量管理的手段。由于不同方案会带来不同的性能和成本,我们认为:链路采用多模光互连技术是最成熟和最合理的方案,按照目前的成本估量,40G 多模链路的成本是10G 多模链路成本的2.5-3.0倍,而100G 多模链路大约是40G 的2.5-3.0倍,其中40G/100G 多模链路采用的均是MPO 多模光纤,意味着从40G 到100G 可以实现技术的平滑升级,并不需要触动现有的网络布线架构. 人们之前一直担忧多模VCSEL 的技术瓶颈到25GB/b将是极限,从而对多模数据中心的可延伸性产生了顾虑,近而放弃多模数据中心架构直接采用理论上(注意是理论上)可一直扩展升级的单模数据中心架构.可是最近的研究表明,50G VCSEL NRZ 技术并不是问题,在同样的QSFP28封装空间内,可以轻松地实现8*25G AOC 光互连.这使得系统架构面向8*25G 和4*50G 根本不是问题.可能人们进一步会担心400G VCSEL 技术可行性,目前尽管我们没有结论,但是400GVCSEL 遇到的技术瓶颈和单模400G遇到的技术瓶颈是相同的.某种意义上,是错觉打乱了人们的眼睛,就已知的知识,200GVCSEL AOC将进一步缩短传输距离(估计是50米),但是康宁的OM5光纤可以很好地弥补这一缺陷.问题当然还在于,采用OM5光纤将需要更换现有的布线架构.但是这个问题和其它问题是纠结在一起的,并不适合单项的做结论,它需要就其它技术做权衡取舍. PSM4技术是对多模100G 数据中心的补充.目前业界低估了PSM4技术的潜在性.而把焦点放在了CWDM4技术上.这或许多少有些误区.PSM4技术采用的是单模MPO 光纤传输,目前的传输距离到2KM非常轻松,而不是行业标准的500米,其实PSM4技术应该是10KM 传输的规格,只是业内对于它的应用几乎是不假思索的定义为2KM.这是一个焦点被转移后错误的认知.从一开始,分布式计算和并行传输就应该是这个领域的纲领性标准.100G PSM4的成本应该是100G VCSEL 的3倍.,只要人们愿意,未来可能降低到1.5-2倍水平.相对于100G CWDM4技术,PSM4技术使用了4倍光纤数量,光纤的成本可以假设为零,系统设计者考虑最多的是:一,光纤资源的有限性和日后可扩容性, 二,数据机房的布线成本.让我们细致地讨论这些集合不同领域的知识和见解,然后给出一个建设性结论 l 光纤传输之所以采用粗波分复用和密集粗波分复用是由于已经布设的光缆资源的有限性,所以设计者考虑用波分复用设备替代单波长设备.在光纤资源并不紧张的情况下,这种空分复用技术本身是增加成本的,因为光纤成本接近于零,如果空间建筑允许,第一次布设的时候应该布设足够的光纤以便于日后扩容采用.数据中心和骨干城域网不同, 骨干城域网的光缆建设已经完成,不管是之前思虑不周还是没有了望到更长远的需求,地底下被埋设的光缆资源都是有限的,因此必须启用波分复用技术.但是数据中心不同,数据中心属于第一次建设, 它不需要采用未来还不明确的在哪种速率和带宽下的波分复用技术.不能为波分复用而去做波分系统,波分复用仅是对现有光纤资源的一个有效利用手段,这个手段需要付出很多成本代价,但是在现在的需求看来基本是没有必要付出的.波分复用仅是同一种速率下的密度升级,按照现有的模块与系统设计,它的第一次部署等同于喧宾夺主或者本木倒置,必将阻碍系统的速率和带宽升级. l 现有的100G CWDM4 模块是无法直接升级到200G与400G 的.常规的波分复用系统可以被升级,是因为有源和无源被分割成两个独立的系统.无源是和速率波长无关的,所以可以自由升级.现在的数据中心CWDM4模块集成了有源和无源技术,好处是空间紧凑,坏处也是明显的,这个架构根本无法直接更换一个更高速率或更多波长(如8波,16波)的模块,意味着当系统需要升级的时候.我们过去为CWDM4而CWDM4的成本都打了水漂.因为采用PSM4同样可以实现光连接,且成本更低.按目前的直接材料成本和制成费用核算,单个CWDM4成本是PSM4的1.35-1.5倍.这些多出的成本对于现在的系统运作毫无意义. l 现有CWDM4模块对数据中心系统增加了可靠性风险.紧凑型CWDM4模快存在温飘和可靠性问题.CWDM4的规模部署需要数据中心将机房温度严格设定在估计15-50-度的范围,否则可能出现由于温飘和光芯片可靠性招致的严重误码现象.如果机房的水冷和空调系统一旦间歇性失灵.数据中心将出现灾难.CWDM4模块需要一个更可靠的工作环境带给系统巨大的能耗(PDU增大).如果仅仅因为使用CWDM4模块而必须牺牲巨大的能耗,这些能耗的损失将在一个月内使所有模块的购买成本增大一倍.就我们已经做过的验证,4*25G CWDM CHIP 业内还没有绝对的可靠性保证.任何一路的可靠性将影响到四路也就是整个模块的可靠性.CWDM4的可靠性隐患包括:CWDM 光芯片的可靠性,自由空间发射结构的可靠性或AWG 的温漂性.我们知道CWDM4技术正在进步,但是到目前为止,大家都在闭着眼睛过河 l CWDM4的光纤是否带来了光纤资源的节约和长期性升级时候的一劳永逸?没那么简单!当我们做系统设计的时候一定要考虑到在一开始,光纤资源就必须按照平行架构去布置,而不要思考光纤复用的问题,因为在此时考虑复用是没有意义的.我们根本不知道未来的技术需要多少光纤资源.把一个PSM4模块升级到PSM8和把一个CWDM4模块升级到CWDM8,理论上都需要仍掉现在的PSM4模块和CWDM4模块(很显然这个情况下仍掉的钱是不同的).把一个PSM4模块升级到PSM8确实需要动用8根光纤,但是这个升级遭遇的技术瓶颈是更简单低成本的.只要有需求,我们事实上在任何时候可以把一个PSM4模块升级到CWDM4从而有效地利用光纤资源.人们会说,如果不是现在,而是将来把100G PSM4升级到100G CWDM4,那不是白白损失了一个PSM4模块吗?我们在之前已经分析过,PSM4模快的能耗和管理成本远远为数据中心建造者赚回了不止10个CWDM4模块.并且由于PSM4模块的可靠性,拆卸下来的模块仍然可以被利用于其它新建的系统。虽然没有精确的计算,但是PSM4模块的好处是非常多的:传输的通明性,无温飘,可靠性更高,以及在某些情况下轻易地实现通道的分流监测. 我们需要再次强化一个概念,波分复用技术是空分复用技术,它和系统速率和带宽毫无关系.系统架造师如果把波分复用技术和系统从40G/100G 向200G/400G 升级的相关技术融作一体考量的时候,就必然陷阱两种不同技术思维的误区,招致错误的结论.波分复用技术的价值仅在于对现有光链路的改造以及资源非常紧张的应用(比如租用光纤资源的成本和稀缺性).它不能被视作一个初始技术.让我们进一步阐释.一个数据中心链路通常包括四种架构设计:设备架构,布线架构,扩容架构. l 设备架构:保证系统采用何种速率和吞吐率,只能基于现有的技术 l 布线架构:保证系统需要多少光纤资源,必须一次性想好道路的宽度 l 升级架构:系统从低速率(如10G/40G)向高速率(如100G/200G/400G演进的技术路径和成本 l 扩容架构:如何利用空分复用技术把现有系统提升系统的容量和密度 对于扩容架构,我们有必要做进一步的论证,如下图是两个典型数据中心波分复用光互连架构
(A) 方案是有源和无源分离的设计方案 (B) 方案类似现在100G CWDM4 数据中心的结构.
|