“关公战秦琼”——OCS与以太交换机技术之争

“关公战秦琼”——OCS与以太交换机技术之争
2024年10月31日 17:41 飞象网

近期OCS被频繁提起,美其名曰“光交换机”,似乎是有几分要替代当前在数据中心大量使用的以太电交换机的意味。

OCS全称 Optical Circuit switch,光电路交换。等等,电路交换?这不是在通信领域早已经被分组交换(Packet Switch)替代了的电路交换机吗?这已经是上个世纪的技术了,为什么加上个Optical就成新技术了呢?

上个世纪电路交换机和接线员(图片来自网络)上个世纪电路交换机和接线员(图片来自网络)

如电路交换机相同,OCS提供的也是链路级的连接,只不过前者是电路,后者是光路。这就意味着,OCS在同一时间只能提供一个光口到另外一个光口的点到点连接,只不过这个连接关系可以按需动态调整,不需要接线员姑娘手动切换罢了。

说到这里各位小伙伴可能明白了,原来OCS就是自动光纤配线架(AODF,Automated Optical Distribution Frame)呀。没错,不管名字怎么变化(某些场景也被称为OXC,Optical Cross-Connect)、光路切换实现技术如何,本质上承担的角色就是自动光配线架。

自动配线架和以太交换机打架,想要替代以太交换机?关键这两个就不是同一类物种,怎么可能同台竞争,这不是关公战秦琼吗?

这里不妨盘一下OCS的老底。OCS在产业发声,关键的幕后推手是Google。2022年,Google在SIGCOMM22的《Jupiter Evolving: Transforming Google’s Datacenter Network via Optical Circuit Switches and Software-Defined Networking》论文中,提到了在数据中心部署OCS/OXC的网络方案,一时间引起了一片热议之声。Google作为带头大哥用了OCS似乎很有说服力,一帮小弟跟风也可以理解。然而,Google使用OCS已经多年,为什么业界到现在还没有第二家部署呢?

本质上还是OCS就是个升级版的光配线架,并不是什么交换机。Google花费了那么大的精力把OCS用了起来,还发了多篇论文,各位小弟仔细一读论文,呵呵,你这走的明显是邪路呀,基于流量调整通过OCS调整POD间的光纤数量,吹那么高大上,最终就是个这?我们不跟。

Meta甚至还发了篇论文,大概意思是要用自动光配线架,为什么不用机械自动配线架,插损小成本还低(成本这个是个玄学,还是看有多少人用),不知道谷大哥看到有什么感想。

于是多年来Google一直孤独的作为OCS的唯一用户,在这条道路上一路狂奔。例如,为了解决OCS带来的高插损(2dB)和长距离(没有光电转换,链路长度翻番)的问题,Google一直在用高成本的LR 10km模块,并在业界呼吁增加FR 2km光模块插损余量(当然大家都不理他);另外还自己投资搞BiDi单纤双向模块(区别于双纤双向模块),就为了减少OCS的端口占用。至于在数据中心内大量使用的MPO口并纤模块(500m DR和300m SR),Google更是连想也不用想了。

如果不是AI突然大火,OCS这东西也就停留在Google的Jupiter和其他大厂的实验室里了。AI这一火,Google又发篇论文说我的TPU集群用了OCS。这下搞OCS的小伙伴们集体嗨起来了,原来我们这东西可以和AI扯上关系。AI一加持,就要站上了浪潮之巅了。

但是只要稍微了解TPU架构的同学就一定会清楚,Google TPU用的是3D Torus互联架构,也就是TPU组成3维的环网,是一种无交换机的架构。在这里面OCS起到的作用就是两点:一、连接对应的TPU端口,组成跨机柜的Torus;二、部分TPU故障时,绕过故障节点。这两点又印证了一个事实,OCS完全就是一个自动光纤配线架(AODF)。

(Google Torus组网,图片来自于网络)(Google Torus组网,图片来自于网络)

除了前面提到的OCS电路交换的本质(无法替代分组交换)和插损(限制组网距离,或者大幅提升组网成本)外,OCS宣传中经常强调自己的切换时间很快,例如XX毫秒。但是这个XX毫秒是完全没有意义的,因为每次切换就是一次光路的断开重连,其两端的网络设备从物理层到网络层各层都要重新协商,重新UP,重新及建立路由,这个时间都是秒级的,一定会造成网络中断。而且,因为OCS是一个电路交换机,需要外部指令告诉OCS如何切换,这一点不像分组交换是报文自带路由的,所以根本不可能做快速的切换。因此,业界使用OCS都是长周期的切换(小时、天、甚至周),基于长期流量需求做切换,并不需要OCS的快切换能力。

总结一下,OCS是一种电路交换机,完全不具备替代分组交换机的可能,本质上是一个AODF自动配线架。个人认为,OCS如果要在DCN内得到更广泛的应用,应该瞄准几个方向:第一、降低插损,当前插损太高严重限制了其应用场景。第二、降低成本,毕竟AODF对手是低成本的ODF,加上个A(自动化)有价值,但不能太贵。第三、支持光纤盲插,AODF的A不应该只是自动调纤,如果OCS可以识别每根光纤具体连接到了哪台交换机的哪个端口,用户只需要把光纤盲插到OCS上,然后通过控制OCS就可以完成交换机间的光纤连接,可能可以大幅提升AODF的价值。

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片