首页 科技快讯 谷歌分享:光交换的下一步

谷歌分享:光交换的下一步

来源:晰数塔互联网快讯 时间:2026年01月02日 15:52

在本文中,谷歌讨论了面向未来光电路交换机的器件技术,重点关注数据中心网络和机器学习超级计算机。包括插入损耗、串扰、端口数量、重构时间以及偏振敏感性在内的器件参数,都会影响最终系统的性能与可靠性。

引言

大规模系统依赖网络通过交换机将信息从源端传输到目的端。目前大多数大规模数据网络是围绕电分组交换机(EPS)以及一种固定的 Clos 拓扑结构构建的。尽管这类网络可以支持任意的通信模式,但在成本、时延和可重构性等关键系统指标上,其扩展性并不理想。正是这些已知的扩展性限制,促使早期研究工作探索使用光电路交换机(OCS),以动态调整网络拓扑,从而匹配所需的通信模式。

这些早期工作推动了光电路交换机在大规模数据中心网络以及机器学习系统中的实际部署。这些光交换机成为实现高性能、具成本效益且可重构网络的关键技术。本文将简要介绍现有的商用光电路交换机,并探讨未来交换机可能采用的器件技术发展方向。

背景

数字电分组交换机会在共享存储器中对数据包进行排队,并根据数据包头中包含的信息,作出本地路由决策,将数据包转发到相应的输出端口。端到端连接通常由经过多个交换机的多跳路径构成。本地路由决策是基于逐包进行的,这可能导致来自同一源、发往同一目的地的数据包经历不同的传输时延。

光电路交换机会在输入端口和输出端口之间建立一条端到端的光路或电路。进入交换机的数据包始终保持在光域中传输,并依据预先设定的路径被路由到输出端口,而不是通过读取数据包头来进行本地路由决策。因此,所有数据包都会沿同一条光路传播,并经历相同的时延,这对于同步的机器学习工作负载而言是理想的特性。此外,许多光电路交换机对速率不敏感,因此同一台交换机可以跨越多个不同数据速率的光收发器世代使用。

这些简化的特性要求对光交换机进行集中式控制,而在大规模 OCS 部署中,开发这一控制平面的工作量,可能甚至超过 OCS 硬件本身的开发工作。

未来光交换技术

表 I 列出了用于商用和研发型光电路交换机(OCS)的多种器件技术的四个关键性能指标。这些指标取决于交换功能是基于空间还是基于波长实现的,以及交换功能是在自由空间中的三维结构中实现,还是在平面内的二维结构中实现。

表 I:商用及研发型光电路交换机(OCS)的关键性能指标。

现有商用 OCS 所使用的所有器件都基于定制化的硬件与控制方案,目前尚不存在一种能够在所有应用场景中、在所有性能指标上都达到最优的单一交换器件技术。当前,面向现有大规模系统应用场景设计的光交换机,主要聚焦于大端口数量以及低插入损耗和低回波损耗。

图 1 展示了当前用于基于 MEMS 的交换机的一种器件技术示例。MEMS 反射镜采用深反应离子刻蚀工艺制造,该工艺可以制备出大直径、平坦且具有高反射率的微反射镜。高电压信号控制围绕每个反射镜的四个梳齿驱动器。这些驱动器可以使反射镜绕两个轴旋转。由两组此类器件可以构建从任意输入端口到任意输出端口的三维光路。

图 1: 带反射镜的 MEMS 执行器细节图(伪彩色显示),以及用于绕两个轴产生旋转的四个梳齿驱动器。

基于图 1 所示定制 MEMS 器件的光电路交换机,在大规模数据中心网络中提供了显著的成本优势,并且在用于 TPU 超级节点(superpods)时提升了系统的可用性和性能。

用于三维自由空间交换的新型器件包括(非机械式的)二维数字液晶(DLC)像素阵列。该器件利用偏振特性,以数字方式控制光束的传播方向。通过由 N 个二进制级联单元组成的折叠级联结构,可以构建一个具有 2^N 个端口的交换机,如图 2 所示。

图 2: 采用液晶像素阵列的三维自由空间光交换机原型结构示意图

二维平面交换器件

与三维自由空间交换机相比,大多数研发中的二维器件基于每个方向具有 N 条波导的交叉矩阵结构。在 N² 个波导交叉点中的每一个位置放置一个二进制交换器件,用于控制光在该交叉点处的传播方向。

许多研发中的二维光交换机采用某种形式的硅光子(SiP)技术,该技术设计为与标准 CMOS 工艺兼容。针对这类器件已开展了大量研发工作,并报道了多种不同的交换驱动机制。这一路径的优势在于:基于 SiP 的平面光交换机有望实现更低的单端口成本、更快的交换速度、更容易与电子系统集成,并且由于驱动电压较低,相比大多数商用三维自由空间交换机,潜在地具有更高的可靠性。

截至目前,这一优势尚未在量产系统中实现。当前面临的挑战包括光纤耦合与交换过程中的高损耗,以及受限的端口数量。其中一些缺点(如插入损耗)几乎适用于所有二维交换架构。

1)基于干涉的器件:基于干涉器件的二维平面交换机已被广泛研究。这类器件包括马赫–曾德尔干涉仪,其通过单次传播干涉来产生交换状态;以及微环谐振器,其通过环形谐振腔内的多次传播干涉来产生交换状态。总体而言,基于谐振器的交换器件可以具有更低的驱动电压,但其带宽更窄,且控制难度更高。

这两类器件的驱动机制均基于改变折射率,从而产生相长或相消干涉。常见方法包括热调谐,以及利用电光效应,即折射率随外加电场发生变化。所诱导的折射率变化具有波长依赖性,并会影响器件的可用带宽。热调谐速度较慢(微秒级相对于纳秒级),并且需要精细控制以防止器件之间的热串扰。基于这两类器件的交换机所面临的挑战包括降低整体损耗、对偏振多样化设计的需求,以及随着级联器件数量和交换机端口数增加而加剧的信号串扰。

2)异质集成器件:光交换机的一个新兴应用场景是光子量子计算。光交换机用于生成初始计算资源,并在量子计算各个阶段之间执行前馈操作。这种依赖关系意味着整体计算速度由光电路交换机的切换速度所决定。光子量子计算还对损耗和串扰提出了极为严格的要求。

为应对这些挑战,基于异质集成的高速光交换机正在被研究。这类器件将具有强电光效应的材料薄膜与代工厂工艺的硅光子集成在一起。该集成方式可以实现驱动电压较低、速度较快的光交换机。其他基于微转移印刷的异质集成工艺也在开发中。所有基于干涉器件的挑战同样适用于这些交换机,同时还需要解决实现实用化异质集成工艺的问题。

3)硅光子 MEMS 器件:MEMS 器件也可用于硅光子二维交换机。图 3 展示了该器件的布局结构。输入与输出光纤阵列单元(FAU)连接到一个由波导构成的二维交叉矩阵结构上。在每一个波导交叉点处,采用 MEMS 驱动的耦合器,将光引导至两个方向之一。随后,该 MEMS 光子集成电路(PIC)与一个控制 CMOS 芯片进行集成。

图 3: 研发型硅光子 MEMS 交换机的布局结构。

与用于自由空间交换机的模拟 MEMS 器件相比,二值 MEMS 耦合器的速度可快 1000 倍,并且已展示出相对较大的端口数量。某一研发型器件的切换速度如图 4 所示。这类器件面临的挑战包括为 2N 个光纤–波导连接器实现低损耗封装,而这也是大多数硅光子二维交换机所共同面临的问题。

图 4: 硅光子 MEMS 交换机的上升时间 / 下降时间。

4)波长交换器件:波长交换采用可调谐激光器、无源阵列波导器件(AWG)以及可调谐滤波器的组合。与其他器件技术相比,可调谐激光器通常成本更高、功耗更大,而无源光学器件则可能具有更高的损耗并且工作在固定波长波段。这些特性限制了端口数量以及单端口可用带宽。

结论

随着光电路交换技术实现商业化,围绕未来光交换机器件技术的研究活动正在迅速增加。随着光交换机应用场景的不断扩展,预计其中一些研发阶段的器件技术将被引入未来的计算与网络系统中并实现量产应用。

附:谷歌OCS的起源

其实从几年前开始,谷歌一直在悄悄地对其数据中心进行改造,用一种彻底的内部方法取代了其网络基础设施,这长期以来一直是网络社区的梦想。

这项计划名为“阿波罗计划”,其核心在于用光代替电子,并用光路交换机(OCS:optical circuit switches)取代传统的网络交换机。在2023年年底,谷歌系统和服务基础设施团队负责人曾在外媒的采访中解释了这项计划为何如此重要。

把数据留在“光”里面

数据中心通信存在一个根本性的挑战,即效率低下,这源于它横跨两个世界的特性。数据处理在电子设备上进行,因此服务器层面的信息保存在电子域中。但在光域(即光学领域)中传输信息则更快更便捷。

在传统的网络拓扑结构中,信号在电信号和光信号之间来回转换。“一直以来都是一跳一跳地进行,先转换回电信号,再输出到光信号,如此反复,大部分工作都留在电信号传输环节,”Vahdat说道。“这在成本和能耗方面都非常高昂。”

通过 OCS 技术,该公司“尽可能长时间地将数据留在光域中”,使用微型镜子将光束从源点重定向,并将其直接发送到目标端口,作为光交叉连接。

“这项技术的应用降低了通信延迟,因为现在无需在数据中心内进行如此频繁的数据传输,”谷歌方面表示。“它省去了电力交换环节——这原本是包括我们自己在内的大多数数据中心的核心部分。”谷歌进一步支持

其他数据中心中常见的传统“Clos”架构依赖于由电子分组交换机 (EPS:electronic packet switches ) 构成的主干,该主干以博通和 Marvell 等公司的硅芯片为基础,连接到“叶子”或机架顶部交换机。

EPS 系统价格昂贵,耗电量也相当大,而且在信号以电子形式传输时,需要进行延迟较高的逐包处理,然后再将其转换回光信号形式进行后续传输。

谷歌方面表示表示,OCS需要的功率更少:“有了这些系统,这些设备消耗的功率基本上只有维持镜子位置所需的功率。由于这些镜子很小,所以所需的功率非常小。”

光线通过光纤束进入“阿波罗计划”交换机,并被多个硅芯片反射,每个硅芯片都包含一个微型反射镜阵列。这些反射镜是三维微机电系统(MEMS),可以快速单独重新对准,从而使每个光信号都能立即重定向到输出光纤束中的不同光纤。

每个阵列包含176个微型反射镜,但出于良率考虑,只使用了136个。“这些反射镜都是定制的,每个都略有不同。因此,这意味着所有可能的输入输出组合的总和是136的平方,”他说道。

这意味着两个镜像组件之间有 18,496 种可能的组合。

整个系统的最大功耗为 108 瓦(而且通常情况下,它的功耗要低得多),这远远低于类似的 EPS 所能达到的 3000 瓦左右的功耗。

过去几年,谷歌已经部署了数千套这样的OCS系统。谷歌认为这是全球规模最大的OCS应用,而且优势相当明显。“我们在这方面已经投入了一段时间,”谷歌方面说道。

自己出手定制

整个系统的开发需要许多定制组件以及定制的生产设备。

帕洛玛光学(Palomar)控制系统 (OCS) 的生产意味着需要为 MEMS 反射镜、光纤准直器、光芯及其组成部件以及整个 OCS 产品开发定制的测试仪、对准和组装工作站。此外,还开发了一种定制的自动化对准工具,能够以亚微米级的精度将每个二维透镜阵列放置到位。

“我们还制造了收发器和环形器,”谷歌说,后者可以帮助光线沿一个方向穿过不同的端口。“环形器是我们发明的吗?不是,但它是我们设计、制造并大规模部署的定制组件吗?是的。”

他补充道:“这些光环形器蕴含着一些非常酷的技术,与以往任何技术相比,它可以将光纤数量减少一半。”

至于用于在数据中心发送和接收光信号的收发器,谷歌结合高速光学、电子和信号处理技术的发展,共同设计了跨越四代光互连速度(40、100、200、400GbE)的低成本波分复用收发器。

“我们发明了具有合适功率和损耗特性的收发器,因为这项技术面临的挑战之一是,我们现在会在两个电开关之间的路径上引入插入损耗。”

现在,光纤通道被光路开关取代,光在穿过设备时会因反射而损失部分强度。“我们必须设计出能够平衡成本、功耗和格式要求的收发器,以确保它们能够承受适度的插入损耗,”戉方面说道。

“我们相信我们拥有市面上能效最高的收发器之一。这确实促使我们确保能够从头到尾地进行工程设计,以充分利用这项技术。”

这一整体愿景的一部分是名为 Orion 的软件定义网络 (SDN) 层。谷歌说,Orion 的出现早于阿波罗计划,“所以我们当时已经进入了一个逻辑上集中化的控制平面”。

“从基于脊梁拓扑的逻辑集中式路由,到通过一定程度的流量工程来管理这种直接连接拓扑,这其中的差异——我并不是说这很容易,这花了很长时间,也投入了很多工程师,但如果我们之前没有 SDN 流量工程,那么这就不会是一次巨大的飞跃。”

该公司“本质上扩展了 Orion 及其路由控制平面,以管理这些直接连接拓扑,并最终根据交通信号实时执行流量工程和镜像的重新配置,但逻辑拓扑是实时的。

“因此,这是一项艰巨的任务,但它是可以想象的,而不是不可想象的。”

面临的挑战

Apollo计划面临的挑战之一是重配置时间。虽然Clos网络使用EPS系统将所有端口相互连接,但OCS的灵活性却不如EPS。如果您想更改直连架构以连接两个不同的点,镜像需要几秒钟才能重新配置,这比继续使用EPS要慢得多。

谷歌认为,克服这一难题的关键在于减少重新配置的频率。该公司在部署 OCS 时就考虑到了 OCS 系统,并以此为基础构建了数据中心基础设施。

“如果你聚集足够多的数据,就可以利用长期存在的通信模式,”谷歌方面说道。“我将使用谷歌的术语‘超级块’,它是由1到2000台服务器组成的聚合体。一定数量的数据会流向另一个超级块。”

“如果我在一个数据中心里有 20、30、40 个超级块(甚至可能更多),从超级块 X 到超级块 Y 的数据量相对于其他超级块来说并不是完全固定的,但存在一定的稳定性。

“因此,我们可以将所有数据保留在光域中,并将这些数据切换到目标超级块,全程保持光传输。如果通信模式发生变化,尤其是剧烈的变化,我们就可以重新配置拓扑结构。”

这也为数据中心内部网络的重新配置创造了机会。“如果我们需要更多的电分组交换机,我们可以动态地调配一个超级模块作为骨干网,”谷歌方面说道。

“想象一下,我们有一个没有连接任何服务器的超级区块,现在你可以招募这个超级区块来充当专用主干网,”他说,该系统将接管一个还没有服务器或未使用的区块。

“它不需要同步任何数据,就可以将数据传输出去。一个并非流量源的超级块本质上可以成为一个小型骨干网。如果你喜欢图论,也喜欢路由,这绝对是一个很棒的成果。而我恰好就很喜欢图论。”

值得投入

“光路交换机现在可以成为楼宇基础设施的一部分,”谷歌表示。“光子不关心数据是如何编码的,所以它们的传输速度可以从每秒10吉比特提升到40吉比特,再到200吉比特,400吉比特,甚至800吉比特及更高,而无需进行任何升级。”

谷歌方面支出表示,不同代的收发器可以在同一网络中运行,而谷歌则按照自己的节奏进行升级,“而不是遵循外部最先进的技术,后者基本上规定,一旦你从一代速度升级到另一代速度,你就必须关闭整个数据中心并重新开始。”

谷歌方面之言从客户的角度来看,最痛苦的是服务中断长达六个月,他们不得不将服务迁移到其他平台一段时间。”

“以我们的规模来说,这意味着我们要不断地进行人员调动,因为我们总要在某些方面进行升级,而且我们的服务部署在全球各地,有多个实例,这意味着我们的服务会一直受到这些变动的影响。”

同样,由于每代产品都可以使用相同的OCS系统,资本支出成本也得以降低,而EPS系统则需要连同收发器一起更换。该公司认为成本已下降高达70%。瓦赫达特表示:“节能效果也相当显著。”

保持轻量级通信方式将为谷歌节省数十亿美元,降低能源消耗,并减少延迟。

“我们目前是在超级模块级别进行这项工作,”谷歌方面说到说道。“我们能否找到更频繁的光纤重配置方法,从而将其进一步下推至机架顶部级别?因为这样做也会带来显著的优势。这是一个我们尚未完全解决的难题。”

该公司目前正致力于开发端口数量更多、插入损耗更低、重配置速度更快的OCS系统。“我认为,效率和可靠性的提升空间将由此而来,”谷歌方面指出。

谷歌认为,其影响可能非常巨大。“如今现代数据中心的二分带宽与整个互联网的带宽相当,”他说。

“换句话说,如果你把一个数据中心——我说的不仅仅是我们自己的数据中心,你最喜欢的超大规模数据中心也一样——把它切成两半,然后测量一下这两半之间的带宽,你会发现带宽和把互联网切成两半看到的带宽一样多。所以,这代表着巨大的通信量。”谷歌说。

(来源:本文由半导体行业观察编译自谷歌)

发布于:北京

相关推荐

在宣称“量子优越性”之后,谷歌的下一步是什么?
历时 7 年研制,赛微电子 MEMS-OCS 光链路交换器件实现量产
一文读懂:谷歌TPU芯片采用的OCS技术为何先进?中国光模块厂商持续受益
谷歌进一步限制数据分享,品牌备战黑五购物季
决定退出“份子钱交换习俗”的年轻人:很难,但很爽
当“光”成为AI的命门,曦智的“英伟达时刻”近了
Zoom的下一步?
谷歌已停用安卓工作资料中的附近分享功能
华为:持续坚持自主创新 构建自主可控的全光底座
亚马逊正开发交换芯片减轻对博通依赖:项目此前严格保密

网址: 谷歌分享:光交换的下一步 http://www.xishuta.com/newsview145775.html

所属分类:行业热点

推荐科技快讯