个人资料
正文

上海交大全光AI芯片登Science!比A100快百倍

(2025-12-19 03:36:07) 下一个


全球首个大规模全光生成式AI芯片,来自中国!

芯东西12月19日报道,今天,国际顶级学术期刊《科学(Science)》刊登了一项来自上海交通大学的最新研究All-optical synthesis chip for large-scale intelligent semantic vision generation(大规模智能语义视觉生成全光芯片)。这项研究是新一代算力芯片领域的重大突破,首次实现了支持大规模语义媒体生成模型的全光计算芯片。这篇论文被Science官方选为高光论文重点报道。

LightGen突破了光子计算领域的三大难题。其团队基于多模光学建立了光学潜空间(Optical Latent Space, OLS),实现了全光学条件下的维度变化,并提出了一种不依赖标签的训练算法。同时,该团队设计了高度集成的超表面结构,通过三维封装,在单芯片上集成了超过210万个光子神经元

LightGen在实验中实现了多种先进生成式AI任务,包括无需图像分块的512512分辨率语义图像生成、三维生成、视频语义操控、风格迁移以及去噪处理等。

当在特定任务中达到与Stable Diffusion、StyleGAN、NeRF和VGG-19相当的性能时,LightGen的端到端计算速度、能效和计算密度分别达到了3.5710? TOPS、6.6410 TOPS/W和 2.6210 TOPS/mm,这三项指标均比英伟达A100芯片高出两个数量级。

上海交通大学集成电路学院(信息与电子工程学院)陈一彤助理教授为这篇论文的第一作者及通讯作者。她长期致力于光计算领域的研究,其团队曾提出全模拟光电芯片ACCEL,国际首次实测验证了复杂智能任务中光计算的系统级算力优越性。2023年,她提出的PED光计算架构,被Science子刊称为首个全光生成网络。

陈一彤2019年本科毕业于清华大学钱学森班,2024年获清华大学自动化系博士学位。

三大挑战困住光子计算
集成规模、维度变化与训练算法

学界认为,光子计算是重塑传统计算范式最有潜力的方向之一。然而,目前大多数端到端的光子计算成果仍局限于判决类任务,例如图像分类和元音识别等等,未能扩展到生成式AI模型领域。
是什么限制了光子计算在生成式AI中的应用?LightGen团队总结了三大原因:
首先,先进的生成式AI模型通常需要数百万个神经元,以学习并嵌入足够的信息用于高维生成。而现有集成光子计算芯片通常仅能集成数千甚至数十个神经元。
如果通过数字电路对光子芯片进行互连和复用,则会引入显著的延迟和能耗,功耗甚至可能提升数个数量级,从而削弱光计算的优势。
另一个关键挑战是模拟光学信号的维度变化。生成模型需要合适的维度变化才能学到有用特征,但在纯光学系统中信息是以连续光斑的形式存在的,不像电子信号那样有明确的维度。
即使改变光子神经元的尺寸,也只是改了调制方式,光斑本身仍然是连续的、理论上无限维的信号,因此在全光学系统里很难精确定义或改变维度。
第三个挑战是训练算法。现有的分类型光子芯片通常依赖人工定义的输出作为真实标签进行优化。然而,生成式AI的目标通常是输出此前并不存在的数据,因此光子生成芯片亟需一种不依赖预定义真实标签的新型训练算法。
02.
光学潜空间实现维度转换
提出新算法BOGT告别标签依赖

为解决上述问题,陈一彤领衔的研究团队提出了LightGen。LightGen由光子编码器、光学潜空间和光子生成器组成。

LightGen的整体思路其实和电子生成模型很像,但成功把编码潜空间生成这套流程完全搬到了光学域里。
光子编码器由一系列集成衍射超表面构成,面积小于35mm,用于从高维图像域中提取低维特征。

编码后的光场通过耦合进入单模光纤阵列进行特征子采样,通过同时利用光的幅度和相位进行编码,使得光纤阵列中的光学潜空间含有丰富的信息。

由于单模光纤只允许基模传播,除基模外的其他模式无法耦合进入光学潜空间,因此,光学潜空间在全光学条件下完成了模拟光斑维度的转换,而不是像传统光子系统那样只是在无限维光场上做调制却无法控制维度。
LightGen利用光斑所携带的复数信息来表征高维潜变量。光纤阵列中每一个单模光纤对应一个光斑,形成具有不同幅度和相位的高斯光斑阵列。

由此,LightGen在图像域与光学潜域之间建立了桥梁。下图展示了在以狗脸数据训练的光学潜空间中均匀采样得到的输出结果。相近的光学潜空间值生成语义相似的图像,而相距较远的光学潜空间值生成语义差异明显的对象,表明光学潜空间满足连续性和自洽性,这是数学意义上潜空间进行合理生成所必需的特性。

光子编码器将原始图像嵌入到100维光学潜空间中,并通过t-SNE进行降维可视化,其分布如下图所示。不同毛色的狗被成功聚类,说明光学潜空间能有效嵌入图像中的细粒度特征。除前景外,背景特征(如草地与白色背景)也能被嵌入并区分。实验结果表明,光学潜空间的功能与电子变分自编码器(VAE)及-VAE相当。

在训练方面,LightGen团队提出了一种基于贝叶斯思想的无监督训练方法(BOGT),通过引入对语义数据概率分布的建模来提升生成质量,告别了对标签的依赖。
03.
集成超210万个光子神经元
计算速度比A100高两个数量级

论文称,LightGen能在高分辨率彩色图像上执行语义生成、去噪和风格迁移等多种任务。

下图展示了针对动物类别的实验生成结果。LightGen可生成512512分辨率的动物图像,涵盖不同类别、颜色、表情和背景。放大区域显示了丰富细节,如毛发纹理和眼睛反射光。

研究团队还对生成图像的特征进行了定量分析,结果显示其分类准确率与真实测试数据相当,表明LightGen生成的数据在整体和细节特征上均接近自然数据。

LightGen在语义去噪方面同样表现突出。自由空间模式与单模光纤基模之间的信息容量差异,使得LightGen在坏匹配像素比例(PBMP)较高的前提下,仍能有效去噪。

LightGen的另一大优势是无需将高分辨率图像切分为小块进行处理。通过三维封装,LightGen集成了超过210万个光子神经元,可直接处理512512分辨率的图像。

在风格迁移任务中,LightGen成功实现了印象派(梵高风格)、金属风格(马列维奇风格)和马赛克风格等多种转换,其定性与定量性能均可与VGG-19、StyleGAN和StyleID等相媲美。

与基于分块的方法相比,LightGen在处理全局结构和连续曲线方面具有显著优势,避免了块间不连续和结构破坏的问题。

LightGen还可从二维扩展至三维生成与语义操控,用于生成高分辨率图像和视频。

在室内场景中,LightGen可生成包含多种家具的256256分辨率图像。通过二维投影训练,LightGen无监督地学习了物体的三维结构及其在光学潜空间中的表示,性能可与NeRF相当。通过操控光学潜空间,LightGen可生成不同风格和视角的三维家具,在定性和PSNR指标上均与NeRF相当。

此外,光学潜空间中的潜变量直接对应生成对象的物理特征,使得语义操控具有良好的可解释性。实验表明,LightGen能在不干扰其他部分的情况下,精确操控目标特征。
研究团队将LightGen与最先进的电子和光子芯片在生成任务中的性能进行了对比。在保守估计下,LightGen在实验中实现了3.5710? TOPS的计算速度、6.6410 TOPS/W的能效和2.6210 TOPS/mm的计算密度,均比NVIDIA A100高出两个数量级以上。若采用更高速的空间光调制器,其理论计算速度可达5.6910? TOPS。
04.
结语:解决光子生成芯片三大瓶颈
未来可扩展至更高分辨率

LightGen同时突破了光子生成芯片的三个关键瓶颈:集成规模、全光学维度变换和训练算法。三维封装方案解决了集成规模问题,光学潜空间实现了全光学维度变换,而BOGT解决了对标签的依赖。
研究团队认为,通过直接增加超表面的像素数和层数、提高光学潜空间的维度或以分块生成的方式,LightGen可以进一步扩展到更高的处理分辨率。增加超表面规模通常会提升系统整体计算速度,因为总操作数增加,但这也需要更多的入射能量来维持足够的计算精度。
[ 打印 ]
评论
目前还没有任何评论
登录后才可评论.