
全球首个大规模全光生成式AI芯片,来自中国!
芯东西12月19日报道,今天,国际顶级学术期刊《科学(Science)》刊登了一项来自上海交通大学的最新研究All-optical synthesis chip for large-scale intelligent semantic vision generation(大规模智能语义视觉生成全光芯片)。这项研究是新一代算力芯片领域的重大突破,首次实现了支持大规模语义媒体生成模型的全光计算芯片。这篇论文被Science官方选为高光论文重点报道。
LightGen在实验中实现了多种先进生成式AI任务,包括无需图像分块的512512分辨率语义图像生成、三维生成、视频语义操控、风格迁移以及去噪处理等。
当在特定任务中达到与Stable Diffusion、StyleGAN、NeRF和VGG-19相当的性能时,LightGen的端到端计算速度、能效和计算密度分别达到了3.5710? TOPS、6.6410 TOPS/W和 2.6210 TOPS/mm,这三项指标均比英伟达A100芯片高出两个数量级。
上海交通大学集成电路学院(信息与电子工程学院)陈一彤助理教授为这篇论文的第一作者及通讯作者。她长期致力于光计算领域的研究,其团队曾提出全模拟光电芯片ACCEL,国际首次实测验证了复杂智能任务中光计算的系统级算力优越性。2023年,她提出的PED光计算架构,被Science子刊称为首个全光生成网络。
陈一彤2019年本科毕业于清华大学钱学森班,2024年获清华大学自动化系博士学位。
为解决上述问题,陈一彤领衔的研究团队提出了LightGen。LightGen由光子编码器、光学潜空间和光子生成器组成。
编码后的光场通过耦合进入单模光纤阵列进行特征子采样,通过同时利用光的幅度和相位进行编码,使得光纤阵列中的光学潜空间含有丰富的信息。
由此,LightGen在图像域与光学潜域之间建立了桥梁。下图展示了在以狗脸数据训练的光学潜空间中均匀采样得到的输出结果。相近的光学潜空间值生成语义相似的图像,而相距较远的光学潜空间值生成语义差异明显的对象,表明光学潜空间满足连续性和自洽性,这是数学意义上潜空间进行合理生成所必需的特性。
光子编码器将原始图像嵌入到100维光学潜空间中,并通过t-SNE进行降维可视化,其分布如下图所示。不同毛色的狗被成功聚类,说明光学潜空间能有效嵌入图像中的细粒度特征。除前景外,背景特征(如草地与白色背景)也能被嵌入并区分。实验结果表明,光学潜空间的功能与电子变分自编码器(VAE)及-VAE相当。
下图展示了针对动物类别的实验生成结果。LightGen可生成512512分辨率的动物图像,涵盖不同类别、颜色、表情和背景。放大区域显示了丰富细节,如毛发纹理和眼睛反射光。
研究团队还对生成图像的特征进行了定量分析,结果显示其分类准确率与真实测试数据相当,表明LightGen生成的数据在整体和细节特征上均接近自然数据。
LightGen在语义去噪方面同样表现突出。自由空间模式与单模光纤基模之间的信息容量差异,使得LightGen在坏匹配像素比例(PBMP)较高的前提下,仍能有效去噪。
在风格迁移任务中,LightGen成功实现了印象派(梵高风格)、金属风格(马列维奇风格)和马赛克风格等多种转换,其定性与定量性能均可与VGG-19、StyleGAN和StyleID等相媲美。
与基于分块的方法相比,LightGen在处理全局结构和连续曲线方面具有显著优势,避免了块间不连续和结构破坏的问题。
在室内场景中,LightGen可生成包含多种家具的256256分辨率图像。通过二维投影训练,LightGen无监督地学习了物体的三维结构及其在光学潜空间中的表示,性能可与NeRF相当。通过操控光学潜空间,LightGen可生成不同风格和视角的三维家具,在定性和PSNR指标上均与NeRF相当。