正文

谷歌Nano Banana团队技术解密:图像生成不是算力之战,没有严格的人类评估体系,就没有一致性可言

(2025-11-30 03:10:02) 下一个

如果说上一代图像工具的使命,是帮你把脑海里的画勉强呈现出来,那 Nano Banana 想做的,就是把你心里的人物、风格与故事完整、稳定、成体系地呈现出来。而 Nano Banana Pro 的上线,更像是一场「现象级爆发」:朋友圈在刷屏,设计群在炸场,同人圈直接沸腾,全行业都被它点燃,创作的浪潮几乎是一瞬间席卷开来。

站在这场变化的正中央,是 Nicole Brtova 和 Hanza Swini Vasan。她们是谷歌 Nano Banana 的核心成员,也是把单图角色一致性做成 2025 年全球现象级话题的幕后推手。

在这场由红杉资本发起的深度对谈中,两位嘉宾几乎不谈那些模型有多强参数有多大的宏大叙事。她们更愿意沿着具体的使用场景追问下去:一张普通的 2D 照片,如何在不同角度、不同光线、不同场景里始终保持是同一个人?

对话的另一条主线,则落在工具边界上。Nicole 和 Hanza 多次提到,看似简单的需求比如只改动想改的地方没有提示词工程也能用好,在实现上远比想象中困难得多。

真正决定上限的,不只是算力规模和数据量,还有那些写不进论文的细节:多长的上下文窗口,怎样的人类评估标准,怎样的数据筛选才能让像本人变成可持续复现的能力,而不是偶尔惊艳的一次好运。随着能力被不断推高,谷歌也被推到更敏感的位置上:如何确保这样一套创作工具不会轻易被用来制造伪造内容?

两位嘉宾详细谈到 Synth ID 这套隐形水印体系,以及谷歌在内容标注、内部红队测试和外部合作上的投入。既要让普通用户敢用、乐于用,又要在深度伪造和信息安全的问题上留出足够的刹车距离,这种拿捏让人看到了大厂的谨慎,也顺带暴露出一片巨大的空白地带那些围绕具体工作流程、具体行业场景打造的创作和生产力工具,很可能留给初创公司去完成。

更长远的想象,落在个人体验的改变上。两位嘉宾都提到,未来一两年最期待看到的,并不是又多出多少更炫的特效,而是一件更朴素的事情:真正的个性化学习。教材不再千篇一律,讲解方式贴着每个人的背景和理解路径;复杂知识天然以图像、图表、短视频混合呈现,而不是一整页密密麻麻的段落文字。

到那时,人们做演示、准备汇报、给孩子讲故事,可能都不再从排版和找图开始,而是从一个更本质的问题出发:我到底想讲一个什么样的故事?

一张照片能撑起多大的想象力?

Stephanie Zhan:今天我们邀请到了Nicole Brtova和Hanza Swini Vasan,他们是谷歌Nano Banana图像模型背后的团队。这个模型最初只是一个凌晨两点定下的代号,如今已成为一种文化现象。他们将带我们了解实现单图像角色一致性的技术突破:高质量数据、长的多模态上下文窗口和严格的人工评估如何让单张照片实现可靠的角色一致性,以及为何工艺、基础设施和规模同等重要。

我们还会探讨推进技术前沿与实现广泛普及之间的权衡,以及这项技术的发展方向,包括多模态创作、个性化学习,以及兼具精细控制与自动化操作的专业用户界面。最后,我们将聊聊真正的AGI仍缺少哪些要素,以及初创企业现在应该布局的空白领域。希望大家喜欢本期节目。

Nicole、Hanza,非常感谢你们今天的到来。我们对Nano Banana这个风靡全球的模型充满好奇,想从一个有趣的问题开始。你们自己用Nano Banana创作过哪些作品,或者见过社区里最有创意的用法是什么?

Nicole Brtova:对我来说,最令人兴奋的一点虽然事后想来很明显,但我之前确实没预料到是它与视频模型的结合,能够实现跨场景的角色和场景一致性保留。

Pat Grady:现在这个工作流程流畅吗?实现起来难度大吗?

Hanza Swini Vasan:我看到大家确实在混合使用不同来源的各种视频工具和模型,所以目前流程可能还不算流畅。我知道有一些产品在尝试整合多个模型来提升流畅度,但Nano Banana推出前后,我看到的视频作品差异非常显著。现在的视频转场更流畅,更符合视频创作中自然切换场景的需求,这一点很出色。说实话,我之前完全没料到大家会立刻想到这种用法。

Nicole Brtova:不过还有一个我没想到的、很喜欢的用法,是人们通过巧妙的方式利用这个模型来学习新知识或消化信息。上周我遇到一个人,他用它来制作各种主题的思维导图。这很令人惊讶,因为文本渲染其实还不是我们模型的强项,但这个人通过复杂的提示词让模型输出了连贯的内容。他的父亲是一所大学的化学家,研究的领域非常专业,于是他把父亲的讲课内容输入到搭载Nano Banana的Gemini中,生成了条理清晰、视觉化且易于理解的思维导图。这是几十年来他们父子俩第一次能就父亲的工作展开深入交流,这真的很有意思,也是我之前完全没预料到的。

Hanza Swini Vasan:我觉得大家真的在想办法灵活运用这个模型。虽然它很出色,但显然还不完美,我们还有很多需要改进的地方。不过我很惊讶于大家找到的各种使用方式,他们用我们没预料到的输入方法激发模型的最佳性能,解锁了一些令人惊叹的功能。

Pat Grady:在模型开发过程中,有没有某个顿悟时刻让你们觉得这个模型一定会很出色?

Nicole Brtova:我有过一次。我们在开发过程中总会进行内部演示,大家会试用模型。有一次我上传了自己的照片,然后输入提示词:把我放在红毯上,要全身造型完全是满足虚荣心的要求。结果生成的图像真的很像我,我把它和我们之前所有的模型做了对比,发现没有其他模型能做到这一点,当时我特别兴奋。后来大家看到后都说好吧,知道了,你在红毯上呢。之后的几周里,其他人也开始上传自己的照片试用,才逐渐意识到这种效果有多神奇。现在大家用这个模型做得最多的事情,就是把自己变成3D人偶。比如想要一个虚拟玩具盒,里面有自己的人偶形象,甚至可以有好几个不同版本。这种能表达自我、以全新方式展现自己、甚至强化自我认同的感觉真的很有趣,那一刻我就觉得哇,这太赞了。

Stephanie Zhan:Nano Banana把你放在红毯上的效果,比其他模型出色在哪里?

Nicole Brtova:关键在于它生成的形象真的像我。对不熟悉的人,其实很难判断面部一致性。比如我看到一个AI生成的你的形象,可能觉得还不错,但你自己可能会说不对,我脸上的某些部分不像。所以这种判断只能由本人来做,这也是为什么我们现在让很多团队成员用自己的照片进行评估,因为只有这样才能准确判断模型生成的形象是否与本人一致,以及是否符合对熟悉面孔的认知。

Hanza Swini Vasan:我觉得当我们开始用自己的照片测试时,这种差异就很明显了。比如我经常见到Nicole,所以如果评估Nicole的形象和评估一个随机陌生人的形象,对模型能力的判断标准完全不同。角色一致性的保留对于这些模型的实用性和吸引力来说至关重要,但实现起来却出奇地困难,这也是很多其他模型未能做到位的原因。

Pat Grady:我觉得角色一致性不仅仅是模型规模扩大后的自然结果。我有两个问题:第一,虽然有些内容可能不便透露,但你们能分享一下是如何实现这一点的吗?第二,这是模型开发之初就明确设定的目标吗?

Hanza Swini Vasan:确实,有些细节不便多说,但可以说图像生成有不同的技术路径,这对最终效果有很大影响。而且这绝对是我们从一开始就设定的目标。

Nicole Brtova:之所以把它作为目标,是因为我们知道这是我们过去推出的模型所欠缺的。对我们来说,一致性本身就是一个重要目标。每次编辑图像时,你都希望保留部分内容,同时修改另一部分,但之前的模型在这方面表现不佳。这不仅让它在专业工作流程中难以发挥作用,也无法满足角色一致性的需求。多年来,甚至连广告商也向我们反馈:他们想把产品放在生活场景中展示,但产品必须100%还原原貌,否则就无法用于广告。所以我们知道市场有这个需求,模型也存在这个缺口,而且我们认为自己已经掌握了正确的方法,包括模型架构和数据方面,能够最终实现这个目标。不过让我们惊讶的是,当模型真正建成后,效果比预期还要好。

Hanza Swini Vasan:没错。就像Nicole说的,我们确实认为自己有了正确的方法,但在模型完成训练、实际投入使用之前,你永远不知道离目标还有多近。当时我们所有人都很惊讶。而且还有一点,大家在手机应用或Photoshop里编辑图像时,都希望未编辑的部分能得到高度保留。但根据模型的构建方式和设计决策不同,要实现这一点其实非常困难。不过人们确实很看重这一点。虽然看似基础,但从技术角度来说,不改动不想修改的部分这件事,难度其实远超预期。

Pat Grady:回到你在红毯上看到真正的自己那个时刻。你的同事们花了几周时间,用自己的照片测试后也有了同样的感受。我的问题是,除了这很像我这种定性判断,有没有量化的评估方法,能证明你们确实实现了最初设定的目标?

Hanza Swini Vasan:有的。但就像Nicole说的,面部一致性评估确实很难由他人完成。不过总体来说,我们发现在图像生成领域,人工评估起到了关键作用,甚至可以说是基础性的。我们有专门的团队帮助构建完善的评估工具和流程,让人工对这些细微差异进行评估。比如面部还原度、图像美感这类难以量化的指标。所以人工评估对我们来说是个重要的突破口。

Nicole Brtova:实际上,评估是多方面结合的,既有人工评估,也有大家常说的肉眼判断,还有社区测试。我们的社区测试先从内部开始,谷歌和DeepMind的艺术家会试用这些模型,高管们也会参与,这有助于我们构建定性的判断依据,比如这个模型出色在哪里。如果只看量化基准,你可能只会说它比之前的模型好10%,但这无法传达那种我终于能以全新方式看到自己或我终于能修复那张五岁时剪坏的全家福的情感价值。确实有人用它修复过老照片,而且效果很好。

所以我认为,要传达这种情感层面的意义,定性的用户反馈至关重要。我觉得这一点适用于很多生成式AI和AI功能,但在视觉媒体领域尤为明显。因为视觉内容的主观性很强,不像数学推理、逻辑推理那样,能有明确的标准答案作为依据,所以更容易通过自动化方式实现客观的量化评估。

Stephanie Zhan:仅通过一张2D人物照片就能实现如此高的角色一致性,难度非常大。你们能分享实现的技术突破吗?正是这些突破让你们实现了其他模型未能达到的角色一致性水平。

Hanza Swini Vasan:我觉得关键在于高质量的数据,这些数据能让模型学会泛化。而且很重要的一点是,Nano Banana基于Gemini模型开发,Gemini是一个多模态基础模型,接触过大量数据,具备出色的泛化能力。

Nicole Brtova:我认为这正是核心优势所在。需要泛化能力强的模型,才能在此基础上实现角色一致性。而且在Gemini这样的模型上开发,还有一个优势就是超长的上下文窗口。也就是说,你不仅可以上传一张自己的照片,还能上传多张。在输出端,你还能通过多轮交互与模型对话,这在一两年前是做不到的。之前我们需要用10张照片进行微调,还要等20分钟才能生成像自己的形象,这也是它无法普及的原因,操作太复杂,人们也没有那么多自己的照片。

所以现在的进步是多方面的:Gemini本身的性能提升、多模态上下文窗口带来的优势、长输出和长时间上下文保持能力,再加上我们对数据的重视和对问题的聚焦。其实很多技术的进步,都源于团队里有人对某个问题执念很深,比如我们团队有人特别关注文本渲染,所以我们的文本渲染效果才会不断提升。

Hanza Swini Vasan:没错,这绝不是简单地堆砌大量数据就能实现的。注重细节和质量无论是模型开发的各个环节,还是数据的筛选都至关重要。开发过程中有很多细微的设计决策和选择节点,而对高质量的追求、对细节的关注,这些都很关键。

Nicole Brtova:是的,这其实是AI工艺层面的东西,我们平时很少谈论,但它的重要性不言而喻。

当AI开始猜你想要,Nano Banana创作光谱有多宽?

Pat Grady:那负责开发并推出这个模型的团队规模有多大?

Nicole Brtova:需要很多人共同参与。

Hanza Swini Vasan:因为我们要在多个产品上同步推出,所以如果把所有相关人员算上,很容易就有几十甚至上百人。但核心的建模团队规模要小得多,还有很多人负责实现魔法效果。比如我们有很多基础设施团队,他们优化了技术栈的每一个环节,以应对巨大的使用需求,这非常棒。我们甚至开玩笑说,推出这个模型差不多需要一个小国的人力。

Pat Grady:开发这类模型时,你们是会针对特定用户群体或使用场景进行设计,还是先聚焦于提升模型能力,等能力成熟后再匹配用户群体?

Nicole Brtova:我觉得两者都有。在开始训练任何新模型前,我们都会对想要实现的能力有大致规划。而且有些设计决策,也会影响目标用户群体,比如推理速度。Nano Banana是一个对话式编辑器,所以我们希望它反应迅速,因为如果生成图像要等一两分钟,就没法实现对话式交互了。这也是图像模型相比视频模型的优势等待时间短。所以从一开始,我们就把它定位为面向消费者的模型。不过显然,它的能力对开发者产品和企业产品也同样有用。但实际上,消费者对它的热情远超我们以往推出的任何图像模型,因为它反应快,还能通过文本提示词轻松实现专业级效果。所以我们最初是面向消费者设计的,但后来发现它在其他领域也能发挥作用。

Hanza Swini Vasan:而且我觉得在理念上,它和我们之前开发的Imagine系列模型有一个重要区别。在Gemini图像生成模型中,泛化能力被视为更基础的能力。也就是说,我们既希望模型能擅长特定任务,比如还原人物形象、支持图像编辑,也希望它具备基础的视觉信息推理能力,从而自然涌现出一些额外功能。比如之前提到的,有人会上传数学题的手绘图,让模型生成解题过程,比如上传几何题,问这个角是多少度。这种能力就是基础能力的自然涌现,因为一个具备泛化能力的模型,同时拥有推理能力、数学理解能力和视觉理解能力。所以我觉得这两方面是相辅相成的。

Stephanie Zhan:出于好奇,我想了解一下Gemini、Nano Banana、VEO这些产品和模型之间的关联,它们都受益于Gemini的泛化能力和规模效应。你们是如何协同开发这些产品的?未来又有怎样的规划?

Nicole Brtova:我们的目标一直是打造一个最强大的全能模型,能处理任何模态的输入,并转化为任何模态的输出。这是我们的北极星目标,目前显然还没完全实现。所以在这个过程中,我们开发了很多专业模型,它们能在特定领域提供出色的效果,比如Imagine系列是图像生成领域的专业模型,VEO是视频生成和编辑领域的专业模型。我们开发这些模型,一方面是为了推进该模态的技术前沿,它们确实能带来实用价值,比如很多电影人会用VO辅助创作;另一方面,我们也能从这些模型中积累经验,反过来提升Gemini在该模态下的能力。图像领域的发展通常会比其他模态快一些,因为它只有一帧画面,训练和推理成本都更低。

所以我认为,图像领域现在的很多技术突破,大概在6到12个月后会出现在视频领域。这一直是我们的目标,形成了几个团队来做这个,图像领域现在正逐渐向Gemini靠拢,朝着全能模型的愿景迈进。未来其他模态也会如此,在此过程中,我们会推出各个模态下极具影响力的产品。比如V3因为在视频生成中加入了音频而备受好评,G3因为支持实时场景导航而很出色。要在一个模型中同时实现所有功能,目前难度还很大,所以这些专业模型在某种程度上也是试验场。但我相信,随着时间推移,Gemini最终应该能具备所有这些能力。

Stephanie Zhan:这太有意思了。

Pat Grady:那我们必须聊聊名字的由来。Nano Banana是个很棒的产品,而且这个名字好记又独特,我觉得它肯定为产品加分不少。这个名字是偶然想到的,还是有创意天才早就预料到它会成为爆款?

Hanza Swini Vasan:完全是偶然。很多人应该知道,我们的模型会先在内部平台Analina上测试,测试阶段需要给模型起代号。如果有人用过Analina就知道,你输入提示词后会收到两个模型的回复,这些模型在正式发布前都只有代号。当时大概是凌晨两点,我们要把模型上线到Analina,Nicole是我们很棒的产品经理,还有另一位经理叫Nina,有人给Nina发消息问给模型起什么名字好,她当时又累又困,然后就想出了这个名字,算是凌晨两点的灵感。

Pat Grady:原来是你啊。

Nicole Brtova:不是我,是我团队里的人起的,还有另一位产品经理也参与了,我不能抢功。但这个名字确实很棒:有趣、易读,还有对应的表情符号,这对品牌传播很重要。她当时没有想太多,而最棒的是,模型上线后大家都很认可这个名字。它很有谷歌的风格,很自然,最后反而像个营销神来之笔。但说实话,这就是个偶然,只是效果很好,大家都很喜欢,所以我们也顺势推广。现在打开Gemini应用,到处都能看到香蕉元素,因为之前很多人反馈找不到这个模型,所以我们才做了这样的设计。

Hanza Swini Vasan:没错,之前外界都在问Nano Banana在哪怎么用Nano Banana,我在谷歌的同事都问过我怎么用Nano Banana,我只能说就是Gemini啊,直接让它生成图像就行。但我觉得这也体现了谷歌的品牌特质。谷歌从一开始就是面向消费者的公司,所以用这样一个有趣的名字,也契合大家对谷歌有趣、有活力的印象。

而且有趣其实是实用的敲门砖,Nano Banana能让你把自己放在红毯上,实现童年时的职业梦想,这种有趣的体验是很好的切入点。但令人惊喜的是,人们在Gemini应用中试用后,会开始用它做其他事情,比如学习、解数学题,或者了解新知识。所以我觉得,无论是命名还是产品设计,有趣的价值有时会被低估,它能吸引用户尝试,帮助他们发现模型更多强大的功能。

Nicole Brtova:而且像我父母和他们的朋友这样的用户,也在使用这个模型。我觉得原因就是它的口碑操作简单、有趣、没有门槛。试用之后,大家会发现原来这么好用,交互很简单,没有技术门槛。现在很多人对技术,尤其是人工智能,还是会有畏惧心理。虽然聊天机器人的自然交互方式打破了很多障碍,但可能对年轻人更有效。我妈妈一开始用它生成各种有趣的图像,玩得很开心,后来发现它还能去除照片背景里的人,解决了实际问题,从好玩到实用的转变很自然。人们还会发现,它能生成图表,帮助理解复杂内容,所以它在易用性方面的价值也很突出。

Stephanie Zhan:那从模型和产品两个层面来看,你们未来的发展方向是什么?

Nicole Brtova:产品层面有几个方向。首先是消费者端,我们还有很多工作要做,让它变得更易用。你会发现,很多Nano Banana的提示词都有上百个词,人们需要复制粘贴到Gemini应用里才能使用,之所以愿意这么麻烦,是因为效果值得。但我们必须突破 提示词工程 这个阶段,让消费者用起来真正简单。然后是专业端,我们需要提供更精细的控制、更强的稳定性和可重复性,这样才能满足实际专业工作流程的需求。比如我们现在的编辑一致性已经很好,不会随意改动像素,但还没有达到100%完美。而专业人士需要100%的可靠性,他们甚至需要对画面中每一个像素进行精细控制,比如基于手势的操作。所以我们肯定要朝着这个方向推进。

还有一个我特别兴奋的通用方向,就是 信息可视化。就像我一开始提到的,有人巧妙利用Nano Banana 作思维导图,你可以想象这种能力的无限扩展。很多人是视觉学习者,而大语言模型在帮助人们消化和可视化信息方面的潜力,还远未被挖掘。每个人吸收信息的方式不同,有时需要图表,有时需要图像,有时可能需要短视频。比如学习生物课上的某个概念时,用短视频来辅助理解。所以这是一个全新的领域,我很期待模型不断优化,摆脱95%的输出都是文本的现状。文本虽然有用,但这并不是我们现实生活中获取信息的主要方式。

Stephanie Zhan:这很有意思。那从产品角度来说,你是不是在暗示,你们可能会进行垂直整合,围绕这项技术开发更多相关产品?同时也在暗示,随着时间推移,与这些模型的交互方式可能不再局限于纯语言和提示词,而是会加入更多用户界面元素?

Nicole Brtova:是的,没错。我当然认为聊天机器人是很好的用户入门方式。毕竟用户不需要学习新的界面,直接开口说自己想做什么就行。但对于视觉模态来说,聊天机器人的局限性会越来越明显,所以探索 未来的视觉创作画布 还有很大空间。关键是要打造出 功能丰富但不复杂 的产品。随着模型能做的事情越来越多,在这种开放式工具中,很难向用户说清 它有哪些限制该如何规避怎样高效使用。所以我很期待看到人们朝着这个方向开发产品。对我们来说,谷歌有个叫 Labs 的团队,由Josh Woodward领导,他们专门做这类前沿探索和实验,和我们合作非常紧密。他们会利用我们的前沿模型,去探索娱乐、创作和生产力的未来形态,还开发了Notebook LM和视频领域的Flow等产品。我很期待Flow未来能成为一个创作平台,让我们探索视觉创作的全新可能.

Hanza Swini Vasan:短期来看,很明显这个模型还有不完善的地方。它需要每次都能按预期稳定运行,而不只是大部分时候可行,还要做到极致流畅,修复所有性能上的细微不一致问题。长期来看Nicole已经提到过核心方向,对我而言,就是要实现真正丰富的多模态生成。现在如果你让Gemini解释某个内容,它通常只会输出文本,除非你明确要求生成图像。但回想过去10到20年里成功的学习平台,比如从YouTube起步的Khan Academy,或是图片丰富的维基百科,它们都极具图像导向性。比如查询任何数学知识,都会看到大量图表,这种视觉化呈现本该成为模型使用流程中自然的一部分。而要实现这一点,从建模角度来说,还是要回归到我们之前讨论的多模态理解能力,以及模态间的无缝泛化能力。

Nicole Brtova:另外一个有趣的方向是,我们在思考如何让这些模型更主动地调用合适的内容无论是代码、图像还是视频只要符合用户的需求意图。我职业生涯初期是做咨询的,所以很明显,我当时做了很多幻灯片,现在也还在做。我发现有些使用场景下,人们其实并不想深入参与创作的细节。比如,当你要向stakeholders汇报项目进展时,你可能只想提供一些背景信息,可能是会议记录,可能是几个要点,也可能是你过去做的其他幻灯片,然后希望Gemini能帮你完成所有工作:整合幻灯片、排版、生成合适的视觉元素,让内容更易于理解。这类事情你可能并不想亲自参与,这就涉及到了智能代理行为。

但对于另一些创意工作流程来说,用户其实是想亲自创作的。他们想深入细节,想思考什么样的用户界面能让目标实现更便捷。比如,如果我真的喜欢设计自己的房子,那我可能就想亲自尝试调整材质、搭配颜色,或者看看拆掉这面墙会是什么效果。所以我认为,这里存在一种需求光谱:一端是完全脱手让模型根据任务自动调用相关视觉素材和资源;另一端是优化创意流程让创作过程更有趣,减少繁琐操作,打破现有工具的技术壁垒。

Hanza Swini Vasan:简单来说,就是要在两个极端之间找到平衡。一方面给用户提供他们想要的精细控制也就是精准操作的权限;另一方面,让模型能够理解用户的需求,预判他们的需求和期望的结果,然后自动完成中间所有的衔接工作。

Nicole Brtova:没错,这就像现在请专业人士做事一样。比如请设计师,你给出需求,他们就会利用专业知识完成所有工作。而现在的模型在很多领域还做不到这一点。

Pat Grady:那你认为这个领域接下来的竞争焦点会是什么?

Nicole Brtova:首先,提升模型能力还有很大空间。比如处理任何输入、输出任何模态的全能模型,目前还没人能完全实现。但要推动技术落地,有两个关键点:一是用户界面,我们现在太依赖聊天机器人了,它虽然是好的入门方式,但无法满足所有需求。所以需要更深入地思考用户是谁他们要做什么技术如何提供帮助,然后围绕这些问题构建产品。这应该是一个重要方向。

Pat Grady:那你们觉得未来5到10年,技术前沿的推进速度会和过去几年一样快吗?

Nicole Brtova:未来5到10年感觉就像20年后一样遥远,这个领域的发展速度太快了。你们可能也有同感。两年前我就觉得发展很快,现在看来,速度比两年前还要快。

谷歌怎么给生成内容系上安全绳?

Pat Grady:好的,我要问一个完全不同的问题。谷歌在深度伪造这类问题上一直很谨慎,也很关注。我想知道,当你们看到这个模型的强大能力时,会不会有这样的讨论:如何确保人们不会用它做坏事?谷歌内部是如何进行这类讨论的?你们对最终的应对方案满意吗?

Nicole Brtova:这其实是一个不断演变的领域,因为我们需要在给用户创意自由和避免严重危害之间找到平衡,既不能让限制过于严格,影响用户使用,也要防范最坏的情况。这是我们一直在深入讨论的平衡问题。比如,模型生成的内容会有明显的水印,标注由Gemini生成,直观表明这是AI内容;而且我们所有模型生成的内容无论是图像、视频还是音频都嵌入了Synth ID,这是一种隐形水印技术。这些都是我们用于验证内容是否为AI生成的手段,包括显性和隐性的。我们在这方面投入很大,因为我们认为,让用户能识别这不是真实视频或图像,这一点至关重要。

此外,在模型开发过程中,我们会进行大量内部测试,也会和外部合作伙伴合作。因为随着模型能力增强,会出现新的攻击方式,需要新的防范措施。这是模型开发中非常重要的一环,我们会持续投入。而且随着模型能力提升、可实现的功能增多,我们也需要不断开发新的防范措施,确保在不造成危害的同时,还能让用户充分发挥创意、掌控工具。

Hanza Swini Vasan:我觉得这种平衡非常难把握。因为总会有人善意使用工具,也总会有人恶意使用。而且这涉及到一个问题:工具本身是否需要承担责任?所以我们对此非常谨慎。用户当然也要对自己的使用行为负责,但Synth ID确实是一项重要技术,它让我们能向人们开放这些能力,同时又能保留验证内容真实性的手段,从而应对虚假信息的风险。但这确实是个复杂的问题,我看到所有人都在严肃对待,也有很多关于如何平衡的讨论。

Stephanie Zhan:那Synth ID现在是行业标准吗?

Hanza Swini Vasan:它是谷歌的标准。谷歌的Imagine系列、VO等产品,在任何平台上使用时,生成的内容都带有Synth ID。

Pat Grady:好的,既然你们说未来5到10年变化太快,不好预测,那我们就聚焦未来1到3年。我有两个问题:第一,现在只能想象的事情,未来1到3年里哪些会成为可能?第二,这些变化会给我们的生活带来什么影响?

Nicole Brtova:我真心希望一两年后,我们能拥有个性化导师和个性化教材,这是很有意义的。如果人们的学习风格和起点不同,就没有理由使用相同的教材,但现在的教育体系就是这样的。而有了这些技术突破,我认为实现个性化学习是完全可能的:大型语言模型可以作为导师,先了解你的学习风格和兴趣点。比如你喜欢篮球,那它就用篮球类比来解释物理知识。我对学习变得高度个性化这件事非常期待,而且这看起来是可以实现的。当然,我们必须确保模型不产生幻觉,对事实性有很高的要求,所以需要基于真实世界的内容。但这个方向真的很让人兴奋,它能为人们消除很多学习障碍回答你第二个问题,我认为这会让学习任何知识变得更容易,而且是以高度贴合个人需求的方式,这在现在是做不到的。

Pat Grady:那这有可能成为谷歌的产品吗?

Nicole Brtova:值得有人去探索。

Hanza Swini Vasan:而且我觉得,这些技术对我们生活和工作方式的改变,现在已经能看到一些迹象了。因为我们自己就在大量使用这些模型。比如我要结婚了,我们的婚礼预告就是用这个模型做的。

我认为未来会出现的变化是:模型带来的效率提升,会让个人能完成的工作量大幅增加。这也是创新加速的原因之一。现在我们有代码助手,能用模型筛选信息、分析海量数据,这些都让我们的工作效率比两年前提升了一个数量级。不过这目前主要体现在科技行业,其他很多行业还没有把这些技术整合到工作流程或工具中。所以有些人会担心AI会取代我,但至少我看到的是,它其实是改变了个人能完成的工作量。

至于是对企业还是对经济产生什么影响,我还不确定,但它肯定能让人们更有能力在相同时间内完成更多事情。比如我有做咨询的朋友,他们要花两小时做幻灯片,调整布局、移动图标,未来他们可能就不用做这些繁琐的工作了,而是能把时间用在思考幻灯片内容和客户沟通上。我希望一两年后能看到这样的变化。

在Google不碰的Workflow领域,Nano Banana催生了多少新可能?

Stephanie Zhan:从技术发展趋势来看,你们觉得有哪些领域是初创企业可以探索,而谷歌可能不会涉足的?

Nicole Brtova:即使是在创意工具领域,也有很多空间。比如探索未来用户界面的形态如何实现创意控制如何整合各种功能。现在很多创意从业者需要在多个工具间切换:用大型语言模型构思概念,用图像模型设计关键帧,花大量时间调整,再用视频模型生成视频,之后还要用其他工具添加音效和音乐,最后用传统软件进行深度编辑。

所以这类基于工作流程的工具,未来可能会在很多垂直领域涌现。创意领域只是其中一个例子。比如可能会有针对咨询行业的工具,帮助他们更高效地制作幻灯片、演示文稿和提案文档。这些领域有很多机会,而一些大公司可能不会涉足。

Hanza Swini Vasan:没错,很多领域都需要如何让技术适配特定工作流程的解决方案,比如销售、金融。初创企业的优势在于,它们能深入了解特定客户的需求、聚焦细分场景,然后构建应用层解决方案;而我们谷歌更关注底层核心技术。

Nicole Brtova:而且我真的很开心看到这么多人对这个模型感兴趣。我身边的很多人阿姨、叔叔、父母、朋友都用过聊天机器人,用它查信息。我妈妈还喜欢用聊天机器人查健康相关的内容。但视觉媒体有一种特别的魅力,它不只是有趣,还能让人兴奋、直观易懂。视觉是人类体验生活的重要方式,看到它能在情感上打动人们,让大家感到兴奋,这是我觉得最棒的一点。

Stephanie Zhan:我的孩子也很喜欢它。我三岁的儿子把我们家狗的牵引绳缠在自己身上,扮成战士的样子。我给他拍了照,用模型把他变成了战士超级英雄。

Hanza Swini Vasan:太酷了。

Stephanie Zhan:这让他觉得自己像个超人。而且我丈夫会用谷歌Storybook给他读故事,这些故事都是关于他在学校学到的道理,比如和同学在操场发生小矛盾,或者适应新学校。模型生成的角色很像他、我丈夫、我、我们家的狗,还有我们的女儿,故事里还融入了我们想教给他的道理,这就是你之前说的个性化。我真的很期待这样的未来,对他来说,成长环境会和我们完全不同,这太棒了。

Nicole Brtova:因为这类只给一两个人看的故事,以前是不可能制作出来的。别人可能也不想看,但对我们自己来说很有意义。我觉得我们现在真正做到了讲述以前无法讲述的故事。就像相机普及后,任何人都能捕捉现实一样,现在我们能捕捉人们的想象力,为人们提供工具,让他们能把脑海中的想法以视觉形式呈现出来,而这在以前是做不到的,因为没有工具,也没有使用工具的知识。这真的非常棒。

Pat Grady:说得真好。

Stephanie Zhan:非常感谢你们的到来。

Nicole Brtova和Hanza Swini Vasan:能来参加节目也很开心。

[ 打印 ]
评论
目前还没有任何评论
登录后才可评论.