2005 (3)
2008 (126)
2010 (2)
2021 (2)
2025 (2)
感恩节过了,一切回归正常。回过头来补充几句“正经话”。
不少朋友说看了我为感恩节做的视频和与ChatGPT过招的过程后,感觉”细思极恐“。有朋友问从技术层面有没有什么解释。
那天的ChatGPT之所以表现得那么诡忌,一方面是因为它的一些缺陷,另一方面却是因为我的主观解读。今天的AI还没有到能够主动和我们作对的地步。我们的“细思”多少有些杯弓蛇影,自己吓自己。我当时有些主观带入,体会了一下人类可能面对的未来。
为什么图里明明有机器人而ChatGPT说没有
在ChatGPT里面产生图画其实用的是 ChatGPT 和 Dall.E 两个完全独立的系统。它们之间的交互非常简单。ChatGPT 自己并不能作图。它是把我的指令解析以后再传给 Dall.E。Dall.E 再解析 ChatGPT 提供的指令。然后根据自己的解析作图。ChatGPT不会分析Dall.E 产生的图。所以 Dall.E 最后画了什么 ChatGPT 并不知道。它只是假设 Dall.E 完全执行了它的指令。然后给我图的说明。所以当 Dall.E 不能完全满足 ChatGPT 给它的要求时,我们看到的图和图的描述就会不一致。
而对同样的描述,我在过程的前后带入了主观情绪,给出了不同的解读,有了AI和我作对的幻觉。所以不仅AI 会hallucinate, 我们人更会。
为什么ChatGPT会如此执着地把机器人进入我的图画里
这主要是因为ChatGPT 和 Dall.E 这类内容生成系统在处理包容性要求和排除性要求时能力有差异,特别是AI图像生成系统。
一般来说包容性的要求通常更可预测,更容易量化。例如,指定画面中不同种族人数。又比如要某种动物,或者某种视觉效果,这些是可以直接控制的,容易做到。但排除性的要求就比较难执行。排除性的要求通常需要对要求有更细致的理解,需要系统持续有效地监控整个内容生成的过程,并实时做出必要的调整。当内容在很大程度上是随机产生的时候,ChatGPT这种产生文本的系统可以把排除性要求做得很好。但是这对图像生成系统如 Dall.E 就要复杂很多,难很多。
识别并且排除特定元素比基于关键词生成图像更复杂。图像生成涉及到以一致的方式综合视觉元素。排除一个元素要求模型不仅要理解什么应该被留下,还要用适当的替代品填补那个概念或视觉空间,这增加了排除性要求复杂性。
Dall·E 和ChatGPT不同。它是通过解析指令中的关键词来工作,而不是像ChatGPT那样分析整个文本。Dall.E 重在识别和图像生成有关的主要元素和概念。在我的指令中,“人工智能时代”和“机器人”即使在ChatGPT解析以后,仍然是突出的关键词。尽管我指示排除机器人,因为训练数据很可能包含大量将“人工智能”与“机器人”视为相关概念的例子,Dall.E 在生成与人工智能相关的图像时,就可能会倾向于包含机器人。在这个过程中,我的“不要机器人”的要求可能就没有得到该有的权重,基本被忽视了。