个人资料
tiantianlu02 (热门博主)
  • 博客访问:
正文

伟大的A.I.觉醒 (二)

(2017-01-13 15:17:55) 下一个

第一部分:学习机器

  1. 谷歌大脑的诞生

Jeff Dean(杰夫·迪恩),虽然他的头衔是高级研究员,他事实上是谷歌大脑的头。 Dean是一个精瘦,高效能的男人,拥有一个长而窄的脸,深深的眼睛和一种肥皂盒赛车迷的热忱。作为医学人类学家和公共卫生流行病学家的儿子,Dean在世界各地 -- 明尼苏达州,夏威夷,波士顿,阿肯色州,日内瓦,乌干达,索马里,亚特兰大等地长大。在高中和大学期间,他写的软件就为世界卫生组织所用。他自1999年以来就一直在Google工作,是第25名员工,从那时开始的所有重要项目的核心软件系统都经过他的手。公司文化的一个受人尊敬的神器就叫Jeff Dean Facts (杰夫·迪恩趣事),以Chuck Norris Facts(译注:查克·诺里斯-西部片打星)查克·诺里斯趣事的风格写成:“Jeff Dean的PIN(密码)是pi(圆周率)的最后四位数字。” “当Alexander Graham Bell(亚历山大·格林·贝尔)发明电话时,他看到了一个来自Jeff Dean的未接来电。” “Jeff Dean在一个最高级别为10的系统中晋升到11级。”(最后这个是真的。)

2011年初的一天,Dean走进了谷歌园区的一个“微型厨房” –“ Googley” 一词指的是在山景城大部分大楼各个楼层都有的共享休息空间,碰到一个年轻的斯坦福计算机科学教授Andrew Ng(吴恩达),他是公司聘请的顾问。 Ng告诉Dean他最近帮助启动了一个公司内部的项目Marvin(以著名的A.I.先锋马文·明斯基命名),实验用灵活的数字“神经网络”来松散地模仿大脑的架构。 Dean自己1990年在明尼苏达大学读本科的时候,正是这个方法被主流接受的一个短暂窗口,他曾做过一个这个技术的原始版本。在过去的五年中,在神经网络上工作的学者数量已经开始再次增长,从少数几个人到目前的几十人。 Ng告诉Dean,由谷歌的秘密X实验室资助的Marvin项目已经取得了一些有希望的结果。

Dean很感兴趣,他把自己 “20%” 的时间放在这个项目上,(Google要求每个员工把部分工作时间贡献在他/她的核心工作以外的项目上)。他很快推荐给Ng另一位有神经科学背景的同事Greg Corrado(Corrado在研究生院时简单地学过这个技术,但严格地说更多是出于一种历史好奇心,“还好那天上课时我没开小差,”他开玩笑地说。)晚春的时候,他们找来了Ng最好的 研究生,Quoc Le,作为项目的第一个实习生。 那时一些Google工程师开始用另一个名字提到Marvin项目: Google Brain(谷歌大脑)。

1956年夏天在达特茅斯一个类似大脑的宪法大会上 “人工智能”一词诞生,大多数研究人员一直认为创造A.I的最佳方案将是编写一个非常宏大,全面的程序,列出逻辑推理的规则和关于世界的充足知识。例如,如果你想从英语翻译成日语,你将把所有的英语语法规则编入计算机,然后输入牛津英语词典中包含的所有定义和所有的日语语法规则,以及日语词典中的所有单词,这一切完成后,提供一个原文句子,然后让它形成相应的目标语言句子。你会给机器一个语言地图,就像博尔赫斯说的,国土大小的地图。这种观点通常被称为“符号A.I.” -- 因为它的认知定义是基于符号逻辑 --- 或者贬义来说,“老式A.I.”

老式方法有两个主要问题。 第一,对人类来说非常耗时。 第二,它只有在规则和定义非常清楚的领域才真正起作用:比如数学或象棋。 然而翻译是一个这种方法在一个领域中惨败的例子,因为词不能只局限于他们在字典上的定义,语言的例外往往比它的规则更多。这样的系统最常见的是有可能将“农业部长”翻译为“农业牧师”。符号A.I对于数学和国际象棋来说工作得极佳,它的支持者因此想当然地认为没有比数学和国际象棋更能代表“通用智力”的了。

但是这个系统有其局限。 在20世纪80年代,卡内基梅隆的机器人研究员指出,很容易让电脑做成人的事情,但几乎不可能让他们做一个1岁的孩子可以做的事情,如抓一个球或识别一只猫。 到20世纪90年代,尽管计算机象棋有了长足长进,我们仍然远离人工智能很远。

一直以来对A.I.还有另外一个愿景 -- 一个不同意见 -- 其中计算机将从底层学起(从数据)而不是从上到下(从规则)学习。 这个概念可追溯到20世纪40年代初,研究人员发现灵活自动智能的最佳模型就是大脑本身。 毕竟一个脑子就是是一堆称为神经元的元件,他们把电荷传递给他们的邻居,或者不传递。 重要的是个体的神经元本身要少于它们之间的多重连接。 这种结构,简便地为大脑提供了丰富的适应性优势。 大脑可以在信息不佳或缺失的情况下运作; 它可以承受重大的损害而不会完全失去控制; 它可以以非常有效的方式存储大量的知识; 它可以隔离不同的模式但扔保留处理歧义所必需的混沌。

没有理由你不用电子形式来试图模仿这种结构,在1943年人们发现排组简单的人工神经元可以执行基本的逻辑功能。至少在理论上,他们也可以学习我们的行为方式。 拥有生活经历,根据人特定的试错,人神经元之间的突触连接会变得更强或更弱。 人工神经网络可以做类似的事情,根据引导的试错法,人工神经元之间的数字关系会逐步改变。 它不需要用预先固定的规则编程。 相反,它会改写自身以反映所吸收数据中的模式。

这种对人工智能的态度是进化论而不是创造论。 如果你想要一个可以适应其环境的灵活机制,一个有适应性的东西,你不想从国际象棋规则的灌输开始。 你会从非常基本的能力 -- 感官知觉和运动控制开始,希望先进的技能会有机地出现。 人类不是通过记忆字典和语法书来学习理解语言的,所以为什么我们指望我们的电脑这样做?

谷歌大脑是第一个致力于发掘以这种A.I.思维方式所包含的可能性的商业机构。 Dean,Corrado和Ng开始的工作是一个兼职,合作的实验,但他们取得了神速的进展。他们从最新的理论大纲以及自20世纪80年代和90年代以来已经发表的想法中获取了他们建模的灵感,并利用了公司无与伦比的数据储备和庞大的计算基础设施。 他们用大量“标记”数据库-- 例如具有正确转录的语音文件--来教这个网络,从而让计算机提升了它们的回应来更好地与现实匹配。

“动物眼睛的进化是其进化过程中的一个巨大的发展,” 有一天Dean以他一贯的低调告诉我。 我们像往常一样坐在一个有白板的会议室,在上面他画了一个拥挤,蜿蜒的谷歌大脑的时间轴以及它与神经网络当代历史拐点的关系。 “现在电脑有眼睛。 我们可以在它现有的明白照片的能力上进行开发。 机器人将彻底改变。 他们将能够在一个未知的环境中运转,解决许多不同的问题。”他们正在建设中的这些能力看起来可能很原始,但它们的影响是深远的。

 

  1. 异类实习生

在其存在的第一年,如Dean所说,谷歌大脑开发相当一个1岁孩子智能的机器已经取得了很大的效果。 它的语音识别团队将其旧系统的一部分换为神经网络,突然之间获得了20年间最好的质量改进。 他们系统的对象识别能力提高了一个数量级。 这不是因为谷歌大脑的员工在短短一年内产生了一系列让人震惊的新想法。 这是因为谷歌终于投入了资源 -- 在计算机数量和越来越多的开发人员数量上 – 为已经存在了很长时间的轮廓填补细节。

这些现存和被忽视的概念的重大意义是由一位叫Geoffrey Hinton的四处迁徙的英国智者提出和定义的。 在谷歌大脑建立的第二年,在Andrew Ng离开后Hinton被招聘到了谷歌大脑。 (Ng现在领导百度的1300人A.I.团队。)Hinton只想离开在他在多伦多大学的职位三个月,所以由于神秘的合同原因,他不得不被聘为实习生。 在实习生培训时,培训领导会说“输入您的LDAP” -- 一个用户登录 -- 他问培训助理“什么是LDAP?” 所有参加培训的聪明的25岁实习生都知道深度学习是人工智能的根基,他们忍不住讥笑:“那个老家伙是谁? 他怎么这么不开窍?”

“在午餐时间,”Hinton说,“排队的人中有人大叫:”Hinton教授! 我选过你的课! 你在这里干什么?” 此后就一切正常了。

几个月后,Hinton和他的两个学生在一个称为ImageNet的开源集合运行的大型图像识别竞赛中展示了真正惊人的进步,这个竞赛不仅要求计算机识别猴子,而且要区分蜘蛛猴和 吼猴,还有天知道多少不同品种的猫。 Google很快就给了Hinton和他的学生工作。 他们接受了。 “我以为他们对我们的I.P.(知识产权)感兴趣,”他说。 “结果是他们对我们感兴趣。”

Hinton来自一个英国古老的家族,像达尔文家族一样,他们装点了知识领域里奇奇怪怪的维度,不管是从事什么职业,他们都预期顺便为天文学或流体力学中的小问题做点贡献。他的曾曾祖父是乔治·布尔,他在符号逻辑上的奠基工作是计算机的根基;另一位曾曾祖父是一位着名的外科医生,他的父亲是一个冒险的昆虫学家,他的父亲的表哥是一位洛斯阿拉莫斯(译注:美国核试验室)的研究员; 这样的单子还很长。Hinton在剑桥和爱丁堡上学,然后在卡内基梅隆大学教书,最后他去了多伦多大学,现在他仍然在那里兼职一半时间。 (他的工作长期以来一直受到加拿大政府的慷慨支持。)我在他的多伦多谷歌办公室里访问了他。他乱糟糟的黄灰头发向前梳,有一种成熟的诺埃尔·加拉格尔风格,穿着一件老是松的宽松条纹衬衫,一个椭圆形的眼镜滑落在他突出的鼻子尖端。他说话的时候有一种坚定而含混的机智,他会说,“计算机会比美国人更早理解讽刺。”

自从1960年代末他在剑桥大学本科学习以来,Hinton一直致力于神经网络研究,他被认为是这个领域在当代的先驱。在大多数时间,每当他谈到机器学习,人们都觉得他在谈论托勒密球或是蚂蟥吸血。因着一个过度宣传的项目Perceptron,人们认为神经网络是一个不现实的的愚蠢主意。Perceptron是一个20世纪50年代后期由康奈尔心理学家Frank Rosenblatt开发出的一个人工神经网络。 “纽约时报”报道说它的赞助单位美国海军期望这个机器“能够走路,说话,看,写,再现自己,意识到它自己的存在”。结果它什么都没有做到。美国人工智能系主任马文·明斯基(Marvin Minsky)曾在1954年他的普林斯顿论文中研究过神经网络,但是他越来越厌倦Bronx Science的Rosenblatt对神经范式的夸张宣传,(他也在争取国防部的资金。)与其他M.I.T.同事一起,明斯基出版了一本书,证明Perceptron连一些极其简单的问题都永远无法解决。

明斯基对Perceptron的批评只延伸到一个“层面”的网络,即在机器输入和机器生成之间的一层人造神经元 -- 后来在生活中,他阐述了与当代深度学习非常相似的想法。但是当时Hinton已经知道,如果资源许可,复杂的任务可以在多个层面中进行。对神经网络最简单的描述是,它是一个根据其在数据中发现模式的能力从而进行分类或预测的机器。有一个层面,你只可以找到简单的模式; 有多个层面,你可以寻找模式的模式。以图像识别为例,它依赖于一个称为“卷积神经网络”的功能。(1998年一篇开创性论文对此作出了阐述,他的主要作者是一个名叫Yann LeCun的法国人,他在Hinton的多伦多博士站做研究,现在他在Facebook指导一个庞大的AI项目。)网络的第一层学习识别一个“边缘”的非常基本的视觉效果,意味着一个无(off像素)之后有一个有(on像素)而反之亦然。这个网络接下来的每个层面都在前一层面的基础上寻找模式。一个边缘的图案可以是圆形或矩形。圆形或矩形的图案可能是面部,等等。这或多或少地类似于人类以越来越抽象的方式把视网膜中的光感受器信息返回并通过大脑的视觉皮层来组合在一起的方式。从理论上说在每个步骤里不相关的细节都被排除了。如果几个边缘和圆圈合在一起成为一个面孔,你不关心这个脸是在视野中的哪个位置; 你只关心它是一张脸。

而多层“深度”神经网络的问题是它的试错法部分非常复杂。 在单一层面很容易。 想象一下,你正在和一个孩子玩。 你告诉孩子,“拿起绿色的球,把它放入盒子A”。孩子拿起一个绿色的球,把它放入盒子B。你说,“再试一次把绿色球放在盒子A里”。 孩子放进了盒A。 棒极了。现在想象一下你告诉孩子,“拿起一个绿色的球,穿过3号门,把绿色的球放入盒子A。”孩子拿一个红色的球,穿过写着2的门,把红色的球放入盒子 B。你如何纠正孩子? 你不能只是重复你的初始指令,因为孩子不知道他在哪一点错了。 在现实生活中,你可以从举起红色球和绿色球开始,说“红球,绿球”。然而机器学习的重点就是避免这种明确的指导。 就在20世纪70年代末和80年代这个领域停滞不前的过程中,Hinton和其他几个人接着发明了一个解决方案(或者说重新发明一个旧的)解决这个分层错误的问题,计算机科学家对神经网络的兴趣短暂地重现了。 “人们对此非常兴奋,”他说。 “但我们吹过头了。”计算机科学家很快觉得像Hinton这样的人都是怪人和神秘主义者。

但是这些想法在哲学家和心理学家之间仍然很受欢迎,他们称之为“连接主义”或“平行分布式处理”。“对这个想法,”Hinton告诉我说,“还有几个人保持着它的火炬燃烧,这是一个很好的神话。 这是真正的人工智能。心理学界很多人相信这种方法,但是他们做不出来。” 尽管加拿大政府很慷慨,但Hinton也做不出来。 “我们这派的人一直说我们所缺的就是足够的计算能力或足够的数据。‘是啊,如果我有一个大家伙它一定能行’,这不很有说服力。”

 

  1. 深度学习的深层解释

当Pichai说,Google今后将是“A.I. 第一”, 他不只是提出公司的经营战略; 他投入了公司的很多资源来实现这个长期以来不可行的想法。 Pichai的资源分配确保像Dean这样的人能够确保像Hinton这样的人最终能拥有足够的计算机和足够的数据来做出有说服力的论证。 一个大脑平均有大约1000亿个神经元。 每个神经元连接到多达10,000个其他神经元,这意味着神经突触的数量在100万亿和1000万亿之间。 如果在20世纪40年代提出一个类似的简单人工神经网络,任何试图复制这种技术的努力都是不可想象的。 我们仍然离建立这样一个规模的网络还很遥远,但是谷歌大脑的投资使创建了一个与小老鼠大脑相当的人工神经网络成为可能。

然而,为了理解为什么规模如此重要,你必须从了解机器智能处理数据的技术细节开始。 很多我们对A.I.的疑惧出于这样的认识,就是A.I.像一个只是在图书馆里吸空知识的反社会天才,并且人工智能有一天可以让回形针把人类当作像蚂蚁或莴苣一样来对待。 这完全不是那么回事。 他们所做的一切就是把信息重组来寻找首先是共同点 -- 基本模式,然后是更复杂的模式 -- 至少在目前最大的危险是我们喂他们的信息从根本来说是充满偏见的。

如果这个简短的解释似乎足够令人放心,请非技术读者跳到关于猫的下一段。 如果你觉得不够放心,请继续阅读。 (幸运的是这部分也是关于猫的)。

想象一下,你想用旧的符号A.I模型来编写一个猫识别器。你好多天不眠不休往机器上传关于“猫”的无穷详尽的定义。你告诉它,一只猫有四条腿,尖尖的耳朵,猫胡子和尾巴等等。 所有这些信息都存储在称为Cat的内存中的特殊位置。 现在你给它看一张图片。 首先,机器必须分离出图像中的各种不同元素。然后它必须使用存储在其内存中的规则来判断这些元素。 如果(腿 = 4)和如果(耳朵 = 尖)和如果(猫胡子 = yes)和如果(尾巴= yes)和如果(表情 = 高傲),那么(猫 = yes)。 但是,如果你给这只猫识别器看一个苏格兰折耳猫(一个由于珍贵的遗传缺陷导致双耳下垂卷起的令人心痛的猫品种), 我们的符号A.I. 看到(耳朵=尖的),庄严地摇摇头,“不是猫”。它是超级按章取义或“脆弱”。即使最笨的孩童也比符号A.I显示出更大的引申能力。

现在再想象一下,你尝试在神经网络上做同样的事情,而不是硬把一组分类的规则存储在计算机内存里的某个地方。没有特别的地方来存“猫”的定义,只有一大滩互联的开关,就像在一条路上的分叉。在大滩的一侧,你给它输入(图像); 在另一侧,你给它看相应的输出(标签)。然后,你只需告诉它通过对所有这些互连的开关进行单独调试自己去完成任务,只要输入和输出正确地应对起来,数据应该采取什么路径并无所谓。训练是一个开掘复杂的迷宫隧道通过大滩的过程,隧道把输入连接到其正确的输出上,你有越多的训练数据,你就可以挖更多更复杂的隧道。一旦训练完成后,大滩的中间就有足够的通道,它就可以对从未见过的数据进行可靠的预测。这被称为“监督学习”。

网络需要这么多神经元和这么多数据的原因在于,它的功用在某些地方就像一个巨型的机器民主。 想象一下,你想训练一台计算机来区分五个不同的东西。 你的网络是由数百万和数百万的神经元“选民”组成,每个人都有五张不同的卡片:一张是猫,一张是狗,一张是蜘蛛猴,一张是勺子,一张是除颤器。 你向你的选民展示一张照片,问“这是猫,狗,蜘蛛猴,勺子还是除颤器?”所有以同样方式投票的神经元集中在一起,网络工头从上面看下来认出大多数的分类:“一只狗?”

你说:“不,大师,这是一只猫。 再试一次。”

现在网络工头回去确定哪些选民把他们的注压在 “猫” 背后,而哪些没有。那些选对“猫”的人下次计票的时候如果他们又投票为“猫”,他们的票数就算两票。他们必须独立证明他们也擅长挑选狗和除颤器,但有一件事使得神经网络如此灵活是每个单独的单元可以为不同的预期结果做不同的贡献。重要的不是个人的投票,而是投票的模式。如果乔,弗兰克和玛丽全部投票,这是一只狗;但是如果乔,凯特和杰西卡一起投票,那就是一只猫; 如果凯特,杰西卡和弗兰克在一起投票,这是一个除颤器。神经网络只是需要在某处记下足够多的一个常规可辨别的信号说:“奇怪的是,这种特殊的像素排列代表了这些人类一直称呼的‘猫’。” 你的选民越多,他们投票的次数越多,网络可以记录的信号就越敏锐,即使对非常弱的信号。如果你只有乔,弗兰克和玛丽,你也许只能使用它们来区分猫,狗和除颤器。如果你有数百万不同的选民和数十亿不同的组合,你可以学习区分数据到令人难以置信的细度。你经过训练的选民大会能够查看一个未标记的图片,或多或少能准确地识别它。

计算机科学系对这些想法有太多的抗拒的部分原因是是因为输出只是基于对模式的模式的预测,它不会是完美的,机器永远不能为你确切地定义一只猫是什么。它只是当它看到它们时知道这就是猫。但是正是这种模糊性让神经元“选民”会认出一只在阳光下打盹的幸福猫,一只从一个不干净的厕所的阴影中怒视的愤怒猫的原因,只要它们看过数百万种不同的猫的场景。 你只需要大量的选民 -- 为了确保你的网络的一部分能够记录甚至非常弱的规律性,比如苏格兰折耳猫的下垂耳朵 -- 足够的有标签数据以确保你的网络已经看到有最广泛变数的现象。

值得注意的是,神经网络在本质上的概率性意味着它们不适合于所有任务。如果他们错误地将1%的猫标记为狗,或者偶尔让你去看错误的电影,这不是一个巨大的悲剧,但在像自动驾驶车这样的事上我们都想要更大的保证。这不是它唯一的缺陷。监督学习是基于对标记数据的试错过程。机器可能在学习,但在输入的初始分类中仍然存在强大的人为因素。如果你的数据有一个正式着装的男人和女人的照片,有人把它标记为“女人与她的老板”,这种关系将被编码到所有未来的模式识别中。因此,数据标记的失误就如它的人类标记者有可能失误一样。 如果一个机器被要求识别信贷申请人的信用,它可能使用犯罪记录数据,但如果早先的定罪是不公平的 --- 如果它们是基于例如歧视性的毒品法律 -- 那么贷款建议也不可避免是有缺陷的。

像我们的猫识别器一样,图像识别网络只是深度学习许多种类中的一种,但是它们作为教学范例被过分强调,因为人类对它们在每个层面所做的至少还懂一点 -- 首先选择边缘,然后选择圆圈,然后选择面部。 这意味着有一个防止错误的保护机制。 例如,早期谷歌图像识别软件的一个短处是它总是不能单独识别一个哑铃,即使该团队训练用了一个包含了很多锻炼类别的图像集来训练它。 一个可视化工具显示机器没有学到“哑铃”的概念,而是“哑铃+手臂”的概念,因为训练集中的所有哑铃都附着在手臂上。 他们把一些单独的杠铃照片放入训练组合。 问题就解决了。 但不是所有事都那么容易。

 

  1. 猫论文

在头一年或两年的时间里,谷歌大脑培养机器拥有一个1岁大孩子技能的努力是顺利的,他的团队从X实验室毕业出来并进入了更大的研究组织。 (谷歌X的头曾经指出,谷歌大脑已经支付了整个X的成本。)他们仍然只有不到10个人和一个对最终结果会是什么的模糊感觉。 但即使那时他们已经不光是考虑接下来应该发生的事情,而是在超前思考。人类的思维首先学会识别一个球,短时间内对这个成就很满意,但迟早它想要那个球。 然后它蹚入了语言。

那个方向的第一步是猫论文,这使得谷歌大脑闻名遐迩。

猫论文展示的是一个具有超过十亿“突触”连接的神经网络 -- 比任何公开的神经网络大一百倍,但仍然比我们的大脑小许多个数量级 -- 可以观察原始的,未标记的数据并自己挑出一个人类的高级概念。谷歌大脑研究人员向网络展示了来自YouTube的数以百万计的视频静止帧,神经网络从纯传感器的混沌中,隔离出了一个稳定的模式 -- 就如任何蹒跚学步的小孩或花栗鼠会毫不犹豫地就认出的猫的脸。机器根本没有任何猫概念; 它直接进入了世界并自己掌握了这个概念。(研究人员用与神经网络相当的东西如MRI发现了一个像鬼魂似的猫脸导致人工神经元以最大的热情集体“投票”)。那时大多数机器学习还是局限于大量的标记数据。猫论文表明,机器还可以处理原始的未标记数据,甚至人类没有建立预先知识的数据。这似乎是一个重大进步,不仅在猫识别研究中,而且在整体人工智能上。

猫论文的第一作者是Quoc Le。 Le很矮,放松,说话很轻,带着一个快速,神秘的微笑,穿着闪亮的黑色便士乐福鞋。 他在越南顺化城外长大。 他的父母是稻农,他家里没有电。 他的数学能力从小就很突出,他被送到一个科学磁校学习。 在20世纪90年代末,虽然还在学校,他试图做一个聊天机器人。 他想这能有多难?

“但实际上,”他板着脸小声告诉我,“非常难。”

他离开了稻田,拿奖学金去了澳大利亚堪培拉的一所大学,并在那里从事计算机视觉等人工智能研究。那时的主流研究方法是喂给机器物体的定义,类似边缘等,对他来说感觉像作弊。 Le当时不知道,或者只略有所知,在世界上至少还有像他这样的十几个计算机科学家想象着机器可以从头开始学习。 2006年,Le在位于中世纪风格的德国大学城Tübingen的马克斯·普朗克生物控制论研究所任职。 在一个读书小组里,他读到了Geoffrey Hinton的两篇新文章。 和在这个漫长流亡期间(译注:指神经网络被撇弃的70-90年代)进入这个领域的其他人的转型故事一样,当Le读这些文章时,他感到眼界大开。

“那是一个大辩论,”他告诉我。 “一个非常大的辩论。” 我们在一个小型内部会议室,一个狭窄的高天花板空间,只配备了一个小桌子和两个白板。 他看着他在身后的白板上画的曲线,然后轻声地说:“我从来没有见过这么大的辩论。”

他记得在读书小组里站起来说,“这是未来”,他说,这是一个“当时不受欢迎的决定。” 一位他一直保持往来的在澳大利亚的前导师完全不能了解Le的决定。 “你为什么要这样做?”他在电子邮件中问。

“那时我没有一个好的答案,”Le说。 “我只是好奇。那个时候的范式(译注:符号A.I.)很成功,但老实说,我只是好奇新的范式。 在2006年时进展还非常少。” 他去了斯坦福大学加入Ng,开始追求Hinton的想法。 “到2010年底,我坚信会有进展。”

那之后不久,Le作为第一个实习生去了谷歌大脑,在那里继续他的博士论文工作 – 那个论文的一部分最终成为了猫论文。在一个简单的层面上,Le想看看是否可以训练计算机自己来识别一个图像绝对必要的信息。他给神经网络喂了一个他从YouTube找来的静物,然后他告诉神经网络丢弃图像中包含的一些信息,但他没有指定哪些东西应该或不应该被丢弃。机器最初随机丢弃了一些信息。然后他说:“开玩笑!现在根据你所保留的信息重新创建初始图像”。这就像他要求机器找到一种方法来”总结“图像,然后从摘要展开回到原型。如果摘要是基于不相关的数据 -- 如天空的颜色,而不是猫胡须 -- 机器就没有能力执行重建。它的反应类似于一个人类远祖对他和剑齿虎的短暂相遇所记得的是剑齿虎在移动时静静的嘶嘶声。 Le的神经网络,不像人类远祖,可以重试一次又一次。每次它在数学上“选择”优化不同的信息,并变得越来越好。然而神经网络是一个黑盒子。它发现了模式,但它识别的模式并不总是对人类观察者有直观的意义。同样的网络在辨别我们猫的概念的同时也变得热衷于一种看起来像某种家具和动物的复合物的模式,像沙发凳和山羊的混合体。

在识别那些令人毛骨悚然的猫的年间Le觉得自己不是一个语言专家,但他觉得有必要把他所做的和他早年的聊天机器人接轨。 在猫论文后,他意识到如果你可以要求网络做一张照片的摘要,你也许也可以要求它总结成一句话。在接下来的两年里,这个问题占据了Le和他在谷歌大脑的同事Tomas Mikolov的时间。

在那个时候,谷歌大脑团队除他以外增加了好几个办公室。 有一段时间,他们与高管们在同一层楼,有一次他们收到了行政处的一封电子邮件,要求他们停止允许员工在Larry Page和Sergey Brin的套房前面的沙发上睡觉,因为他们让那些来访的贵宾很不舒服。后来他们被分配在街对面的一个研究楼里,在那里他们在微型厨房里的交流不会被浪费在和当官的礼貌性聊天上。 这一过渡时期谷歌的竞争对手们也在奋力追赶他们。 (Le告诉我他与Tomas Mikolov的密切合作,他以一种奇怪的方式重复Mikolov的名字,听起来很伤心,Le从来没有这么严肃过,我终于忍不住问:他是不是...?“Le点点头。”去了Facebook,”他回答说。)

他们在这段时间试图推出神经网络的架构,不仅可以适用于简单的,静态的照片分类,而且还可以用于像语言或音乐这样随着时间的推移而展开的复杂的结构。 其中许多是在20世纪90年代首次提出的,Le和他的同事回到那些长期被忽视的文献中看有什么可以借鉴的。 他们知道一旦你建立了一个具有基本语言预测能力的机制,你就可以继续完成其他各种智能任务 -- 例如预测一个得体的电子邮件回复,或预测一个有条理的谈话过程。 你可以开发出那种至少从外面看起来很像思维的能力。

[ 打印 ]
阅读 ()评论 (0)
评论
目前还没有任何评论
登录后才可评论.