【编者按】6 年前,谷歌提出的 Transformer 模型,成为了之后 AI 大模型不可或缺的研究基础;如今,OpenAI 基于 Transformer 模型和其他 AI 技术推出的 ChatGPT,让拥有众多顶尖 AI 科学家的谷歌在这场 AI 竞赛中处于下风。
(资料图片仅供参考)
尽管谷歌为应对这一挑战已经将 DeepMind 和 Google Brain 两支顶尖 AI 团队合并,但一些内部人士爆料称,两支团队的文化以及追求的目标并不相同,这或许会成为谷歌追赶 OpenAI 和微软的绊脚石之一。那么,真实情况又是怎样的?谷歌将以怎样的策略来应对这场 AI 竞赛?
近日,美国科技媒体 Verge 主编 Nilay Patel 采访了 Google DeepMind 的 CEO Demis Hassabis,就以上问题和其他有关 AI 的重要议题展开了深度讨论。核心观点如下:
Demis 谈到,无论用何种标准衡量,AlphaGo、AlphaFold 以及 20 多篇发表在《自然》和《科学》等期刊上的论文等,谷歌都取得了令人惊叹的前沿研究成果。但从某种意义上说,ChatGPT、大模型以及公众对此的反应,都证明了 AI 已经进入了一个新时代。 Demis 表示,“当你意识到这种变化时,我认为这就需要你改变研究的方法以及对产品的关注程度。我们都意识到,是时候将我们的 AI 工作进行精简并更加专注了。这个明显的结论就是进行合并。” AI 的类型远不止生成式 AI。生成式 AI 现在是“热门”的事物,但规划、深度强化学习、问题解决和推理等能力将在下一波浪潮中再次回归,与当前系统目前的能力一起出现。 目前,Google DeepMind 的组织结构仍在不断演变中,Demis 希望确保不会出现任何问题,一切都可以正常运转。“在今年夏末之前,我们将成为一个单一的统一实体,我认为那将非常令人兴奋。即使在几个月之内,我们已经感受到了这一点的好处和优势,Gemini 是我们的下一代多模态大型模型,它结合了两个世界一流研究团队的最佳想法。” 当前 AI 面临着一种非常紧迫的需求,尤其是针对深度伪造和虚假信息等近期问题,但为解决方案已经在眼前了。 Demis 认为,未来十年左右将实现类似 AGI 或 AGI。学术头条在不改变原文大意的情况下,做了简单的编译。内容如下:
今天,我要采访的是 Google DeepMind 的 CEO Demis Hassabis。Google DeepMind 是谷歌新成立的部门,负责整个公司的人工智能(AI)工作。Google DeepMind 是内部合并的产物:谷歌于 2014 年收购了 Demis 的 DeepMind 初创公司,并将其作为母公司 Alphabet 内部的独立公司运营,而谷歌本身也有一个名为 Google Brain 的 AI 团队。
谷歌多年来一直在展示 AI 领域的研究演示,但随着 ChatGPT 的爆炸式增长以及微软在搜索领域掀起的新威胁,谷歌和 Alphabet 的 CEO Sundar Pichai 在今年早些时候决定将 DeepMind 引入谷歌,创建 Google DeepMind。
有趣的是,Google Brain 和 DeepMind 不一定兼容,甚至不一定专注于同样的事情:DeepMind 因将 AI 技术应用于游戏和蛋白质折叠模拟等领域而闻名。AlphaGo 在古老的棋盘游戏围棋中击败了人类世界冠军。与此同时,Google Brain 更专注于人们所熟悉的生成式 AI 工具集:聊天机器人背后的大型语言模型、Google Photos 中的编辑功能等等。这是一场文化冲突,也是一个重大的结构决策,其目标是让谷歌的 AI 产品更具竞争力,并更快地推向市场。
竞争不仅仅来自 OpenAI 和微软,一位谷歌软件工程师近来声称谷歌在 AI 领域没有竞争优势,因为运行在商用硬件上的开源模型正在迅速发展,正在追赶巨头们推出的工具。Demis 证实了这一说法的真实性,但表示这是谷歌辩论文化的一部分,他对此持不同意见,因为他对谷歌的竞争优势有其他想法。
当然,我们还谈到了 AI 风险,特别是通用人工智能(AGI)。Demis 毫不掩饰地表示他的目标是 AGI,我们讨论了应该采取何种时间表和措施来应对相关风险和监管问题。最近,Demis 与 OpenAI CEO Sam Altman 等人签署了一份关于 AI 风险的声明,内容简洁明了:“与流行病和核战争等其他社会规模的风险一样,减轻 AI 对人类灭绝的风险也应当成为全球优先考虑的事项。” 这听起来非常冷静,但现在是否真的存在这样的风险?或者,它只是分散了人们对 AI 在各种创意产业中替代大量劳动力等更具体问题的注意力?我们还讨论了 AI 正在创造的新型劳动力——为帮助训练 AI 系统,大量低薪劳动者在肯尼亚和印度等国家对数据进行分类。
此次访谈涉及到有关 AI 的重要想法、伴随而来的许多问题、需要做出的无数复杂决策,以及一项重大组织结构决策。我和 Demis 的讨论相当深入,但我仍然觉得我们没有覆盖所有内容。完整访谈内容如下:
欢迎 Demis Hassabis。
感谢邀请。
AI 领域涉及到一个重大的理念,它带来了挑战和问题,而对于你来说,还伴随着一次重大的组织结构调整和一系列具有高风险的决策。我非常高兴你能来到这里。
很高兴来到这里。
让我们从 Google DeepMind 开始。Google DeepMind 是谷歌的一个新部门,由谷歌的两个顶级团队组成,其中一个是我们熟悉的 Google Brain,它是由 Jeff Dean 领导的 AI 团队,另一个则是 DeepMind,由你联合创立的公司,在 2014 年被谷歌收购,之后作为 Alphabet 控股公司结构下的一个子公司进行独立运作,直到最近才发生了变化。让我们从最开始说起。为什么 DeepMind 和 Google Brain 最初是分开的呢?
正如你所提到的,我们实际上是在 2010 年开始创办了 DeepMind,距离如今的 AI 时代是很久以前的事情了,所以可以说那是 AI 的前史时期。我和其他共同创始人意识到,作为从学术界过来的人,我们看到了学术界的发展情况,比如深度学习刚刚被发明出来。我们非常支持强化学习。我们能够看到图形处理器(GPU)和其他硬件正在迅速发展,如果我们专注于通用学习系统,并借鉴神经科学和大脑工作的一些思想,可以取得很大的进展。于是我们在 2010 年将所有这些元素融合在一起。我们有这样的论点,即我们将取得快速的进展,这也正是我们在最初的游戏系统上取得的成就。然后,在 2014 年,我们决定与当时的谷歌合作,因为我们预见到将需要更多的计算能力。显然,谷歌拥有世界上最多的计算机。这对于我们之后能够专注于推动研究进展是一个再好不过的选择。
于是你们被谷歌收购了,之后谷歌有了新的定位。他们成立了 Alphabet,而谷歌成为了 Alphabet 的一个部门。Alphabet 旗下还有其他部门,而 DeepMind 则独立于其中。这部分是我在一开始就想着重讨论的,因为谷歌推动 Google Brain 做了很多语言模型方面的研究。我记得早在六年前,谷歌在 Google I/O 大会上展示了大型语言模型,但 DeepMind 则专注于赢得围棋比赛和蛋白质折叠等完全不同类型的 AI 研究。为什么这些研究不在谷歌内部进行?为什么它们属于 Alphabet 呢?
这是我们被收购时签订协议的一部分,我们将继续推进 AGI 的研究,实现一个能够在各种认知任务上运作并具备人类所有认知能力的系统。
同时,我也非常热衷于利用 AI 加速科学发现,就自然有了像 AlphaFold 这样的项目,我相信我们以后还会回到这个话题上。但实际上,早在 DeepMind 成立之前,我就认为游戏是开发高效、快速 AI 算法的完美测试场所或证明场所,你可以生成大量的数据,目标函数也非常明确:显然是赢得游戏或最大化得分。在 AI 研究的早期阶段,使用游戏有很多原因,这也是我们取得如此成功并且能够迅速推进 AlphaGo 等项目的重要原因之一。
这些都是非常重要的实践,证明了这些通用学习技术是有效的。当然,我们也在深度学习和神经网络方面做了很多工作。我们擅长将这些技术与强化学习相结合,使得这些系统能够自主解决问题、制定计划,以及赢得游戏等。我们一直有推动研究议程和推动科学进步的任务。这是我们非常关注的重点,也是我个人希望实现的目标。然后,谷歌内部的 AI 团队,如 Google Brain,他们的任务略有不同,更接近产品和谷歌的其他部门,将惊人的 AI 技术融入谷歌。我们还有一个应用部门,将 DeepMind 的技术引入谷歌产品中。但文化和任务确实有很大的不同。
从外部看,时间线看起来是这样的:人们都已经从事这项工作很久了,一直在讨论这个话题。对于像我这样的一些记者和一些研究人员来说,这是一个讨论的话题,我们在谷歌的活动中谈论它。然后 ChatGPT 发布了,甚至都不算是一个产品。我甚至认为 Sam Altman 在发布时也不会认为它是一款出色的产品,但它只是发布了,人们可以使用它。大家都吓坏了,微软基于 ChatGPT 发布了 Bing,世界发生了很大的变化,然后谷歌通过合并 DeepMind 和 Google Brain 做出了反应。从外部看,情况就是这样的。从内部看也是这样吗?
这个时间线是正确的,但这并不是直接后果,从某种意义上说,这更多是间接后果。谷歌和 Alphabet 一直以这种方式运作。他们让许多“花朵”绽放,我认为这一直是符合 Larry Page 和 Sergey Brin 创办谷歌的初衷。这种方式为他们提供了很多机会,让他们能够创造出令人难以置信的东西,并成为今天这样一家了不起的公司。在研究方面,我认为这是一种非常符合开展研究的方式,这也是我们在 2014 年选择谷歌作为合作伙伴的原因之一。我感觉他们真正理解了基础研究和前瞻性研究的意义,并将促使我们在研究中有更大的目标。你看到了这些成果,对吧?
无论用何种标准衡量,AlphaGo、AlphaFold 以及 20 多篇发表在《自然》和《科学》等期刊上的论文等,我们都取得了令人惊叹的前沿研究成果。但从某种意义上说,ChatGPT、大模型以及公众对此的反应,都证明了 AI 已经进入了一个新时代。顺便说一句,这对我们这些从事研究工作的人来说,包括 OpenAI 在内,对于它为何传播如此之快也有些让人惊讶,因为我们和一些其他初创公司,如 Anthropic,都拥有这些大型语言模型。它们在功能上大致相同。
因此,令人惊讶的并不是技术本身,因为我们都理解它,而是公众对此的兴趣以及由此产生的热议。这表明我们在过去两三年中一直有一种共识,即这些系统现在已经达到了一种成熟度和复杂度,可以真正走出研究阶段和实验室,用于推动令人难以置信的下一代产品和体验,以及突破性的成果,如 AlphaFold 直接被生物学家所使用。对我来说,这只是 AI 进入了一个新阶段的一个例证,即在人们的日常生活真正发挥作用,并能够解决真正重要的现实难题,而不仅仅是像游戏这样的好奇性或娱乐性问题。
当你意识到这种变化时,我认为这就需要你改变研究的方法以及对产品的关注程度。我们都意识到,是时候将我们的 AI 工作进行精简并更加专注了。这个明显的结论就是进行合并。
我想停下来,花一点时间讨论一个哲学问题。
当然可以。
感觉导致今年 AI 爆发的 ChatGPT 时刻出现的原因,在于 AI 可以做一些普通人能做的事情。我想你给我写一封电子邮件,写一个剧本,尽管大型语言模型的输出可能只能达到 C+ 的水平,但它仍然是我可以做到的。人们可以看到它。我想你为这张照片填充其余部分。这是人们可以想象自己做到的事情。也许他们没有这样的技能,但他们可以想象这样做。
之前我们看到的所有 AI 演示,甚至包括你们的 AlphaFold,你们说它可以对世界上的所有蛋白质进行建模,但我不能做到那个,应该由计算机来完成。即使是微生物学家也可能会认为:“太棒了!一个计算机可以做到这一点,因为我正在考虑我们需要花费多少时间,而我们根本无法做到。”“我想在围棋上击败世界冠军。我不能做到那个。嗯,没问题。一个计算机可以做到。”
现在计算机开始做一些我可以做的事情,而且这些事情甚至不一定是最复杂的任务,如阅读这个网页并提供一个摘要。但这正是触动了每个人的事情。我想知道你认为为什么整个行业没有预见到这个转变,因为我们一直专注于那些人们无法做到的非常困难的事情,而似乎让每个人都震惊的是,计算机开始做人们经常做的事情。
我认为这个分析是正确的。我认为这就是为什么大型语言模型真正进入了公众的视野,因为它是普通人,也就是所谓的“普通大众”,可以理解和互动。当然,语言对于人类智力和我们的日常生活至关重要。我认为这也解释了为什么聊天机器人以特定的方式迅速传播开。虽然我会提到 AlphaFold,当然我在说这个问题时可能会有偏见,但我认为它实际上在 AI 领域对世界产生了迄今为止最明显、最巨大和最积极的影响,因为如果你和任何生物学家交谈,现在有数百万生物学家、研究人员和医学研究人员都在使用 AlphaFold。我认为几乎全世界的生物学家都在使用它。每个大型制药公司都在利用它推进他们的药物研发计划。我已经和多位诺贝尔奖级别的生物学家和化学家交谈过,他们告诉我他们如何使用 AlphaFold。
因此,我们可以说全世界的一部分科学家,假设所有科学家都知道 AlphaFold,它已经对他们的重要研究工作产生了巨大的影响并加速了这些工作的进程。但当然,普通人在街上可能连蛋白质是什么都不知道,也不了解这些对于药物发现等事物的重要性。而聊天机器人则不同,每个人都可以理解,这是令人难以置信的。它能够为你写一首诗或者其他任何人都能理解、处理和评估的东西,与他们自己所做或能够做到的相比,这种感觉非常直观。
这似乎是 AI 技术产品化的重点:这些类似聊天机器人的界面或生成性产品可以为人们创造事物,这就是风险所在。但是,即使在风险的讨论上,也已经升级,因为人们现在可以看到,“哦,这些工具可以做事情了。”在你们研发 AlphaFold 的过程中,你是否感受到了同样程度的审查?似乎没有人认为“哦,AlphaFold 会毁灭人类”。
没有,但确实受到了很多审查,这是在一个非常专业的领域,对于知名专家来说是如此。事实上,我们与该领域的 30 多位专家进行了交流,包括顶级生物学家、生物伦理学家和生物安全专家。我们与欧洲生物信息研究所合作,发布了 AlphaFold 数据库,其中包含所有蛋白质的结构信息,他们也指导我们如何安全地发布这些数据。因此,我们确实受到了很多审查,而我们也咨询过,人们的主要结论是,益处远远大于风险。尽管我们根据他们的反馈对要发布的结构进行了一些微小的调整。但确实受到了很多审查,但再次强调,这只发生在一个非常专业的领域。关于生成模型的问题,我确实认为我们正处于一个令人难以置信的新时代开端,这个时代将在未来五到十年内到来。
这不仅在推动科学发展方面,还在于我们可以构建的改善人们日常生活的产品类型,它们影响着数十亿人的日常生活,并帮助我们更高效地生活,丰富我们的生活。而我认为我们今天所见到的聊天机器人只是冰山一角。AI 的类型远不止生成式 AI。生成式 AI 现在是“热门”的事物,但我认为规划、深度强化学习、问题解决和推理等能力将在下一波浪潮中再次回归,与当前系统目前的能力一起出现。所以我认为,一年或两年后,如果我们再次交谈,我们将会谈论全新类型的产品、体验和服务,它们具备前所未有的能力。实际上,我对构建这些东西非常兴奋。这也是我非常兴奋领导 Google DeepMind 的原因之一,我将专注于构建这些基于 AI 的下一代产品。
让我们再深入探讨一下 Google DeepMind 本身的情况。假设 Sundar Pichai 来找你,他说:“好吧,我是 Alphabet 和谷歌的 CEO。我可以作出这个决定。我要将 DeepMind 并入谷歌,与 Google Brain 合并,你将成为 CEO。”当听到这个想法时,你的反应是怎样的?
事实并非如此。这更像是各个相关团队的领导者与 Sundar 之间进行的一次对话,关于我们所见到的拐点、系统的成熟程度,以及在产品领域可能实现的内容,以及如何改善我们的用户体验,我们亿万用户的体验会有多么令人兴奋,以及这一切需要的综合性要素。包括关注点的变化,研究方法的改变,以及像计算资源这样所需资源的整合。因此,作为领导团队,我们讨论了一系列要考虑的重要因素,然后从中得出结论,包括合并的决定以及接下来几年的计划和合并后的研究重点。
在谷歌担任 CEO 和在 Alphabet 担任 CEO 有什么不同吗?
现在还为时尚早,但我认为是一样的,因为尽管 DeepMind 是 Alphabet 旗下的一家公司,但对于另一个实验项目(alpha bet),这是非常不寻常的,因为我们已经与许多谷歌产品团队和组织进行了密切的整合和合作。在 DeepMind 有一个应用团队,他们的工作是通过与谷歌产品团队合作,将我们的研究成果转化为产品功能。实际上,在过去的几年中,我们已经进行了数百次成功的发布,只是在幕后默默地进行。事实上,你在谷歌每天使用的许多服务、设备或系统的背后都有一些 DeepMind 的技术。因此,我们已经具备了这种整合结构。当然,我们以科学和游戏方面的突破而闻名,但在幕后,我们还进行了大量影响谷歌各个部门的基础工作。
与其他情况不同,我们不必在谷歌之外建立一个独立的业务。即使作为一家独立的公司,这从不是我们的目标或任务。现在在谷歌内部,我们在产品服务方面更加紧密地整合在一起,我认为这是一个优势,因为我们可以与其他产品团队展开更深入的合作,做出更令人兴奋的事情,比起在谷歌之外更容易实现。但我们仍然保留了一定的自由度,可以选择那些能够充分优化我们的使命(生产全球最强大、最通用的 AI 系统)的流程和系统。
有报道称这实际上是一场文化冲突。而现在你负责两者。你是如何组织这个团队的?作为 CEO,Google DeepMind 在你的领导下是如何组织的?你是如何管理文化整合的?
实际上,事实证明两者的文化相似程度要高于外界的报道。整个过程非常顺利和愉快,因为我们谈论的是两个世界一流的研究团队,两个全球最好的 AI 研究机构,两边都有令人难以置信的人才和成绩。在我们思考合并并进行规划时,我们曾列出每个团队的前十项突破。当你把这些汇总起来时,这些突破涵盖了过去十年来构建现代 AI 行业的 80%-90% 的突破,从深度强化学习到 Transformer 等。这是一群令人难以置信的人才,双方对彼此的团队都有极高的尊重。实际上,在过去的十年中,两个团队在项目层面上进行了大量的合作。
当然,我们彼此非常了解。实际上,我认为问题在于关注点和两个团队之间的一些协调,以及在我们着重关注哪些领域,两个独立团队合作是有意义的,也许还可以消除一些重复努力的部分。说实话,这些都是相当明显的事情,但对于我们进入 AI 的新阶段来说非常重要,这个阶段更多地涉及到 AI 工程化,这需要大量的资源,包括计算资源、工程资源和其他资源。即使是像谷歌这样规模的公司,我们也必须谨慎选择,并明确我们将投入资源的方向,并专注于这些方向,然后实现这些目标。因此,我认为这是我们在 AI 之旅中自然演化的一部分。
你提到的那件事,“我们将合并这些团队,我们将选择我们要做的事情,我们将消除一些重复努力。”这些都是关于组织结构的问题。你们已经确定了一个结构吗?你认为那个结构会是什么样的?
组织结构仍在不断演变中。我们只是开始几个月而已。我们希望确保不会出现任何问题,一切都正常运转。两个团队都非常高效,进行着非常出色的研究,并参与了一些非常重要的产品工作。所有这些都需要继续进行。
你一直在说两个团队。你是否认为这是两个团队,还是你试图将其合并为一个团队?
不,当然,它肯定是一个统一的团队。我喜欢称之为“超级单元(super unit)”,对此我感到非常兴奋。但显然,我们正在将其合并、形成新的文化和新的组织结构,这是一个复杂的过程,将两个如此庞大的研究团队合并在一起。但我认为,在今年夏末之前,我们将成为一个单一的统一实体,我认为那将非常令人兴奋。即使在几个月之内,我们已经感受到了这一点的好处和优势,就像你可能听说过的 Gemini,这是我们的下一代多模态大型模型,它结合了两个世界一流研究团队的最佳想法。
你需要做出许多决策。您所描述的是一系列复杂的决策,而在外部世界中,我们应该如何监管这一切?这又是一系列非常复杂的决策。作为国际象棋冠军和曾经制作过游戏的人,你对决策的框架是什么?我怀认为它比我听到的其他框架要严谨得多。
是的,我认为可能确实如此。我认为如果你认真地玩国际象棋,甚至达到专业水平,我从我的童年,从四岁开始接触国际象棋,这对你的大脑来说非常具有塑造力。所以我认为,在国际象棋中,问题解决和战略规划,这是一个非常有用的框架,适用于许多事情和决策。国际象棋基本上是在对手的压力下做决策,它非常复杂,我认为这是一件很棒的事情。我主张将其纳入学校的课程中,成为学校课程的一部分,因为我认为它是一个非常出色的培养问题解决和决策能力的训练场所。但是,我认为总体的方法更接近于科学方法。
我认为我的所有训练,包括博士学位和博士后等,显然都是在神经科学领域进行的。所以我学习了关于大脑的知识,但同时也教会了我如何进行严格的假设检验和假设生成,并根据经验证据进行更新。整个科学方法以及国际象棋的规划,这两者都可以转化到商业领域。你必须聪明地将其转化,不能将其变得过于学术。而且在现实世界中,商业领域通常存在许多不确定性和隐藏的信息,你并不知道所有的情况。因此,在国际象棋中,棋盘上的所有信息对你来说都是显而易见的。你不能将这些技能直接转化过来,但我认为,如果以正确的方式应用,它们可能非常有帮助。
如何在你所做的某些决策中将这两者结合起来?
我每天要做出很多决策,现在很难举一个例子。但是,我倾向于尝试提前很多年来规划和预测计划。所以,我告诉你我尝试处理事情的方式是,我有一个最终目标。我在想象方面相当擅长,这是一种不同的技能,可以想象或构思一个完美的最终状态,无论是组织、产品还是研究方面。然后,我从最终目标出发,确定所有所需的步骤以及按什么顺序进行,以使该结果尽可能成为现实。
是的,这有点像国际象棋,对吧?在某种意义上,你有一个计划,希望达到将对手击败的状态,但你还需要走很多步棋才能实现。所以为了增加最终结果的可能性,你必须采取渐进的措施来改善你的局势。我发现从最终目标回溯到当前状态的搜索过程非常有用。
让我们将这个思维方式应用到一些产品上。你提到了很多 DeepMind 的技术和谷歌的产品。我们可以看到的有 Bard 和你们的搜索生成体验。Google Photos 中也有 AI,但是专注于大型语言模型(Bard 和搜索生成体验)。这些不能成为最终状态。它们并没有完全成熟。Gemini 即将推出,我们可能会改进这两个产品,所有这些都将会发生。当你思考这些产品的最终状态时,你看到了什么?
谷歌的 AI 系统不仅仅应用于面向消费者的产品,还应用于你可能没有意识到的底层。例如,我们最初将 AI 系统应用于谷歌数据中心的冷却系统,这些数据中心庞大无比,实际上减少了冷却系统近 30% 的能耗,如果将此乘上所有的数据中心和计算机,效益将是巨大的。因此,实际上在底层有很多应用 AI 来不断提高这些系统效率的事情。但你说得对,当前的产品并不是最终状态,它们实际上只是过渡阶段。就聊天机器人和这类系统而言,最终它们将成为一种令人难以置信的全能个人助理,你在日常生活中多次使用它们来进行非常有用和有帮助的事情。
从推荐阅读的书籍,到给出现场活动等类似活动的建议,再到预订旅行和规划行程,甚至协助日常工作。我认为,目前的聊天机器人离实现这一点还有很长的路要走,我们知道其中缺失计划、推理和记忆等一些要素。我们也正在努力研究。我认为,与未来几年即将出现的东西相比,如今的聊天机器人将变得微不足道。
我从事的工作是报道计算机领域的内容。我认为计算机是一种相对模块化的系统。你看看手机,它有一个屏幕、一个芯片、一个蜂窝天线等等。那么,我是否应该以同样的方式看待 AI 系统?也就是说,背后可能有一个非常令人信服的人类语言界面,如大型语言模型,而它的背后可能是实际完成蛋白质折叠的 AlphaFold?你是怎么考虑将这些东西串联在一起的,还是说这是一种不同的进化路径?
实际上,已经有一整个研究分支专注于所谓的“工具使用(tool use)”。这个概念是指这些大型语言模型或大型多模态模型,它们在语言方面是专家,当然可能还具备一些数学和编程等能力。但是当你让它们做一些专门的事情,比如折叠蛋白质、下一局国际象棋或类似的事情时,实际上它们最终会调用一个工具,这个工具可能是另一个 AI 系统,然后这个工具提供特定问题的解决方案或答案。然后通过语言或图像的形式,这些信息通过中央大型语言模型系统传递回给用户。因此,对于用户来说,它可能实际上是看不见的,因为对于用户来说,它看起来只是一个具备多种能力的大型 AI 系统,但在底层,这个 AI 系统可能被拆分为具有特殊化功能的较小系统。
实际上,我认为这可能会是下一个时代。下一代的系统将运用这些能力。你可以将中央系统想象成为一个开关语句,你通过语言有效地提示它,并将你的查询、问题或任何你要求它解答的内容根据需要连接到合适的工具,为你解答问题或提供解决方案。然后通过非常易于理解的方式将其传递回来,再次使用最好的界面,即自然语言界面。
这个过程是否将使你更接近 AGI,还是会达到某个极限状态,而你需要做一些其他的事情?
我认为这是通向 AGI 的关键路径,这也是我对这个新角色感到非常兴奋的另一个原因。实际上,从这里开始的产品路线图和研究路线图朝着类似 AGI 或人类水平的 AI 方向是极度互补的。为了构建那些在日常生活中有用的、像通用助手一样的产品,我们需要推进一些关键的能力,如规划、记忆和推理,我认为这些能力对我们实现 AGI 至关重要。因此,我认为现在产品和研究之间有一个非常好的反馈循环,它们可以有效地互补。
我之前采访了很多汽车公司的 CEO。我问过他们所有人:“你认为我们什么时候会实现无人驾驶汽车?”他们都说五年内,而且这五年间他们一直都在说五年内会实现,对吧?
对。
我想问你一个关于 AGI 的类似问题,但我觉得最近我和一些人交谈时得出的数字已经变小了。你认为还需要多少年我们才能实现 AGI ?
我认为关于实现 AGI 还需要多少次重大突破存在很多不确定性,这些突破可能是创新性的突破,而不仅仅是现有解决方案的规模扩大。在时间框架上,这很大程度上取决于这一点。显然,如果需要很多重大突破,那么这些突破会更加困难,需要更长的时间。但就目前而言,如果在未来十年左右实现类似 AGI 或 AGI 的状态,我并不会感到惊讶。
在接下来的十年内。好的,十年后我会再找你,看看这是否实现了。
可以。
确实如此,这并不是一条直线路径。正如你所说,过程中可能会出现一些突破,这可能会打乱原本的计划并使其走向不同的道路。
研究从来都不是一条直线。如果是直线,那就不是真正的研究。如果在开始之前就已经知道答案,那也不是研究。因此,日常研究和颠覆性研究总是伴随着不确定性,这就是为什么无法准确预测时间表。但我们可以关注趋势,观察当下正在进行的想法和项目的质量以及它们的进展情况。在未来的五到十年内,这个趋势可能会出现两种情况,可能我们会趋近于渐进状态,也可能我们会在现有技术和扩展方面遇到瓶颈。如果出现后者,也不会让我感到意外,也许我们会发现仅扩展现有系统会导致系统性能递减,最终收益递减。
实际上,这意味着我们确实需要一些创新来取得进展。目前,我认为没有人知道我们处于哪种状态。因此,对此问题的答案是你必须尽可能地同时努力推进两方面。既要在现有系统和现有想法的规模扩展和工程方面投入重大资源,也要大量投资于探索性研究方向,以期能够提供创新,解决当前系统的一些弱点。作为一个拥有大量资源的大型研究组织,这是我们的优势,我们可以最大限度地押注在这两个方向上。从某种程度上说,我对于“我们是否需要更多的突破,还是现有系统可以一直扩展?”这个问题持中立态度。我认为这是一个经验性问题,应该尽可能地同时推进这两个方向。结果将会证明一切。
这确实存在一种矛盾。当你在 Alphabet 的 DeepMind 工作时,你非常专注于研究,然后研究成果被转回到谷歌,由谷歌的工程师将其转化为产品。你可以看到这种关系是如何发挥作用的。现在,你在谷歌内部。作为一家公司,谷歌承受着巨大的压力,希望在这场竞争中取得胜利。这些都是产品方面的问题,就是要“让人们感受到真实,并在市场中取得胜利”。有一份被泄露的备忘录,据称来自谷歌内部。它说谷歌没有竞争优势,开源的 AI 模型或泄漏的模型将在人们的笔记本电脑上运行,并且它们会超过谷歌,因为开放计算的历史将超过封闭源代码的竞争对手。那个备忘录是真实的吗?
在我看来,那份备忘录是真的。我认为谷歌的工程师经常撰写各种文件,有时它们会被泄露并迅速传播。我认为这只是一种常见情况,但不必过于认真对待。这些只是个人观点。我认为听取这些观点很有趣,但你需要为自己的道路做出决策。我没有详细阅读那份具体的备忘录,但我对其中的结论持不同意见。而且,开源和发布作品是显而易见的,DeepMind 做了大量的开源工作。比如,AlphaFold 就是开源的,对吧?因此,我们支持开源和支持研究和开放研究。这是科学讨论的关键,我们一直是其中的重要成员。当然,谷歌也是如此,发布了 Transformer、TensorFlow 和你可以看到的我们所做的一切。
我们在这个领域做了大量的工作。但我认为还需要考虑其他因素。显然,商业考虑是其中之一,还有关于访问这些强大系统的安全问题。如果坏人可以访问它,他们可能并不具备那么高的技术水平,无法自己构建系统,但他们肯定可以重新配置已经存在的系统。对于这些问题,我们该如何处理呢?我认为这一直以来都是理论层面的问题,但随着这些系统变得更加通用、更加复杂、更加强大,这个问题将变得非常重要,即如何阻止坏人将这些系统用于并非有意的恶意行为。
这是我们需要重点解决的问题,但回到你的问题上,看看谷歌和 DeepMind 在过去十多年中在创新和突破方面所做的历史。我会押注在我们身上,我对我们继续产生下一个关键突破非常有信心,就像我们过去所做的那样,在未来的十年中这将变得更加真实。
我们发明了大部分的东西,所以我们将会发明大部分未来的东西,你认为这是我们的优势所在吗?
我并不是将其视为竞争优势,但我是一个极具竞争力的人。这可能是我从下棋中得到的另一个特点,许多研究者也是如此。当然,他们从事研究是为了探索知识,最终改善人类的状况,这是我们的目标。但同时,我们也希望成为首个在这些领域取得成就的人,并以负责任而大胆的方式去做。我们拥有世界上一流的研究者,我认为在全球范围内,我们拥有最多的顶尖研究者,而且我们有着令人难以置信的成就。没有理由认为这种情况在未来不会继续下去。事实上,相比于过去,我认为我们的新组织和环境可能会更多、更快地取得突破。
你让我想起了风险和监管。不过我想先从一个不同的角度开始讨论。你提到了需要完成的所有工作,以及深度强化学习的工作原理。我们与《纽约》合作进行了一篇长篇封面报道,是关于那些实际进行训练和数据标注的任务人员。在 AI 的发展过程中,与劳动力相关的问题确实存在着许多讨论。好莱坞的编剧目前正在罢工,因为他们不希望 ChatGPT 写剧本。我认为这是合理的。不过,现在出现了一类新的劳动力,全球范围内的一群人坐在电脑前,说着:“是的,那是一个停车标志。不,那不是一个停车标志。是的,那是可以穿的衣服。不,那不是可以穿的衣服。”这种状态会持续下去吗?这只是为了使这些系统运转而需要完成的一项新工作吗?还是会有终结的时刻?
我认为很难说。我觉得这肯定是一个时刻,与当前系统和它们目前所需的工作相关。对于这类工作,我们一直非常小心,我想你在那篇文章中引用了我们一些研究人员的话,我们十分谨慎地支付合理的工资,并非常负责地处理这类工作和选择合作伙伴。我们也使用内部团队进行这类工作。所以,实际上,我为我们在这类工作上的负责任表现感到非常自豪。但是展望未来,我认为这些系统可能会有自我推进的方式,特别是当用户数量达到数百万的时候。或者可以想象到,AI 系统能够自己进行对话或批评。
这有点像将语言系统转化为类似游戏的设置,我们很擅长做这样的事,我们一直在思考不同版本的增强学习系统如何对彼此进行评级。也许这样的评级不如人类评级员准确,但它实际上是一种有用的方法,可以用来进行一些基本的评级工作,然后通过在最后使用人类评级员对这些评级进行校准,而不是让人类评级员对所有内容进行评级。所以我认为我可以看到许多创新正在逐渐涌现,这些创新将有助于解决这个问题,意味着对人类评级员的需求会减少。
你认为始终需要人类评估者参与吗?即使在接近 AGI 的过程中,似乎仍需要有人告诉计算机它的工作是否出色。
让我们以 AlphaZero 为例,这是我们的通用游戏系统,最终学会了国际象棋和围棋在内的任何两人游戏。有趣的是,在那里发生的是,我们设置了系统,使其能够与自己对弈数千万次。因此,实际上,它建立了自己的知识库。它从随机开始,自我对弈,自我提升,训练出更好的版本,并在类似小型锦标赛中让它们相互对弈。但最后,你仍然希望将其与人类世界冠军或其他以传统方式构建的外部计算机程序进行测试,以便可以校准自己的指标,这些指标告诉你这些系统是否根据这些目标或指标不断改进。
但在使用外部基准或度量进行校准之前,你无法确定结果。根据使用的校准方法,人类评估者或人类专家通常是校准内部测试的最佳选择。你需要确保内部测试实际上与现实相匹配。对于研究人员来说,这是产品的一个令人兴奋的方面,因为当你将研究应用于产品,并且每天有数百万人在使用它时,你会得到现实世界的反馈,这是无法回避的现实,也是对任何理论或系统的最佳测试。
你认为为 AI 系统标注数据的工作是有价值或合适的吗?其中有一些问题值得思考,比如“我将告诉一台计算机如何理解世界,以便它在未来可能取代其他人。”这其中存在一种循环,似乎值得进行更多道德或哲学层面的思考。你是否花时间思考过这个问题?
是的,我确实思考过这个问题。我不是这样看待的。我认为评估者们是这些系统发展过程中的一部分,保证 AI 系统对每个人来说更安全、更有用、更可靠和更可信。所以我认为这是一个至关重要的组成部分。在许多行业中,我们对技术和产品进行安全测试。如今,对于 AI 系统来说,最好的办法就是有人类评估者。我认为,在未来的几年里,我们需要更多的研究。我一直呼吁这一点,我们自己也在做这方面的工作,但这需要不止一个组织来完成,我们需要建立出色、可靠的评估标准,以便我们知道如果一个系统通过了这些标准,它就具备了某些特性,在这些特定方面是安全和可靠的。
目前,我认为许多学术界、民间社会和其他领域的研究人员提出了许多关于这些测试的好建议,但我认为它们还不够稳健或实际。它们基本上是理论和哲学性质的,它们需要被实际应用起来,这样我们才能根据这些测试对我们的系统进行实证测量,从而对系统的性能有一定的保证。一旦我们有了这些测试,那么对人工评估测试反馈的需求将会减少。我只是认为目前之所以需要这样的人工评估测试反馈是因为我们还没有这些独立的基准。部分原因是我们还没有严格定义这些特性。我的意思是,这几乎是一个涉及神经科学、心理学和哲学的领域。甚至对于人类大脑,许多术语还没有被正确地定义。
你已经签署了来自 Center for AI Safety 的一封公开信,OpenAI 的 Sam Altman 和其他人也签署了这封信,警告人们 AI 可能带来的风险。然而,你们仍在继续努力,谷歌也在市场上竞争,你们必须取得胜利,你还形容自己具有竞争力。这其中存在一种矛盾:在市场上需要取得胜利并推出产品,但又希望“哦,天啊,请监管我们,因为如果不以某种方式阻止,纯粹的资本主义将使我们在 AI 领域走向悬崖。”你如何平衡这种风险呢?
这确实存在一种矛盾,一种创造性的矛盾。在谷歌,我们喜欢说我们希望既大胆又负责任,这正是我们努力追求和树立榜样的目标。所谓的大胆,就是对 AI 为世界带来的好处充满勇气和乐观,从而帮助人类应对我们面临的最大挑战,无论是疾病、气候还是可持续性等问题。AI 在帮助科学家和医学专家解决这些问题方面发挥着巨大的作用,我们正在努力在这些领域开展工作。而 AlphaFold,我可以再次指出它作为一个明星项目,展示了我们在这方面的努力。这就是大胆的一面。而负责任的一面是确保我们以尽可能多的审慎和预见,尽可能多的考虑到这些因素来开展工作。
我们需要尽可能提前预测成功可能带来的问题,而不是“事后诸葛亮”。也许社交媒体就是一个例子,它经历了令人难以置信的增长。显然,它在世界上产生了很多好处,但 15 年后,我们才意识到这些系统也带来了一些意想不到的后果。对于 AI,我希望走一条不同的道路。我认为它是一项深刻、重要和强大的技术。面对如此具有变革潜力的技术,我们必须这样做。这并不意味着不会犯任何错误。这是一项非常新的技术,任何新事物都无法事先预测一切,但我认为我们可以尽力做到最好。
签署那封信的目的是表明,尽管我认为这不太可能,但我们也应该考虑到,在接近 AGI 时,这些系统可能能够做什么以及可能会做什么。目前我们离那个阶段还相差甚远。因此,这不是关于当下或未来几年的技术问题,而是在某个时刻,考虑到技术的快速发展,我们将需要思考这些问题,而不是在问题发生前夕才开始思考。我们需要利用现在的时间,未来的五年、十年或者更长时间,进行研究和分析,并与各利益相关者(包括民间社会、学术界和政府)进行互动,从而在这个快速发展的领域中,确定最佳方案,将好处最大化并将风险降至最低。
在当前阶段,这主要包括在这些领域进行更多的研究,比如提出更好的评估方法和基准来对这些前沿系统的能力进行严格测试。
你谈到了 AI 模型的工具使用,你可以让一个大型语言模型去做某件事情,它会去询问 AlphaFold 来帮你折叠蛋白质。当将这样的系统组合和集成在一起时,从历史上看,这就会出现新的行为特征、以及你无法预测的事情。你对此感到担忧吗?对此并没有一种严谨的测试方法。
没错,完全正确。我认为我们应该提前研究和思考的正是这种情况:随着工具使用变得更加复杂,以及能够以不同方式将不同的 AI 系统组合在一起,可能会出现新的行为特征。当然,这种新行为特征可能非常有益且极其有用,但在错误的人手中或恶意操作者的手中,它也有潜在的危害性。
假设全世界大多数国家都就某种 AI 监管框架达成一致,但个别国家却表示:“见鬼去吧,我才不遵守规则。” 这将成为恶意行为者进行 AI 研究的中心。那会是怎样的情景呢?你是否预见到这种可能存在的世界?
是的,我认为这是一个可能的世界。这就是为什么我一直在与政府进行对话的原因,我认为在未来几年内无论是什么样的监管措施、防护措施或其他事情都应该进行测试。理想情况下,这些措施应该是全球性的,并且应该在这些安全保障方面进行国际合作和国际协议。
如果政府在这里通过一项规定,“这是允许谷歌做的事情,这是允许微软做的事情。你们负责,你们要负责任。”那么你可以说:“好的,我们就不在我们的数据中心运行这段代码。我们不会拥有这些能力;这是非法的。”如果我只是一个用 MacBook 的普通人,你会接受对 MacBook 的某些功能进行限制,因为 AI 的威胁太可怕了吗?这是我担心的事情。从实际角度来看,如果有开源模型,并且人们将它们用于奇怪的事情,我们会告诉英特尔限制其芯片的功能吗?我们如何实施这样的限制,以便真正影响每个人,而不仅仅是“如果谷歌做了我们不喜欢的事情,我们就把 Demis 关进监狱”的做法呢?
我认为这些是当前正在进行辩论的重要问题。我确实担心这个问题。一方面,开源和加速科学讨论有很多好处,很多进展都是在那里发生的,并且给许多开发者提供了机会。另一方面,如果有一些不良个人利用这种途径做出坏事并且扩散出去,可能会带来一些负面后果。我认为这是接下来几年需要解决的问题。我认为还好,因为现在系统并不那么复杂、那么强大,因此风险也不那么大。
但我认为随着系统能力和普适性增强,访问权限的问题将需要从政府的角度进行思考,他们如何限制、控制或监控这一点将是一个重要问题。我没有为你提供答案,因为我认为这实际上是一个社会性问题,需要社会各界的利益相关者共同参与,权衡其中的利益和风险。
谷歌自己的工作,你说你们还没有达到那个程度,但是谷歌在 AI 领域的工作确实引发了一些争议,涉及到责任以及模型能够或不能够做到的事情。Emily Bender、Timnit Gebru 和 Margaret Mitchell 发表了一篇著名的《随机鹦鹉》(Stochastic Parrots)论文,这篇论文引起了谷歌内部的很多争议,也导致了他们离职。你读过那篇论文,是否认为:“好吧,这是正确的,大型语言模型会向人们撒谎,谷歌将对此负责”?现在面临如此多的审查,你对此有何看法?
是的,事实上,大型语言模型存在幻觉和不准确的问题,这也是谷歌一直非常负责任的原因之一。我们知道这一点。在接下来的几年里,改善事实性、联系性以及确保它们不传播虚假信息等方面是需要加以改进的关键领域。这是我们非常关注的问题。我们有很多改进的想法。我们曾经发布的 DeepMind 的 Sparrow 语言模型是一个实验,旨在探索在这些系统中我们能够达到多好的事实性和规则遵从性。结果表明,我们可能可以将其改进一个数量级,但有时候这可能以语言模型的清晰度、创造力或实用性为代价。
确实,这有点像是帕累托边界(Pareto frontier),如果在一个维度上改进,就会在另一个维度上降低能力。理想情况下,在下一阶段和下一代系统中,我们希望将当前系统的创造力、清晰度和趣味性与事实性和可靠性相结合。在这方面我们还有很长的路要走。但我可以看到事情正在改善,我没有看到任何理论上的原因,阻碍这些系统在未来几年内无法达到极高水平的准确性和可靠性。
当你使用谷歌搜索生成体验(SGE)时,你是否相信它所说的内容?
我相信它。有时我会进行双重核实,特别是在科学领域,我曾经有过非常有趣的情况,实际上所有这些模型都会出现这种情况。例如,当我要求它们总结某个研究领域时,我认为如果它们能够做到这一点将非常有用,然后问:“那么,我应该阅读哪些重要的论文?”它们会给出听起来非常可信的论文,带有看似合理的作者名单。但是,当你去查看时,结果发现它们只是该领域最有名的人或两篇不同论文的标题组合在一起。但当然,从词汇的组合来看,它们非常可信。我认为,在这种情况下,这些系统需要理解引用、论文和作者名单是一个整体,而不是逐字逐句的预测。
这些有趣的案例确实需要我们改进,而且作为想要推动科学前沿的人,我们当然希望改进和修复这些问题,这是一个特别有趣的应用场景,我们希望能够改进它,也为了满足我们自己的需求。我希望这些系统能够更好地为我总结出“关于某种特定疾病,以下是可读的最佳五篇论文”的信息,或者类似的内容,以便迅速了解某个特定领域。我认为这将非常有用。
和你说一件事,我搜索了我的朋友 John Gruber,SGE 自信地告诉我,他是报纸中使用 Mac 的先驱,并发明了 WebKit。我不知道这个信息来源是什么。在向广大用户推出之前,它是否需要达到某种质量水平或真实度?
是的,我们一直在思考这个问题,尤其是在谷歌,因为谷歌对搜索等方面有着极高的标准,而我们每天每时都依赖这些服务。我们希望能够达到那种可靠性水平。显然,目前我们还有很长的路要走,不仅是我们,任何人在生成系统方面都还远远没有达到这个水平。但这是我们的黄金标准。实际上,工具使用在这方面非常有用,你可以构建这些系统,使它们能够自行事实核查,甚至使用搜索或其他可靠的来源进行交叉参考,就像一个好的研究人员一样交叉核对事实。同时,我们还需要对世界有更好的理解,了解研究论文是什么,它们涉及哪些实体等等。
因此,这些系统需要对它们处理的媒体有更好的理解。或许还可以赋予这些系统推理和规划的能力,因为这样它们就可能可以对自己的输出进行评价。在游戏程序中,我们在这方面有很多经验。它们不仅输出你在国际象棋或围棋中首先想到的第一步。实际上,它们进行一些搜索和规划,然后进行备份。有时它们改变主意,转而选择更好的步骤。你可以想象在语言和文字中也可以有类似的过程。
有一个概念叫做模型崩溃(model collapse)。我们将会用由大型语言模型生成的数据来训练大型语言模型,这可能形成一个循环。当你谈论到事实的交叉参考时,我想到了谷歌——谷歌会从互联网上获取一堆信息并尝试进行交叉参考,但是也许所有这些信息都是由 2023 年时大型语言模型产生的妄想。那么,如何防范这种情况呢?
我们正在致力于解决这个问题,而且我们正在开发一些非常出色的解决方案。我认为答案是使用加密水印技术(encrypted watermarking),一种复杂的水印技术,它很难或者根本无法被轻易移除,并且可能直接嵌入到生成模型中,成为生成过程的一部分。我们希望发布这一技术,并可能将其提供给第三方作为一种通用解决方案。我认为该行业需要这些类型的解决方案,可以用某种标志标记生成的媒体,包括图像、音频,甚至是文本,向用户和未来的 AI 系统表明这些媒体是由 AI 生成的。我认为这是当前 AI 面临的一种非常紧迫的需求,尤其是针对深度伪造和虚假信息等近期问题。但我确实认为解决方案已经在望了。
Demis,非常感谢你,期待你的下次光临。
十分感谢。