不只是聊天机器人:一文梳理 ChatGPT 带来的真正影响
摘要: 管理人类反馈对于提高大型语言模型 (LLM) 的性能非常重要。
作者:Jacky Liang
自 OpenAI 发布 ChatGPT 以来,已经过去几个月的时间了。这个基于大型语言模型的聊天机器人不仅让许多 AI 研究员大开眼界,还让大众见识到了 AI 的力量。简而言之,ChatGPT 是一个可以响应人类指令的聊天机器人,可以完成从写文章、作诗到解释和调试代码的任务。该聊天机器人显示出令人印象深刻的推理能力,其表现明显优于先前的语言模型。
在这篇文章中,我将从个人角度出发,聊聊 ChatGPT 对三类人的影响:分别是 AI 研究员、技术开发人员和普通大众。在文章中,我将推测 ChatGPT 等技术的影响,并简单聊聊我认为可能发生的一些情况。这篇文章更倾向于发表个人观点,而不是基于事实的报告,所以对这些观点要持谨慎态度。那么,让我们开始吧……
ChatGPT 之于 AI 研究员
对我这个 AI 研究员来说,从 ChatGPT 上学到的最重要的一课是:管理人类反馈对于提高大型语言模型 (LLM) 的性能非常重要。ChatGPT 改变了我,我猜也改变了许多研究人员对大型语言模型 AI 对齐问题的看法,我具体解释一下。
图:LLM 的强化学习与人的反馈(RLHF)
在 ChatGPT 问世之前,我想当然地认为,当涉及到 LLM 时,我们面临着两个不同的问题。1)提高 LLM 在某些基于语言的任务(如总结、问答、多步骤推理)中的表现,同时 2)避免有害的/破坏性的/有偏见的文本生成。我认为这两个目标是相关但独立的,并将第二个问题称为对齐问题。我从 ChatGPT 中了解到,对齐和任务表现其实是同一个问题,将 LLM 的输出与人类的意图对齐,既能减少有害内容,也能提高任务表现。
为了更方便理解,这里给出一些背景信息:我们可以将现代的 LLM 训练分为两个步骤。
- 第一步:神经网络模型的自监督学习(SSL),在给定前一批单词(tokens)序列的情况下预测下一个单词(token)——这是在一个非常大的、互联网规模的数据集上训练的。
- 第二步:通过各种技术使 LLM 的生成与人类的偏好保持一致,比如在高质量的指令遵循文本的小数据集上微调 LLM,并使用强化学习来微调 LLM 与预测人类偏好的学习奖励模型。
在 ChatGPT 身上,OpenAI 很可能使用了许多不同的技术,相互配合来产生最终的模型。另外,OpenAI 似乎能够快速回应网上关于模型出错的投诉(例如产生有害的文本),有时甚至在几天内就能完成,所以他们也一定有办法修改/过滤模型的生成,而无需重新训练/微调模型。
ChatGPT 标志着强化学习(RL)的悄然回归。简而言之,有人类反馈的强化学习(RHLF)首先训练一个奖励模型,预测人类会给某一 LLM 生成内容打多高的分数,然后使用这个奖励模型通过 RL 来改善 LLM。
我不会在这里过多地讨论 RL,但 OpenAI 历来以其 RL 能力而闻名,他们写的 OpenAI gym 启动了 RL 研究,训练 RL 代理玩 DoTA,并以在数百万年的模拟数据上使用 RL 训练机器人玩魔方而闻名。在 OpenAI 解散其机器人团队之后,RL 似乎逐渐被 OpenAI 所遗忘,因为它在生成模型方面的成就主要来自于自我监督学习。ChatGPT 的成功依赖于 RLHF,它使人们重新关注 RL 作为改进 LLM 的实用方法。
图:AI 专家预测 ChatGPT 的运行成本
ChatGPT 的到来还证明了一点:学术界开发大规模 AI 功能将越来越困难。虽然这个问题在整个深度学习时代都可能出现,但 ChatGPT 使它变得更加根深蒂固。不仅训练基本的 GPT-3 模型对小型实验室来说遥不可及(GPT-3 和随后 OpenAI 在微软将 Azure 的全部力量投入到它身上之后,建立了专门的服务器群和超级计算机才开始真正发展,这不是巧合),而且 ChatGPT 的数据收集和 RL 微调管道可能对学术实验室造成过大的系统/工程负担。
将 ChatGPT 免费提供给公众,可以让 OpenAI 收集更多宝贵的训练数据,这些数据对其未来的 LLM 改进至关重要。这样一来,公开托管 ChatGPT 实质上是 OpenAI 的大规模数据收集工作,而这不是小型组织能够承担的。
开源和与 HuggingFace 和 Stability 等公司在学术上的大规模合作可能是学术界目前前进的方式,但这些组织总是比拥有更大预算的小团队前进得慢。我推测,当涉及到最先进的语言模型时,开源通常会滞后于这些公司几个月到一年。
我认为学术界可能扳回一成的唯一方法是,是否有国家级的计算云专门用于学术 AI 研究。这无疑将花费数十亿美元,需要专门的行政和工程人员。这并非毫无可能——它将类似于詹姆斯・韦伯太空望远镜和大型强子对撞机。在美国,一些人已经在呼吁建立国家 AI 云,进行 LLM 推理,但训练和微调 LLM 和其他基础模型的能力也同样重要。鉴于 AI 国家战略重要性,我们可能会在不久的将来真正看到这个方向的发展。
同时,AI 研究员并不总是要训练大模型才能产生大影响。我的看法是,与其争夺下一个最大最好的 LLM,较小的学术实验室可以专注于改善现有 LLM 的使用,分析它们的优势和劣势,并利用有些公司以非常低的成本托管这些非常强大的 LLM 的事实。例如,可以利用 OpenAI 和其他公司的现有 LLM API 来进行 LLM 对齐的研究,而不需要学术实验室从头开始训练这些模型。对强大的 LLM 的低成本和公开的访问使得一整套公开的研究能够发现 LLM 的新能力和应用。
ChatGPT 之于技术从业者
对于那些在技术领域工作和开发产品的人来说,ChatGPT 和类似的代码编写模型呈现出显著的一阶和二阶效应。对于程序员来说,使用基于 AI 的代码补全和 ChatGPT 风格的问答来学习编码和理解现有的代码库将成为软件工程工作中不可或缺的一部分。我推测,在未来的一年内,许多大学将开设计算机科学课程,教授在软件工程等应用中利用 AI 的最佳实践。
ChatGPT 和更强大的 AI 代码辅助将迫使软件工程师对其操作的抽象级别进行根本性的重新制定。大多数软件工程师不需要推理低级机器代码,因为我们有非常强大的编译器,可以将人类可读的代码(如 C++)转换为机器可读的代码。软件工程师可以学习这些编译器的内部工作原理,以及如何编写最充分利用这些编译器特点和优势的代码,但他们自己不需要编写机器代码,也不需要编写自己的编译器。
编码 AI 很可能会成为新的“编译器”,将高级额人类指令转换为低级代码,但是在更高的抽象级别上。未来的软件工程师可能会编写高级文档、需求和伪代码,他们会要求 AI 编码员编写今天人们编写的中级代码。通过这种方式,我不认为软件工程师会被 AI 取代,而是被推到价值链的上游。未来,熟练掌握这项技能的软件工程师可能需要了解不同编码 AI 的优缺点,以及如何针对特定的应用领域最好地构建和修改 AI。
以上是一阶效应,ChatGPT 直接影响到技术从业者,特别是软件工程师的工作方式。对技术产品所能提供的东西的二阶影响可能会更深远。ChatGPT 和类似的 LLM 通过 1)释放全新的能力和 2)降低现有能力的成本,使其突然具有经济意义,从而使新产品成为可能。
图:机器人在自然语言中执行新任务
上述第一点的一个例子是,现在我们可以通过简单地让 AI 编码员将语言指令翻译成调用该软件 API 的代码,为任何软件添加自然语言用户界面。以一种可信赖的和可泛化的方式来做这件事将需要大量的努力,就像发布真正的产品一样,魔鬼就在细节中。尽管如此,这是一种彻头彻尾的新能力,我猜测自然语言软件 UI 会在所有的软件平台上爆发,尤其是在那些传统用户界面感到笨重和不方便的平台上(如移动设备、语音助手、VR/AR)。老实说,很难想象在 LLM 时代开发一款新应用而不包含一个基于语言的用户界面会怎么样。入门的门槛很低(只需要调用一个公开的 LLM API),如果你不这样做,你的竞争对手就会这样做,而且会提供更好的用户体验。
降低现有能力的成本听起来不像解锁新能力那么有吸引力,但它同样重要。LLM 可能存在很多有前景的应用,但为这些下游任务微调 LLM 的成本可能太高,不值得投资。有了 ChatGPT 和改进的指令跟踪,开发者可能不再需要收集大量的数据集来进行微调,而只需要依靠 zero-shot 性能(零样本学习性能)。预计在许多处理文本输入的现有应用中,基于文本的分类、摘要和内联预测功能将出现大量的“小规模”LLM 部署。这些对用户体验的边际改善在以前可能投资回报比很低,但现在却突然值得了。
低成本也意味着在应用 LLM 和其他基础模型的业务上有很多唾手可得的成果,通过良好的 UI/UX、现有软件产品内的集成以及有效的进入市场和货币化战略为消费者创造价值。Lensa 是一个能满足所有这些条件的例子。LLM 部署的这些更实际的方面往往会超过底层模型的绝对性能,成功的初创公司总是可以将旧的 LLM 与新的改进版本交换。这也意味着,那些应用 LLM 的人不应该把他们的技术栈与特定 LLM 的特性绑得太紧。LLM 的快速改进周期,加上可公开访问的 API,以及关键的商业差异化因素不是模型本身,这可能意味着 LLMs 将被商品化。
未来将有两种类型的科技公司能够继续向前发展——能够负担得起培训和运行自己的基础模型的公司,以及负担不起的公司,后者需要向前者支付基础模型税。这听起来很有戏剧性,但它与我们今天的情况没有什么不同,技术公司要么托管自己的服务器,要么向 AWS/Azure/GCP 交税。AI 云业务将是未来云平台的一个关键战场,并将给竞争对手提供超越现有企业的机会。例如,凭借微软的经验和与 OpenAI 的结合,Azure 很有可能凭借其 AI 云产品超越其他公司(微软已经在 Azure 上发布了 OpenAI 的模型,远远领先于其竞争对手亚马逊和谷歌)。
图:GPU 性能的增长速度远远快于 CPU 性能
最后,从一个更具推测性的角度来看,基于深度学习的基础模型可能会让我们在相当长一段时间内避免摩尔定律放缓带来的负面后果。随着这些模型的能力越来越强,它们将接管越来越多由传统软件完成的任务,这意味着越来越多的软件将可以通过仅仅优化神经网络的性能而得到优化。神经网络在 GPU 和特定应用的芯片上运行,其性能的提高并没有看到传统 CPU 改进的明显减速,这大致可以在摩尔定律的减速中体现出来。我们真的很幸运,有一个单一的神经网络架构,即 Transformer(由 ChatGPT 和其他基础模型使用),它可以代表通用计算,并经过训练,可以很好地执行这么多不同的任务。我们还没有接近优化 Transformer 性能的终点,所以我期望随着 LLM 变得更加强大并取代更复杂的传统软件堆栈,计算机会变得更快。
ChatGPT 之于大众
视频:耶鲁大学评 ChatGPT,更多是资源,而并非学习的替代品
ChatGPT 是许多普通大众可以直接与之互动的第一项 AI 技术。当然,在 ChatGPT 之前,有 Siri 和 Alexa,而且深度学习应用在许多商业应用中已经无处不在了。不同的是,以前部署的 AI 技术往往都在后台工作,通过传统软件和有限的用户界面层层 "过滤"。公众通过 ChatGPT 对 AI 有了更直接的体验,用户可以直接向 LLM 输入,并直接看到它的输出(OpenAI 确实过滤了有害的内容,并使用自己的提示修改了用户的输入,所以它没有直接与底层模型互动,但也足够接近)。ChatGPT 也明显比以前的聊天机器人更强大。再加上该服务目前一直是免费的,这些因素将 ChatGPT 推向了主流世界的讨论热潮。
相对以前,这种和 AI 的亲密接触让公众对 AI 的新奇和炒作有了更真实的体验。我可以想象,突然之间,对于那些不熟悉 LLM 工作原理的人来说,聊天机器人可能具有意识的说法听起来并不太牵强。这也反映出了一个问题,当涉及到 AI 的问题时,科学传播的缺失——我认为 AI 界在向公众宣传和普及 AI 如何工作、能做什么、不能做什么,以及如何负责任地使用 AI 技术方面做的非常差。见鬼,我们甚至都不能确定技术从业者了解 LLM 的基本知识,更不用说普通民众了,他们才是受这项技术影响的终端用户。在接下来的几年里,如果继续不对 AI 进行教育和沟通,可能会面临灾难性的后果,因为类似 ChatGPT 的模型会在没有适当预防措施的情况下进入关键任务的应用。
或者,从某种意义上说,让人们了解一项新技术的最好方法可能是让公众公开地试验这项技术及其应用,体验它的失败,并反复辩论和改进一些流行的观点。这一波基础模型的可用性,尤其是 ChatGPT 开创的免费使用的先例,可以让公众通过亲身体验更了解 AI,反过来引发更明智的理解和讨论。
DALL-E 2 是第一个真正优秀的文本到图像生成模型,发布仅仅几个月后,我们就已经看到了来自公司和社区的一系列不同的政策反应,试图适应这种新的现实,从完全禁止 AI 艺术到纳入 AI 艺术图片的销售。对于 ChatGPT,一些学术会议禁止它的使用(以及一些学校),而也有学者则将其列为合著者。围绕生成式 AI 也有不少正在进行的诉讼。目前还不清楚使用这些模型的法律和道德方式是什么,但很明显,这些围绕 AI 使用政策的小规模实验对于公众弄清楚这些事真的很重要。我个人认为这是一个很好的方向,因为我相信公共政策应该由公众讨论决定,而不是由任何一个托管这些模型的特定科技公司不清不楚的委员会决定。
图:新技术的采用需要时间,尽管随着时间的推移,采用速度越来越快
关于 ChatGPT 和类似基础模型的应用的最后一个想法——技术部署总是比技术创新需要更长的时间(尽管采用速度正在加快),虽然人们可以在一个周末的时间建立令人印象深刻的 LLM 演示,但仍然需要大量的工作和试错来建立可靠、可扩展的产品,为消费者带来价值。在科技领域,我们可能会在 2023 年看到生成式 AI 应用的海啸,但我预计这些应用在公众中的传播速度会慢得多。有许多因素会减缓大规模生成式 AI 的采用——现有系统和产品的惯性,对 AI 取代人类的认知的文化障碍,运行 AI 的成本在很多应用中可能没有意义,LLM 输出的不可靠性和可信度,以及扩大 LLM 计算基础设施以实时服务数十亿次的查询。这些挑战都不会在一夜之间,甚至在几个月内被克服。但它们最终会被克服,而 5 年后的世界将看起来非常不同。
未来如何?
如果说在过去 10 年的深度学习中我们学到了什么,那就是真的很难对 AI 做出准确的预测,包括它的发展和部署。然而,我可以自信地说,ChatGPT 只是未来的一个小预告。对于基础模型的未来,我在两个方向上看到了有前景的进展,我认为在今年或明年会有突破性进展:1)真正多模态的 ChatGPT 级基础模型(如文本、音频、图像、3 D、动作、视频、文件),以及 2)被设计用于在环境中采取行动的基础模型。
图:与其训练理解视觉和文本的独立模型(左),较新的模型可以直接理解图片中呈现的文本(右)。
对于 1),想象一个类似 ChatGPT 的界面,但你不仅可以上传文本,还可以上传音频、图像、视频、3 D 模型以及其他结构化文件,并让它 "理解"、分析、处理和生成这些内容。这样的技术如今已经存在,将所有这些模式整合到一个模型中似乎很简单。
对于 2),在不久的将来,拥有一个基础模型,能够通过键盘和鼠标与计算机进行可靠的互动,以执行人类今天的许多日常任务,似乎是合理的。有一些证据表明这是可行的,从瞄准机器人过程自动化的初创公司到试图训练 AI 代理完成 Minecraft(游戏:我的世界)中的开放式目标的研究人员。为物理机器人而不是虚拟代理开发这种面向动作的基础模型将更加困难,但进展已经在进行中。
图:一种语言模型,可以将自然语言指令转换为与 Web 端浏览器交互的动作。
关于商业化,一方面,科技巨头有能力利用他们庞大的计算资源来训练真正强大的模型。但另一方面,公共/开源模型也将变得非常流行/易于使用,所以我不确定拥有自己的模型对很多应用来说是一个很大的优势。如前所述,基础模型很可能会被商品化。因此,对于已经拥有设备/操作系统的大型科技公司来说,开发适合 LLM 的平台,允许其他人使用基础模型,并在上面建立新的应用,而不是直接与其竞争建立这些应用(想象一下,一个专门为多模式或面向行动的基础模型定制的移动/AR/VR/桌面/网络操作系统),这么做才是合理的。
最后,展望未来,我们可能会在未来 5 年内告别 "从互联网上获取免费数据" 的制度,它真正推动了最近基础模型的进展。虽然定制数据总是需要用于特定领域的微调/校准(通过传统的监督学习或 RLHF),但用大规模的 "免费" 数据预训练强大的模型无疑导致了 GPT 和类似模型的成功。看社区如何超越仅仅搜刮现有的数字数据来提高基础模型的性能,这将是很有趣的。可以肯定的是,我们仍然会通过更好的训练和对齐技术来改进模型,但大规模自我监督学习的下一个前沿是什么?下一个 10 万亿或 100 万亿的数据点从何而来?我很想知道。
评论(0)
Oh! no
您是否确认要删除该条评论吗?