近日,全球知名风险投资机构红杉资本发布了其备受瞩目的年度报告,聚焦生成式人工智能(AI)。
这份报告不仅总结了过去一年生成式AI领域的重大进展,更深入剖析了其对未来商业格局和社会发展的深远影响。
在生成式 AI 革命进入第二个年头时,研究正从“快速思考(System 1)”转向“慢速思考(System 2)”,也就是从迅速生成预训练结果转向推理过程中进行深度思考。这一转变为一系列全新的自主型应用程序打开了大门。
自我们发表《生成式 AI:一个创意新世界》一文以来,两年过去了,AI 生态系统已经发生了很大的变化,我们也对未来有了一些新的预测。
生成式 AI 市场的基础层已经趋于稳定,形成了由一些重要玩家和联盟主导的平衡态,包括 Microsoft/OpenAI、AWS/Anthropic、Meta 和 Google/DeepMind。现在,只有那些具备经济实力并能够获得巨额资本的玩家还在竞争中。虽然这场竞争还远未结束(而且仍然像博弈论中的游戏一样不断升级),但市场结构正在逐渐明朗化。可以预见,未来生成下一个 token 的成本会越来越低,数量会越来越多。
随着大规模语言模型(LLM)市场趋于稳定,下一个竞争前沿已经开始显现。人们的注意力正逐渐转向推理层的开发和扩展,这一层以“系统 2”思维为主导。受到 AlphaGo 等模型的启发,这个层面旨在让 AI 系统在推理过程中进行深思熟虑的推理和问题解决,而不仅仅是简单的模式匹配。同时,新的认知架构和用户界面也在改变这些推理能力如何与用户互动。
那么,这些变化对 AI 市场的创业者意味着什么?对现有的软件公司又意味着什么?作为投资者,我们在哪一层看到生成式 AI 堆栈的最大回报潜力?
在我们最新的文章中,我们将探讨基础 LLM 层的整合如何为扩展这些更高阶的推理和自主能力奠定基础,并展望一代具有新型认知架构和用户界面的“杀手级应用”。
2024 年最重要的模型更新非 OpenAI 的o1 莫属,它以前被称为 Q*,内部代号为 Strawberry。此次更新不仅是 OpenAI 重回模型质量榜首的有力宣言,也在现有的模型架构上做出了显著突破。更重要的是,这款模型首次展现了真正的通用推理能力,这一成就是通过推理阶段的计算实现的。
那具体意味着什么呢?目前的预训练模型主要依靠“训练阶段的计算”来在海量数据上进行下一个词的预测。规模的增加确实带来了基本的推理能力,但这种推理相对有限。设想一下,如果你能教会模型更直接地进行推理呢?这正是 Strawberry 所做的。当我们提到“推理时计算”时,指的是让模型在作答前进行“停下来思考”,这一过程需要更多的计算资源,因此被称为“推理时计算”。“停下来思考”本质上就是推理的过程。
那么,模型在停下来思考时到底在做什么呢?
我们可以回到 2016 年 3 月,地点是首尔。在那里发生了深度学习历史上具有划时代意义的时刻:AlphaGo 对战围棋传奇李世石。这不仅仅是一场 AI 对人类的胜利,也是 AI 开始展示超越简单模式模仿、真正“思考”的开端。
与早期的游戏 AI 系统(如深蓝)不同,AlphaGo 在预训练时不仅模仿了人类专家的决策,它还会在作答前“停下来思考”。在推理阶段,AlphaGo 会模拟多个未来可能的棋局,评估它们的得分,然后选择最优的应对方式。它使用的时间越多,表现越好。如果没有推理时计算,AlphaGo 无法击败顶尖的人类棋手,但随着推理时间的增加,它的表现逐步提升,最终超过了人类。
将这一概念移植到 LLM 上的难点在于如何构建价值函数,也就是如何对模型的响应进行评分。如果是围棋,模型可以通过模拟对局直到结束来确定最佳策略。如果是编程,可以测试代码的正确性。但如果是评估一篇文章的初稿、制定旅行计划或总结文件的关键术语,该如何打分呢?这就是推理在目前技术中的难点,也是 Strawberry 在逻辑领域(如编程、数学、科学)表现强大,但在较为开放的领域(如写作)表现相对不足的原因。
虽然 Strawberry 的具体实现细节仍是保密的,但核心思想是围绕模型生成的“思维链”进行强化学习。对这些思维链的审查表明,模型正在发生一些类似人类思维的突破性变化。例如,o1 展现了遇到瓶颈时能够“回头反思”的能力,这是一种推理时间扩展的自然结果。它还能像人类一样通过可视化思考来解决几何问题,甚至能够以超越人类的方式解决编程难题。
此外,还有许多新的研究方向正在推动推理时计算的发展,例如计算奖励函数的新方法、缩小生成器与验证器之间差距的新途径。研究团队正在不断改进模型的推理能力。换句话说,深度强化学习再次成为焦点,并为全新的推理层奠定了基础。
思维 AI 研究正进入一个全新的阶段,从预训练的“本能反应”(“系统 1”)到深度推理(“系统 2”)的飞跃,成为下一个突破点。如今,AI 需要的不仅仅是记住知识,而是能够在作出决策前停下来思考,评估信息,进行实时的推理。
预训练可以看作是“系统 1”的过程。无论是像 AlphaGo 那样,通过数百万盘围棋对局数据训练,还是像 LLM 那样,用海量互联网文本进行预训练,其核心都是模仿模式——无论是模仿人类的棋局还是语言模式。然而,模仿虽然强大,但并非真正的推理,它在应对复杂且未知的问题时表现有限,尤其是样本外的情境。
这就是“系统 2”思维的重要性所在,也是目前 AI 研究的重点。当模型“停下来思考”时,它并非简单地复述过去的经验或模式,而是生成一系列可能的方案,考虑不同结果,并基于逻辑推理作出决策。
对于许多简单任务来说,“系统 1”已经足够。例如,正如 Noam Brown 在我们最新一期《Training Data》中提到的,花更多时间思考不丹的首都是什么并不会有帮助——你要么知道答案,要么不知道。在这种情况下,快速的模式识别和记忆完全足够。
但是,当面对更复杂的问题时,比如数学和生物学上的重大突破,简单的本能反应已经不够。这样的进展需要深度思考、创造性地解决问题,最重要的是需要时间。同样,对于 AI 来说,处理这些高难度的、有意义的问题,必须超越快速的“样本内”响应,花时间去进行深度推理,这也是推动人类进步的关键。
推理时代的竞赛开始 o1 论文最关键的发现是,AI 推理层面有了一条新的扩展法则。
预训练 LLMs 遵循的扩展法则已经被广泛理解:投入越多的计算资源和数据,模型的表现就越好。
而 o1 论文则揭示了另一个全新的扩展维度:你赋予模型的推理时间(或称“测试时间”)越多,模型的推理能力就越强。
当模型可以连续思考数小时、数天甚至数十年时,会发生什么?我们能解决黎曼假设吗?我们能找到阿西莫夫所提的终极问题的答案吗?
这一变革将把我们从依赖庞大预训练集群的时代,带入推理云的世界——这些云环境能够根据任务复杂度灵活调整计算能力。
当 OpenAI、Anthropic、Google 和 Meta 继续扩展推理层,开发出越来越强大的推理机器时,未来会如何?我们会走向“一个模型统治所有”的局面吗?
生成式 AI 市场早期曾有一个假设:某个单一的模型公司将变得极其强大,足以整合所有其他应用。然而,到目前为止,这一预测有两点是错误的。
首先,模型层依然存在激烈的竞争,最前沿的技术不断被超越。虽然有人可能通过自我博弈,实现模型的持续自我改进,并因此引发“突飞”,但目前我们还没有看到这样的迹象。相反,模型层的竞争如刀尖上的较量,自从上次开发者大会以来,GPT-4 每个 token 的价格下降了 98%。
其次,除了 ChatGPT 外,模型尚未在应用层掀起巨大的波澜。现实世界充满复杂性。顶尖的研究人员并没有兴趣去了解每个垂直行业的端到端工作流程的繁琐细节。他们更倾向于停留在 API 这一层,这既有吸引力,也更加经济合理。而开发者则可以处理现实世界的复杂性。对应用层来说,这是个利好消息。
复杂的现实世界:定制化认知架构 作为科学家,你规划并执行目标的方式与作为软件工程师时截然不同。即便是软件工程师,在不同公司中工作方式也会大不相同。
尽管研究实验室不断推动通用推理的极限,我们依然需要特定领域和应用场景下的推理来交付有效的 AI 代理。现实世界的复杂性要求大量特定领域和应用场景的推理,而这些推理无法通过通用模型高效实现。
Sierra 就是一个很好的例子。B2C 公司将 Sierra 集成到他们的网站上,负责与客户交流。Sierra 的工作是解决客户问题,它按每次解决问题的数量来收费,这里并不存在“按席位收费”的概念。你有一个需要完成的任务,Sierra 完成了这个任务,获得相应的报酬。
对许多 AI 公司而言,这就是他们的“北极星”。Sierra 的优势在于,当它无法解决问题时,能优雅地将问题转交给人工处理(即升级到人工客服),但并非所有公司都有这样的幸运。现在出现的趋势是,首先将 AI 作为辅助驾驶(human-in-the-loop)部署,并通过这些使用机会逐步积累经验,最后实现全自动化部署(无人工参与)。GitHub Copilot 就是一个典型案例。
新一代自主型应用 随着生成式 AI 推理能力的提升,一类全新的自主型应用开始涌现。
这些应用层公司的形态是怎样的呢?有趣的是,它们与传统的云计算公司看起来有所不同:
我们看到,在知识经济的各个领域,一批新兴的自主应用正快速涌现。以下是一些例子:
通过大幅降低这些服务的边际成本(与推理成本的急剧下降同步),这些自主型应用正在不断扩展,并创造出全新的市场。
举个例子,XBOW 正在开发 AI 渗透测试员。“渗透测试”是模拟的网络攻击,旨在帮助公司评估其安全系统。在生成式 AI 出现之前,企业只会在特定情况下(例如为了满足合规要求)雇佣渗透测试员,因为人工渗透测试十分昂贵,这是一项需要高度专业技能的人工工作。然而,XBOW 展示了其基于最新推理 LLM 的自动渗透测试,其性能与最优秀的人类渗透测试员相媲美。这不仅大大扩大了渗透测试的市场规模,还为各种规模的公司提供了持续渗透测试的可能性。
今年早些时候,我们与有限合伙人讨论过,他们最关心的问题是:“AI 的转型是否会摧毁现有的云计算公司?”
最初,我们的默认回答是“不会”。在初创企业和大公司之间的竞争中,通常是初创企业在构建分销渠道,而 incumbents(现有大公司)则专注于优化产品。这场竞争的关键在于,初创公司是否能在 incumbents 拿出酷产品之前,吸引足够多的用户。鉴于生成式 AI 的核心技术基础模型对初创公司和大公司都是开放的,并且 incumbents 本身就拥有数据和分销优势,因此我们认为,大公司不会受到太大冲击。初创企业的机会并不是要取代大公司,而是瞄准那些可以自动化的工作领域。
然而,现在我们不再那么确定了。正如前文所述,认知架构带来了巨大的工程挑战。将模型的基础能力转化为成熟的、可靠的端到端解决方案,可能比我们想象的更为复杂。我们是否低估了“AI 原生”的巨大潜力?
二十年前,传统软件公司曾对 SaaS 的崛起不屑一顾。“这有什么大不了的?我们也可以自己运行服务器,通过互联网提供这些服务!”从表面上看,SaaS 确实概念简单,但其引发的却是一场业务模式的全面变革。从工程、产品和设计(EPD)部门的瀑布式开发转变为敏捷开发和 A/B 测试,到市场策略(GTM)从自上而下的企业销售转向自下而上的产品驱动增长(PLG),再到商业模式从高价格的销售转向基于使用的定价模式,这场变革彻底颠覆了传统软件公司的运营方式。最终,只有极少数的传统公司成功完成了这次转型。
如果 AI 带来的变革与 SaaS 类似呢?AI 的机会是否不仅仅是“销售工作”,还有可能取代现有的软件?
看看 Day.ai,我们已经见到了未来的雏形。Day 是一个 AI 原生的 CRM 系统。过去,系统集成商通过为 Salesforce 定制化配置,赚取了数十亿美元。然而,Day 只需接入你的电子邮件、日历,再加上一页简单的问卷回答,就能自动生成一个完全适合你业务的 CRM 系统。虽然它目前还没有所有的高级功能,但它完全自动化、无需人工干预的特性,已经让许多用户开始转向它。
作为投资者,我们的重点放在哪里?资金在流向哪些方向?以下是我们的一些简要分析。
这是超级规模商的主战场,主要由博弈论行为驱动,而非微观经济因素。对风险投资者来说,这不是一个理想的投资领域。
这是超级规模商和金融投资者的领域。超级规模商通过投资模型,将资产负债表中的资金转化为损益表中的收益,最终这些资金会通过计算收入回流到他们的云业务。金融投资者则往往被“科学震撼”的偏见所影响。虽然这些模型很酷,团队也非常令人敬佩,但微观经济学却被忽略了。
这一领域对战略投资者的吸引力较小,但对风险投资者而言更有前景。在云计算转型时期,大约有 15 家年收入超过 10 亿美元的公司诞生在这一层。我们预计 AI 转型期间也会有类似的情况发生。
对风险投资来说,这是最令人感兴趣的一层。在云转型期间,大约有 20 家应用层公司达到了 10 亿美元以上的年收入;在移动转型期间,也有约 20 家类似的公司诞生。我们认为,在 AI 转型中也会出现同样的趋势。
在生成式 AI 的下一个阶段,我们预计推理研发的成果将快速且深入地渗透到应用层。过去,很多认知架构依赖于巧妙的“解锁”技术;而随着这些能力逐渐深度嵌入到模型中,自主应用程序的复杂性和稳健性将会迅速提升。
在研究实验室中,推理和推理时计算将继续成为未来的重要议题。随着新的扩展法则的出现,新的竞赛已经开始。但在特定领域中,获取真实世界的数据并构建领域和应用特定的认知架构仍然是一个巨大的挑战。这意味着,在解决现实世界中多样化问题时,“最后一公里”的应用提供商可能更具优势。
展望未来,多代理系统,如 Factory 的“机器人”,可能会成为建模推理和社会学习过程的主流方式。一旦 AI 能够执行工作,我们将能组建团队,让“工人”完成更多任务。
我们所期待的,是生成式 AI 的“第 37 步”时刻——就像 AlphaGo 在与李世石对战的第二局中出人意料的那一步棋。当一个通用 AI 系统展现出超越人类的思考和决策时,那一刻便会到来。这并不意味着 AI 将“觉醒”(AlphaGo 并没有),而是 AI 在感知、推理和行动的模拟过程中,能够以全新的方式进行探索。这或许就是通用人工智能(AGI),但如果是这样,它并不会是单一的奇迹,而是技术发展的下一个阶段。