训练大模型最强的公司,会是用大模型最好的公司吗

这是一个听起来像是废话的问题——用脚想也知道不一定嘛。但如果深入想,这个问题背后藏着关于 AI 时代竞争格局最有趣的一个结构性判断:训练能力和应用能力,是两套几乎不重叠的能力栈,而且它们之间有天然的张力。

这个判断如果成立,它对 AI 行业的格局意味着很多事情。

一、为什么是两套完全不同的能力

先把两件事分别拆开看。

训练大模型需要什么

  • 超大规模数据工程:收集、清洗、去重、过滤数万亿 token 的训练数据,这是一个极度复杂的工程问题
  • 分布式训练系统:在数千甚至数万张 GPU 上稳定地跑几个月,中间出任何问题都可能让训练崩溃
  • 模型架构研究:Transformer 的各种变体、注意力机制优化、位置编码、MoE 架构……这是纯粹的学术研究能力
  • 对齐技术:RLHF、Constitutional AI、DPO——让模型的输出符合人类价值观,这是一个既技术又哲学的问题
  • 评估体系:设计 benchmark,理解模型的能力边界,判断一个改进是真进步还是在 benchmark 上作弊

训练大模型是一个研究驱动、资本密集、需要长时间专注的工作,成功的标志是模型在各种 benchmark 上的分数和研究论文的引用量。

用好大模型需要什么

  • 对具体业务场景的深度理解:知道用户在哪个环节卡住,哪类任务 AI 能真正帮上忙
  • Prompt 工程与 RAG 架构:如何把业务知识喂给模型,如何控制输出的格式和可靠性
  • Agent 编排:让多个工具调用和多轮推理可靠地串联起来
  • 延迟与成本控制:推理成本是真实约束,每个 API 调用都有代价
  • 快速迭代产品感:AI 产品的反馈循环很短,需要快速试错
  • 处理模型不确定性:幻觉、拒绝回答、输出不一致——如何在产品层面优雅地处理这些

用好大模型是一个工程落地 + 产品直觉驱动的工作,成功的标志是用户留存、NPS 和业务指标。

把这两个列表放在一起,你会发现:重叠的部分少得令人惊讶。前者需要的是数学和系统工程能力,后者需要的是产品感和领域知识。在大多数公司,做这两件事的甚至不是同一批人。

二、组织激励是分裂的根源

能力栈的不同只是表面,更深层的问题是激励机制的根本分歧

训练大模型的研究者,他们的职业发展路径是:发顶会论文 → 被引用 → 在学术界或业界获得声誉 → 晋升。他们的成就感来自模型能力的突破,来自在 benchmark 上超过对手。

这套激励机制有一个内在的倾向:关注的是模型能做什么,而不是用户需要什么。一个在 MMLU 上提升了 2 分的改进,对研究者来说是重大成果,但对一个想用 AI 帮助用户做报税的产品来说,可能毫无意义。

做 AI 应用的人,他们的激励是:产品 DAU 增长 → 用户付费 → 业务收入。他们关注的是"这个功能对用户的工作效率提升了多少",而不是"这个模型的参数量有多大"。

这两种激励机制产生了两种完全不同的工作方式:

graph LR
    subgraph Train[训练侧 研究驱动]
        R1[发现新架构] --> R2[验证效果]
        R2 --> R3[发表论文]
        R3 --> R4[提升模型能力]
    end
    subgraph Apply[应用侧 产品驱动]
        A1[发现用户痛点] --> A2[快速原型]
        A2 --> A3[测量业务指标]
        A3 --> A4[迭代改进]
    end

    style Train fill:#fde8d8,stroke:#e67e22
    style Apply fill:#d6eaf8,stroke:#2980b9

这两个循环都是自洽的,但它们之间几乎没有交点。一个组织很难同时在两个循环里都做得很好,因为它们需要的文化、激励和人才是互相矛盾的。

三、历史给了我们一个清晰的先例

这种"技术领先但应用落后"的模式,在科技史上并不罕见。

施乐 PARC 是最经典的案例。1970 年代,施乐的研究院发明了图形用户界面、鼠标、以太网、激光打印机——几乎是现代个人计算的全部基础。但施乐自己没有把这些发明变成商业产品,苹果和微软做到了。

为什么?因为施乐的激励体系是面向研究的,他们衡量成功的方式是技术突破,不是商业产品。当乔布斯参观 PARC 并看到图形界面时,他立刻意识到这能做成什么产品——但 PARC 的研究者们自己没有这种产品直觉,也没有这种激励。

贝尔实验室发明了晶体管,但做出第一批消费级晶体管收音机的是日本公司。IBM 研究院有无数突破性发明,但最终把这些发明变成产品的往往是别的公司。

这个模式有一个名字:技术溢出(Technology Spillover)——技术从发明者那里流向更擅长应用的人。AI 时代的结构和此前如出一辙,只是速度更快了。

四、现实中的分离:具体案例

OpenAI 与它的应用层

OpenAI 训练了 GPT-4,这是目前最强的模型之一。但 GPT-4 用得最好的地方,往往不是 OpenAI 自己的产品 ChatGPT,而是建立在 OpenAI API 之上的第三方应用。

Cursor:用 GPT-4 做代码编辑器。它的核心创新不是模型,而是对代码上下文的理解方式、对开发工作流的深度嵌入、以及它迭代产品的速度。Cursor 的工程师理解开发者的工作方式,这种理解是 OpenAI 的研究者不具备的。

Perplexity:用 GPT-4 做搜索引擎。它的创新是对"搜索"这个场景的重新定义——不是给链接,而是给答案。这是产品直觉,不是模型技术。

Harvey:用 GPT-4 做法律工具。它的护城河是对法律工作流程的深度理解,而不是模型本身。律师需要的是能引用判例、能审查合同、能理解法律语言细节的工具——这些都需要法律领域知识,不是更好的 Transformer。

这种现象有一个讽刺的地方:OpenAI 的 API 越好,这些应用公司越能做出更好的产品,但 OpenAI 自己从中获得的竞争优势却是固定的——它只是 API 提供商。

谷歌的困境

谷歌有 DeepMind 和 Google Brain,拥有全球最顶尖的 AI 研究者群体。它训练了 Gemini,在很多技术指标上和 GPT-4 不相上下,在某些维度上甚至更强。

但谷歌在 AI 产品层的表现,长期被 OpenAI 压制。Bard 发布时的公开演示出了事故,Gemini 的产品体验被大量用户批评。

原因是多方面的,但有一个关键因素:谷歌的核心产品——搜索广告——和 AI 助手是有利益冲突的。如果 AI 直接给答案,用户就不点广告了。这个内部矛盾让谷歌在 AI 应用层的激进程度天然受限,无论它的技术能力有多强。

这说明:就算有训练能力,组织内部的利益结构也可能阻碍应用能力的发挥。

字节跳动:从应用到模型

字节跳动不是最会训练模型的公司,但它有几个独特的优势:

  • 海量用户数据和内容,这是训练或微调模型的天然原料
  • 极强的快速迭代文化,一个产品从立项到上线的速度极快
  • 成熟的推荐算法工程能力,可以迁移到 AI 场景

字节的路径是:先在应用层找到真实的业务场景(豆包、剪映 AI、Coze),然后用业务数据反向优化模型。它不是从训练最强模型出发,而是从"哪里有用户价值"出发,再往上走到模型层。

这和 OpenAI 的路径正好相反:OpenAI 从训练最强模型出发,然后再往下走到产品层。哪条路更有效,目前还没有定论,但两条路的出发点根本不同。

五、分离是结构性的,不会消失

有人可能会说:这只是暂时的,最终大公司会补上它缺失的那条腿。谷歌会学会做产品,OpenAI 会学会做应用,它们会融合在一起。

这种想法低估了组织惯性的力量。

文化和激励机制很难改变。 一个以研究为导向建立起来的组织,很难转变为以产品为导向。它招募的人、它的晋升机制、它的成功叙事,都是围绕研究突破建立的。让这样的组织变成一个好的产品公司,相当于让一个人改变自己的性格——理论上可能,但实践中极难。

这两件事需要的资源会持续竞争。 GPU 既可以用来训练更大的模型,也可以用来给更多用户提供推理服务——这是一个真实的资源分配矛盾。在资源有限时,优先训练还是优先应用,会不断地成为一个需要决策的问题,而这个决策会反映组织的核心价值观。

速度要求相反。 训练大模型需要稳定、长期的计划——一个预训练周期可能要几个月,中途改变方向的成本极高。做好 AI 应用需要快速迭代——用户反馈今天来,明天就要有版本。这两种工作节奏放在同一个组织里会产生冲突。

六、这对行业格局意味着什么

如果训练能力和应用能力是分离的,AI 行业的竞争格局就会呈现出一个有意思的结构:

graph TD
    Layer1[基础模型层 OpenAI Anthropic Google DeepMind Meta AI]
    Layer2[中间层 API 提供商 微调服务 推理优化]
    Layer3[应用层 垂直领域应用 Cursor Harvey Perplexity 企业内部工具]
    Layer4[行业整合层 把AI嵌入现有业务流程的传统企业]

    Layer1 -->|模型能力| Layer2
    Layer2 -->|API 调用| Layer3
    Layer3 -->|解决方案| Layer4

    style Layer1 fill:#fde8d8,stroke:#e67e22
    style Layer2 fill:#fff9c4,stroke:#f9a825
    style Layer3 fill:#d5f5e3,stroke:#27ae60
    style Layer4 fill:#d6eaf8,stroke:#2980b9

每一层都有自己的护城河:

  • 基础模型层:技术壁垒极高,但商业化路径复杂,且护城河会随开源模型的进步逐渐被侵蚀
  • 中间层:技术门槛中等,竞争激烈,很难有持续的差异化
  • 应用层:护城河来自对特定场景的深度理解和用户数据积累,一旦建立很难被复制
  • 行业整合层:护城河来自现有的客户关系、行业知识和分销渠道,AI 只是加速器

一个反直觉的结论:在长期竞争中,基础模型层的护城河可能比应用层更脆弱。因为模型能力会同质化——今天 GPT-4 独家的能力,明年可能所有人都有;但 Cursor 对开发者工作流的深度理解,Perplexity 对搜索场景的重新定义,Harvey 积累的法律数据,这些会随时间加深而不是变浅。

七、什么情况下两者可能合一

这种分离不是绝对的,有几种情况下训练能力和应用能力可能在同一家公司里都做得很好:

场景一:应用公司反向走向训练。当一个应用公司积累了足够多的高质量领域数据,它开始微调甚至训练专属模型。Harvey 有大量法律案例数据;医疗 AI 公司有医学影像数据;金融 AI 有交易数据。这些数据是通用模型无法获取的,基于这些数据训练的专属模型可能在特定场景下远超通用模型。这条路不需要从零训练 GPT 级别的大模型,而是在一个强大的基础模型上做精准的垂直优化。

场景二:训练公司找到极强的产品负责人。Anthropic 的例子说明,如果创始团队既有顶级研究能力,又有产品直觉,两者可以兼顾。但这需要领导层的刻意设计——不能让研究文化淹没产品文化,也不能让产品压力干扰基础研究。

场景三:某个应用场景足够重要,以至于定制化训练是必要条件。在自动驾驶这个场景里,特斯拉既要做硬件(车),又要做模型训练(FSD),因为这个场景的数据和安全要求使得依赖外部 API 是不可行的。当应用场景的要求足够特殊,两者不得不合在同一个组织里。

八、关键点总结

  • 训练能力和应用能力是两套几乎不重叠的能力栈:前者需要算法研究和大规模工程,后者需要产品直觉和领域知识
  • 激励机制是分裂的根源:研究者的激励是论文和 benchmark,产品人的激励是用户和收入,这两套激励在同一组织内天然冲突
  • 历史先例清晰:施乐 PARC 发明了个人计算机的基础,但苹果和微软把它变成了产品——AI 正在重演这个模式
  • OpenAI 的模型被第三方用得比自己更好这个现象,是这种分离最具体的体现
  • 分离是结构性的:组织文化、资源竞争、工作节奏的差异,使得两者很难在同一组织内同时做到极致
  • 长期看,应用层的护城河可能比基础模型层更持久:模型能力会同质化,但对特定场景的深度理解和数据积累会持续加深
  • 最可能打破分离的路径:垂直应用公司积累足够多的领域数据,反向走向专属模型训练