Qiaomu | 乔木：别看榜单了！这份万亿token账单才是AI的真相

本文转自： https://blog.qiaomu.ai/vercel-ai-gateway-production-report-2026
仅做个人收藏，版权归原作者所有

每隔几周就有新模型发布，每次发布都有一张新的 benchmark 榜单，每张榜单都在说自己赢了。

但有一种数据更真：企业真实付出去的钱。

Vercel 的 AI Gateway 接入了超过 20 万个团队的生产流量，七个月里处理了数十万亿个 token。

这份报告就建立在这批数据上，不是测评，不是问卷调研，是账单 😂。

看完，估计会跟你的预判有点不一样。

2026 年 4 月，费用占比：Anthropic 61%，Google 21%，OpenAI 12%

同一批用户，产生了两张截然不同的排行榜

2026 年 4 月，按费用排名：Anthropic 61%，Google 21%，OpenAI 12%。

按 token 量排名：Google 38%，Anthropic 26%，OpenAI 13%，xAI 10%。

费用第一和用量第一，是两家完全不同的公司。

Claude Opus 承接那些”必须做对”的任务：重推理、高风险，单价贵，但调用次数少。

Gemini Flash 处理那些”做快点就行”的任务：单价便宜，量极大。很多应用里，两者同时在跑，分工明确，互不干扰。

几个具体的变化值得注意：

OpenAI 的费用份额从 3 月到 4 月翻了三倍，直接原因是 GPT-5.4 和 5.5 的发布
Google 的费用份额同期从 8% 跳到 21%，背后是 Gemini Flash 的大规模铺开

真正在塑造市场格局的，是定价策略，不是模型能力的排名。

为什么有些场景愿意付更贵的价格

Vercel 把流量按应用场景拆开来看，数据背后有一个非常简单的逻辑：这个场景里，一次错误答案要花多大代价去收拾，决定了你愿意为每次调用付多少钱。

各场景 token 量与费用的剪刀差：个人助手量大价廉，后台业务量少但单价更高

场景	Token 量占比	费用占比
个人助手	40%	20%
代码构建	20%	22%
后台业务	15%	6%
应用生成	11%	7%

个人助手的逻辑很简单：答错了，用户刷新重问就好，损失只是几秒钟。

所以跑便宜的模型完全合理，量大、单价低。

后台业务完全不同。

一份合同条款理解错了，一笔财务数据核对出了偏差，修复的代价可能是几个人花几天时间。

这种场景下，多付几倍的 API 费用换来更高的准确率，是完全划算的账。

B2B 和 B2C 的差距也印证了同样的逻辑。

B2C 产生 62.6% 的 token 量，只占 43.2% 的费用；B2B 产生 29.7% 的 token 量，却占 40.7% 的费用。

平均下来，B2B 每个 token 付的钱是 B2C 的两倍。

越是不能出错的地方，Anthropic 拿得越多

把数据按应用类型再细分，各家厂商的费用占比呈现出非常清晰的分层：

后台业务：Anthropic 87%，几乎是清场
代码构建：Anthropic 55%，其他厂商合计 31%
消费者场景：Google、OpenAI、Anthropic 三家接近平分，加上一批小厂商

Anthropic 的规律很明显：场景越关键，份额越高。

从后台业务到消费者场景，Anthropic 的 token 量从 71% 跌到 7%，但费用份额下滑得平缓得多，始终保持领先。钱聚集在那些”答案必须对”的地方，和总量多少关系不大。

Google 的规律正好相反。

Gemini Flash 在消费者场景撑起了 28% 的 token 量，对应的费用却只有 15%，在其他场景几乎看不到身影。

Google 在 AI 市场的全部筹码，都押在 Flash 的规模化上。

xAI 靠性价比切入。

Grok 在代码构建场景占了 20% 的 token 量，在邮件外发场景占了 18%，但对应的费用占比都更低，赢的是价格竞争力。

这个优势的脆弱之处也在这里，一旦有人把价格压到同一水平，优势就消失了。

OpenAI 是四家里分布最均匀的：代码构建 6%，消费者 18%，邮件外发 28%。

没有哪个场景特别依赖，也没有哪个场景特别薄弱。

还有一批容易被忽视的玩家：Kimi、MiniMax、GLM。

它们的费用份额很小，但在消费者和代码构建场景里跑着相当数量的 token。

只看钱的话，会低估它们真实的市场存在感。

没有哪家公司赢下了整个市场，因为这根本就不是一个统一的市场。

六个月前，AI 还是聊天工具，现在是一条流水线

这是这份报告里最值得停下来想一想的数字。

2025 年 10 月，带工具调用的请求占 AI Gateway 所有 token 量的 31.6%。

到 2026 年 4 月，这个数字涨到了 58.9%，六个月里翻了将近一倍。

粉线是 token 量占比（从 31.6% 涨到 58.9%），蓝线是请求数占比（从 11.4% 涨到 22.2%）。两线之间的差距说明 Agent 请求消耗的 token 远多于普通请求。

更值得注意的是两条线之间的差距：带工具调用的请求只占所有请求的 22.2%，却承载了 58.9% 的 token 量。

换算下来，一次 Agent 请求平均消耗的 token，是普通聊天请求的 2.6 倍。

道理很简单。普通聊天是一问一答，计一次费。

Agent 是一条链：调用工具、拿回结果、继续推理、再次调用，十个步骤就是十次计费，token 消耗被成倍放大。

这意味着，过去那种”按请求数估算 AI 成本”的方式，在 Agent 架构下会严重低估实际开销。

AI 应用的成本模型，已经换了一套逻辑。

用的模型越多，反而越不怕换供应商

规模越大的团队，同时使用的模型数量越多——这个发现听起来反直觉，但数据非常清楚。

请求量越大，使用的模型数量越多。

超过 1000 万次请求的团队平均使用 35 个模型。

月请求量	平均使用模型数
1K–10K	3 个
100K–1M	8 个
1M–10M	18 个
10M+	35 个

35 个模型不是乱用，背后是一套精细的路由系统：意图识别走便宜的分类模型，核心推理走前沿模型，检索走 embedding 模型，摘要走快速模型，图片理解走视觉模型。每个节点都可以独立替换。

这套架构带来的结果是：某家供应商涨价、质量下滑或者出现故障，流量几小时内就能切走。

对这些头部团队来说，换一家模型供应商，操作上更接近改一行配置，而不是一次牵动全局的系统迁移。

人们常说的”厂商锁定”，在这个量级上几乎不存在。真正被锁住的，是那些从一开始就没有考虑过路由设计的应用。

新模型发布，旧版本几周内就被市场淘汰

这套路由架构也解释了为什么模型版本的迭代速度如此之快。

Claude Sonnet 4.6 发布后，在第一个完整月内就接管了 Sonnet 家族的大部分流量，3.7、4、4.5 几乎从图表上消失。

Opus 4.7 正在走同样的曲线，一点一点从 Opus 4.6 手里拿走份额。

旧版本始终保持可用，但团队自己选择了迁移。

在多模型路由架构下，切换到新版本只需要改一个指向，不需要重新测试整套系统。

模型的生命周期，已经不再由发布它的实验室说了算，而是由用户的路由配置说了算。

系统越稳定，越要想清楚崩了怎么办

最后一个数字：AI Gateway 上有 3.5% 的请求，在第一次调用失败后，由网关自动切换到备用模型，最终成功完成。

按 token 量算，这个比例是 5.1%；按费用算，是 4.9%。

两个比例都高于 3.5%，原因是：需要切换备用的请求，平均比普通请求更长、更贵。

上下文很长的请求更容易触发限流
多步骤的 Agent 任务，中途某个环节出错就得整体重来
计算量大的推理任务，在高负载时段更容易超时。

这几类故障，恰好集中在调用成本最高的那一端。

供应商承诺的可用性，衡量的是请求数维度。

但对生产系统来说，真正有感知的是费用维度的可用性，最贵的那批调用挂掉，损失远不止一次请求的钱。

没有备用方案的系统，在最关键的时刻最容易出问题，而那个时刻的代价也最大。

问错了问题，答案永远没用

“哪个模型最好？”是个错误的问题。

正确的问题是：在我关心的那个具体场景里，哪个模型表现最好、性价比最合理？

Vercel 这批数据展示的，是一个已经分层运转的市场。

不同的任务找到了不同的模型，不同的风险水平对应着不同的价格区间。

推动这些选择的，是真实的成本和真实的业务压力，不是 benchmark 排名，也不是发布会上的演示。

对正在做 AI 应用的团队，这份数据有一个很实际的启示：路由层要从第一天就设计进去，而不是等到规模上来了再补。

等到那个时候再改，牵动的东西会多出一个数量级。

原文：AI Gateway production index

同一批用户，产生了两张截然不同的排行榜

为什么有些场景愿意付更贵的价格

越是不能出错的地方，Anthropic 拿得越多

六个月前，AI 还是聊天工具，现在是一条流水线

用的模型越多，反而越不怕换供应商

新模型发布，旧版本几周内就被市场淘汰

系统越稳定，越要想清楚崩了怎么办

问错了问题，答案永远没用

Related Posts

Chiyuan Zhang | 张驰原 ： 2024 年度书单

Oilbeater ： 为啥我要从阿里离职

影响世界的100个管理定律

Prologue | 槐序 ： 浅谈风险平价模型

Chiyuan Zhang | 张驰原： 2024 年度书单

Oilbeater ：为啥我要从阿里离职

Prologue | 槐序：浅谈风险平价模型