本文转自: https://blog.qiaomu.ai/vercel-ai-gateway-production-report-2026
仅做个人收藏,版权归原作者所有
每隔几周就有新模型发布,每次发布都有一张新的 benchmark 榜单,每张榜单都在说自己赢了。
但有一种数据更真:企业真实付出去的钱。
Vercel 的 AI Gateway 接入了超过 20 万个团队的生产流量,七个月里处理了数十万亿个 token。
这份报告就建立在这批数据上,不是测评,不是问卷调研,是账单 😂。
看完,估计会跟你的预判有点不一样。

2026 年 4 月,费用占比:Anthropic 61%,Google 21%,OpenAI 12%
同一批用户,产生了两张截然不同的排行榜
2026 年 4 月,按费用排名:Anthropic 61%,Google 21%,OpenAI 12%。
按 token 量排名:Google 38%,Anthropic 26%,OpenAI 13%,xAI 10%。
费用第一和用量第一,是两家完全不同的公司。
Claude Opus 承接那些”必须做对”的任务:重推理、高风险,单价贵,但调用次数少。
Gemini Flash 处理那些”做快点就行”的任务:单价便宜,量极大。很多应用里,两者同时在跑,分工明确,互不干扰。
几个具体的变化值得注意:
-
OpenAI 的费用份额从 3 月到 4 月翻了三倍,直接原因是 GPT-5.4 和 5.5 的发布
-
Google 的费用份额同期从 8% 跳到 21%,背后是 Gemini Flash 的大规模铺开
真正在塑造市场格局的,是定价策略,不是模型能力的排名。
为什么有些场景愿意付更贵的价格
Vercel 把流量按应用场景拆开来看,数据背后有一个非常简单的逻辑:这个场景里,一次错误答案要花多大代价去收拾,决定了你愿意为每次调用付多少钱。

各场景 token 量与费用的剪刀差:个人助手量大价廉,后台业务量少但单价更高
|
场景 |
Token 量占比 |
费用占比 |
|---|---|---|
|
个人助手 |
40% |
20% |
|
代码构建 |
20% |
22% |
|
后台业务 |
15% |
6% |
|
应用生成 |
11% |
7% |
个人助手的逻辑很简单:答错了,用户刷新重问就好,损失只是几秒钟。
所以跑便宜的模型完全合理,量大、单价低。
后台业务完全不同。
一份合同条款理解错了,一笔财务数据核对出了偏差,修复的代价可能是几个人花几天时间。
这种场景下,多付几倍的 API 费用换来更高的准确率,是完全划算的账。
B2B 和 B2C 的差距也印证了同样的逻辑。
B2C 产生 62.6% 的 token 量,只占 43.2% 的费用;B2B 产生 29.7% 的 token 量,却占 40.7% 的费用。
平均下来,B2B 每个 token 付的钱是 B2C 的两倍。
越是不能出错的地方,Anthropic 拿得越多
把数据按应用类型再细分,各家厂商的费用占比呈现出非常清晰的分层:
-
后台业务:Anthropic 87%,几乎是清场
-
代码构建:Anthropic 55%,其他厂商合计 31%
-
消费者场景:Google、OpenAI、Anthropic 三家接近平分,加上一批小厂商
Anthropic 的规律很明显:场景越关键,份额越高。
从后台业务到消费者场景,Anthropic 的 token 量从 71% 跌到 7%,但费用份额下滑得平缓得多,始终保持领先。钱聚集在那些”答案必须对”的地方,和总量多少关系不大。
Google 的规律正好相反。
Gemini Flash 在消费者场景撑起了 28% 的 token 量,对应的费用却只有 15%,在其他场景几乎看不到身影。
Google 在 AI 市场的全部筹码,都押在 Flash 的规模化上。
xAI 靠性价比切入。
Grok 在代码构建场景占了 20% 的 token 量,在邮件外发场景占了 18%,但对应的费用占比都更低,赢的是价格竞争力。
这个优势的脆弱之处也在这里,一旦有人把价格压到同一水平,优势就消失了。
OpenAI 是四家里分布最均匀的:代码构建 6%,消费者 18%,邮件外发 28%。
没有哪个场景特别依赖,也没有哪个场景特别薄弱。
还有一批容易被忽视的玩家:Kimi、MiniMax、GLM。
它们的费用份额很小,但在消费者和代码构建场景里跑着相当数量的 token。
只看钱的话,会低估它们真实的市场存在感。
没有哪家公司赢下了整个市场,因为这根本就不是一个统一的市场。
六个月前,AI 还是聊天工具,现在是一条流水线
这是这份报告里最值得停下来想一想的数字。
2025 年 10 月,带工具调用的请求占 AI Gateway 所有 token 量的 31.6%。
到 2026 年 4 月,这个数字涨到了 58.9%,六个月里翻了将近一倍。

粉线是 token 量占比(从 31.6% 涨到 58.9%),蓝线是请求数占比(从 11.4% 涨到 22.2%)。两线之间的差距说明 Agent 请求消耗的 token 远多于普通请求。
更值得注意的是两条线之间的差距:带工具调用的请求只占所有请求的 22.2%,却承载了 58.9% 的 token 量。
换算下来,一次 Agent 请求平均消耗的 token,是普通聊天请求的 2.6 倍。
道理很简单。普通聊天是一问一答,计一次费。
Agent 是一条链:调用工具、拿回结果、继续推理、再次调用,十个步骤就是十次计费,token 消耗被成倍放大。
这意味着,过去那种”按请求数估算 AI 成本”的方式,在 Agent 架构下会严重低估实际开销。
AI 应用的成本模型,已经换了一套逻辑。
用的模型越多,反而越不怕换供应商
规模越大的团队,同时使用的模型数量越多——这个发现听起来反直觉,但数据非常清楚。

请求量越大,使用的模型数量越多。
超过 1000 万次请求的团队平均使用 35 个模型。
|
月请求量 |
平均使用模型数 |
|---|---|
|
1K–10K |
3 个 |
|
100K–1M |
8 个 |
|
1M–10M |
18 个 |
|
10M+ |
35 个 |
35 个模型不是乱用,背后是一套精细的路由系统:意图识别走便宜的分类模型,核心推理走前沿模型,检索走 embedding 模型,摘要走快速模型,图片理解走视觉模型。每个节点都可以独立替换。
这套架构带来的结果是:某家供应商涨价、质量下滑或者出现故障,流量几小时内就能切走。
对这些头部团队来说,换一家模型供应商,操作上更接近改一行配置,而不是一次牵动全局的系统迁移。
人们常说的”厂商锁定”,在这个量级上几乎不存在。真正被锁住的,是那些从一开始就没有考虑过路由设计的应用。
新模型发布,旧版本几周内就被市场淘汰
这套路由架构也解释了为什么模型版本的迭代速度如此之快。
Claude Sonnet 4.6 发布后,在第一个完整月内就接管了 Sonnet 家族的大部分流量,3.7、4、4.5 几乎从图表上消失。
Opus 4.7 正在走同样的曲线,一点一点从 Opus 4.6 手里拿走份额。
旧版本始终保持可用,但团队自己选择了迁移。
在多模型路由架构下,切换到新版本只需要改一个指向,不需要重新测试整套系统。
模型的生命周期,已经不再由发布它的实验室说了算,而是由用户的路由配置说了算。
系统越稳定,越要想清楚崩了怎么办
最后一个数字:AI Gateway 上有 3.5% 的请求,在第一次调用失败后,由网关自动切换到备用模型,最终成功完成。
按 token 量算,这个比例是 5.1%;按费用算,是 4.9%。
两个比例都高于 3.5%,原因是:需要切换备用的请求,平均比普通请求更长、更贵。
-
上下文很长的请求更容易触发限流
-
多步骤的 Agent 任务,中途某个环节出错就得整体重来
-
计算量大的推理任务,在高负载时段更容易超时。
这几类故障,恰好集中在调用成本最高的那一端。
供应商承诺的可用性,衡量的是请求数维度。
但对生产系统来说,真正有感知的是费用维度的可用性,最贵的那批调用挂掉,损失远不止一次请求的钱。
没有备用方案的系统,在最关键的时刻最容易出问题,而那个时刻的代价也最大。
问错了问题,答案永远没用
“哪个模型最好?”是个错误的问题。
正确的问题是:在我关心的那个具体场景里,哪个模型表现最好、性价比最合理?
Vercel 这批数据展示的,是一个已经分层运转的市场。
不同的任务找到了不同的模型,不同的风险水平对应着不同的价格区间。
推动这些选择的,是真实的成本和真实的业务压力,不是 benchmark 排名,也不是发布会上的演示。
对正在做 AI 应用的团队,这份数据有一个很实际的启示:路由层要从第一天就设计进去,而不是等到规模上来了再补。
等到那个时候再改,牵动的东西会多出一个数量级。