AI 越用越便宜,
算力为什么
反而不够用?
过去三年,单个 Token 的价格几乎自由落体,可一次任务烧掉的 Token 总量却在指数爆炸。 单价在跌、用量在飙——这两件事同时发生,正是"AI 越降价、算力越紧张"的真正原因。 这一期用 5 张自制图表,把这把"量价剪刀差"讲透。
上一期结尾,我埋了一个没说透的问题
EP01《把算力当电卖》结尾我提了句风险:"全行业的 Token 单价这几年一直在猛降。" 不少人看完私信我:那 AI 不就越来越便宜了吗?可账单常常不降反升。这一期专门讲清这件事,结论可能跟你想的相反。
🔁 三十秒回顾 EP01
- 算力=电,一张 GPU=一台发电机,一座机房=一座发电厂。
- 算力租赁=包租公,买卡建机房,按"卡×小时"出租。
- Token=出租车跳表,模型每读一字、吐一字都在跳表,行业按 Token 计费。
- Token 按量=把算力拆成小块、按用量供给(像装电表)。
🧾 这一期只讲一对矛盾:Token 的单价在跌(一杯水越来越便宜),可全世界喝掉的总量在飙(喝水的人和场景暴增)。看懂这对矛盾,就看懂了 AI 算力供需未来几年的真正变量。
先给你一张图:量价剪刀差
整篇文章的结论,就藏在这把"剪刀"里。蓝线(单价)一路往下,黏土线(用量)一路往上, 两条线张开的口子,就是整个 Token 总消耗增长的部分。
"价格塌方"和"需求爆炸"不矛盾——它们是同一件事的两面。
✂️ 记住这把剪刀,全文就懂一半了。下面我先分别证明"蓝线真的在塌""黏土线真的在飙",再回答最关键的问题:用量凭什么能涨这么猛?
Token 单价,正在自由落体
这不是感觉,是有名字的现象。硅谷风投 a16z 给它起名 LLMflation(大模型通缩)—— 同等能力的模型,推理价格大约每年降一个数量级(约 10 倍)。
每百万 Token 成本
2021 末 → 2024 末
≈ 每年降一个数量级
Token 价格降幅
(2024 价格战起)
国内更刺激。2024 年 5 月,字节火山引擎的豆包大模型把价格打到 0.0008 元/千 Token, 直接点燃价格战,阿里云、百度智能云连夜跟进,此后一年主流模型 Token 价格普遍降九成以上。 到 2025 年的豆包 1.6,按常用 3:1 输入输出比算,综合成本压到 2.6 元,比同期 DeepSeek R1 的 7 元再砍 63%。
为什么能这么降?六个力一起往下压:GPU 更快、模型量化(16 位精度压到 4 位)、推理软件优化、小模型追平大模型、训练方法进步、开源把利润空间挤干。
💡 一句话理解 LLMflation:同样聪明的 AI,今年的"每万字对话费"只有去年的十分之一。跟手机流量、跟当年长途电话费一个剧本——技术成熟,单价就往地板砸。
可被烧掉的 Token 总量,在指数爆炸
单价在跌,但有个数字朝相反方向狂奔。看谷歌一家公司每月处理的 Token 总量,这是 2026 年 I/O 大会上 CEO 皮查伊亲口给的数据:
换算一下:2024.04 → 2026.05 两年,谷歌一家的月处理量涨了约 330 倍;光最近一年就是 7 倍。 配套两个数:每月 850 万开发者在用 Gemini 建应用;过去 12 个月,375 个谷歌云客户每家年消耗超 1 万亿 Token。
🔑 把两条线摆一起:单价一年降约 10 倍,用量一年涨约 7 倍甚至更多。下面三节,回答用量凭什么涨这么猛。
为什么越便宜越费?杰文斯悖论
这事一百六十年前就被说透了。1865 年,英国经济学家杰文斯发现一个怪现象:蒸汽机越省煤,全国烧的煤反而越多。
效率越高,总消耗反而越大
道理很朴素:一样东西用起来更便宜、更高效,它就会被用到过去根本舍不得用的地方。 蒸汽机省煤 → 用蒸汽机变划算 → 工厂、火车、轮船全换上 → 烧的煤不降反升。 放到今天:Token 越便宜,AI 就越被塞进每一个角落——搜索、邮件总结、代码补全、客服、文档问答…… 每个场景单次便宜了,但场景多了几个数量级,总账单照样往上涨。
💡 一句话理解:当年长途电话一分钟几块钱,你只在过年打一个;现在视频通话几乎免费,你一天挂机好几小时。单价归零,总时长却爆了。
🛑 但别把悖论当永动机(这点别处少有人提)。杰文斯效应靠"省下来的钱催生新需求"驱动,它有刹车点:当一个场景被 AI 彻底吃透、边际效用饱和,再降价也榨不出多少增量。所以真正该盯的不是"还会不会降价",而是那把剪刀的口子,还在不在继续张开。这就是"算力账本"的看法:看趋势,看的是剪刀差,不是单价。
别再说"Token"了,它其实是四种
大多数科普把 Token 当成一种均价商品。真相是:同样叫 Token,价格能差几十倍。看懂这张价目表, 你才明白为什么"推理模型"和"智能体"会把账单撑爆。
🧩 为什么会差这么多?
- 输出比输入贵(约 3–5 倍):输入是"一口气读进去",输出要"一个字一个字地算出来、还得排队生成",更吃算力,所以更贵。
- 缓存命中近乎白菜价(约 1 折):同一段系统提示词、同一份资料反复用,模型把它缓存起来,第二次就不用重算,命中部分通常只收 1 折左右。
- "思考 Token"按输出计费:推理模型答你之前先打一大段你看不见的草稿,这草稿算作输出 Token——价不变,但量能翻几十倍。这是第 08 节的主角。
🛠 实用结论:想省,别只盯"哪家单价低"。把能复用的提示词做成缓存、让模型少废话(压输出)、非必要不开思考模式——同一个模型,账单能差好几倍。这才是"算账"的正确姿势。
"中文税":你为每个汉字,可能多付了钱
还有件少被提的事:同样一段话,中文消耗的 Token 常常比英文多。这意味着中文用户、中文应用, 在某些模型上天然"贵一截"。但这里有个反转,恰恰是国产模型的机会。
原理在分词器(Tokenizer):模型怎么把文字切成 Token,是事先训练定死的。 英文语料为主训练出来的分词器,会把一个汉字切成一两个甚至更多 Token,于是同样意思的中文比英文多耗 Token—— 实测在一些主流外语优化模型上,中文比英文多耗 11%–64%,商业新闻这类文本最夸张。
反转在这儿:在 Qwen、DeepSeek 这类中文语料喂得足的国产模型上,一个常用汉字往往能压进一个 Token, 中文处理反而比英文更省。"谁的中文更便宜",本质是"分词器在谁的语料上训练"——这是国产模型在中文场景一个实打实、却很少被点破的优势。
两台"抽水机",把用量往死里抽
回到剪刀图——黏土线(用量)凭什么涨这么猛?两台抽水机:一台放大单次问答的 Token,一台放大一个任务问多少次。
(一次性、烧大钱)
几百 Token
想一长串再作答
🧠 抽水机①:推理模型,单次问答多烧 5–50 倍
像 OpenAI 的 o 系列、DeepSeek R1 这类推理模型,回答你之前会先打一大段你看不见的草稿(列步骤、试错、自检)。 草稿屏幕上看不到,却实打实消耗算力、按输出 Token 计费。差距有多大:
智能体,把"问多少次"翻几十倍
过去你用 AI 是"一问一答"。智能体是你给它一个目标——"帮我把这份报告查证、整理、做成表格"—— 它自己拆任务、自己搜资料、自己调工具、自己反复检查,一个任务背后调用模型几十上百次,每次都是一轮完整 Token 收费。 推理模型让"每次更费",智能体让"次数暴增",两台一叠加:一个稍复杂的智能体任务,烧的 Token 可能是当年一次普通聊天的成千上万倍。
💡 一句话理解:普通问答=打车跳一次表;智能体=雇个助理跑一整天,期间打了几十趟车。每趟都便宜了,趟数却多到吓人。
推理让"每次更费",智能体让"次数暴增"——两台抽水机一叠加,用量就这么爆了。
这对"算力供需"到底意味着什么
把"单价在跌、用量在飙"放回算力的供需里看,会得出几个直接的判断:
| 维度 | 推动力(量在涨) | 另一面(价在降) |
|---|---|---|
| 需求总量 | 推理 + 智能体把总消耗推向指数级,对算力的需求越来越大 | 需求大不大,取决于 AI 应用是否真用得起来、用得久 |
| 单位价格 | 推理需求结构性上升,优质算力依旧紧俏 | 单个 Token 单价被持续压低,靠规模才摊得平 |
| 用法变化 | 从"整租给少数大团队"走向"按量供给给海量小用户" | 按量虽便宜,但波动大、不好预测 |
| 本质 | 算力越来越像水电煤:标准化、按量、人人能用 | 越是基础设施,越拼成本与效率,而非稀缺 |
🧭 一句话串起来:Token 降价不是终点,而是把 AI 的使用门槛打到地板,让用量长出来。算力这件事,正从"拼一张卡有多稀缺",转向"拼整体规模与效率"——越来越像一项基础设施。盯的是用量,不是单价。
别只看爆量,也得看没解决的难题
量在涨是事实,但"量涨=算力一定够用、成本一定可控"是另一回事。2026 年这半年,行业里有一串相反的声音,一并放进来。
- 成本反过来咬人:微软内部测算指出,某些场景让 AI 智能体干活,比直接雇人还贵——Token 烧得太狠。
- 连 OpenAI 都喊贵:2026 年 6 月,Sam Altman 公开承认 Token 成本"正在成为一个问题",要想办法提升单位 Token 的价值。
- 成本质疑没散:社区里"AI 算这笔账根本不划算"的长帖冲到上千赞,核心论点之一是算力被英伟达一家卡着、降不下来。
- 价格战在反转:国内已有多家头部厂商停止降价、部分 API 反而提价——"无脑降价换量"这条路自己也撑不住了。
- 用量是预期,不是合同:爆量建立在"AI 应用持续繁荣"上。应用层一旦挤泡沫,算力需求会跟着回调。
⚠️ 本质提醒:"降价催生爆量"是真的,但它同时把每一单的成本空间压得很薄。真正能把 AI 用好用省的,是把缓存、输出、思考模式都管起来的人——降价不会自动让你的账单变小。看懂趋势,不等于落地就轻松。
这一期,六个词记牢
三个最容易想拧的问题
- 谷歌月 Token 处理量(9.7 万亿→3200 万亿、7× YoY、375 家云客户):Google I/O 2026 / 皮查伊公开发言及多家科技媒体转述
- LLMflation(推理成本约每年降 10×、$60→$0.06、三年 1000×):a16z《Welcome to LLMflation》
- 国内价格战(豆包 0.0008 元/千 Token、降幅超 90%、豆包 1.6 综合成本 2.6 元):火山引擎发布信息及行业报道
- Token 四类价差(输出 3–5× 输入、缓存约 1 折)、推理消耗(R1 单次 1–2.5 万、比普通多 5–50×):各大厂商公开价目表与第三方评测口径汇总
- 中文税(中文比英文多耗 11%–64%、国产模型中文更省):多模型分词器实测对比(含 arXiv 公开研究)
- 成本质疑(微软"AI 比雇人贵"、Altman 承认成本成问题、社区盈利质疑):Fortune、Tom's Hardware、Hacker News / Reddit 2026 年 5–6 月讨论