纯技术科普 · 不喊单 · 不荐股 · 只算账

AI 越用越便宜，
算力为什么
反而不够用？

过去三年，单个 Token 的价格几乎自由落体，可一次任务烧掉的 Token 总量却在指数爆炸。单价在跌、用量在飙——这两件事同时发生，正是"AI 越降价、算力越紧张"的真正原因。这一期用 5 张自制图表，把这把"量价剪刀差"讲透。

单价 · 每年

÷ 10

同等能力越来越便宜

用量 · 两年

× 330

谷歌月处理 Token

推理单次

5–50×

比普通多烧 Token

先接上一期

上一期结尾，我埋了一个没说透的问题

EP01《把算力当电卖》结尾我提了句风险："全行业的 Token 单价这几年一直在猛降。" 不少人看完私信我：那 AI 不就越来越便宜了吗？可账单常常不降反升。这一期专门讲清这件事，结论可能跟你想的相反。

🔁 三十秒回顾 EP01

算力=电，一张 GPU=一台发电机，一座机房=一座发电厂。
算力租赁=包租公，买卡建机房，按"卡×小时"出租。
Token=出租车跳表，模型每读一字、吐一字都在跳表，行业按 Token 计费。
Token 按量=把算力拆成小块、按用量供给（像装电表）。

🧾 这一期只讲一对矛盾：Token 的单价在跌（一杯水越来越便宜），可全世界喝掉的总量在飙（喝水的人和场景暴增）。看懂这对矛盾，就看懂了 AI 算力供需未来几年的真正变量。

一图看懂全文

先给你一张图：量价剪刀差

整篇文章的结论，就藏在这把"剪刀"里。蓝线（单价）一路往下，黏土线（用量）一路往上，两条线张开的口子，就是整个 Token 总消耗增长的部分。

FIG.01量价剪刀差 · 单价↓ × 用量↑

量价剪刀差（示意框架）· 只要黏土线涨幅跑赢蓝线跌幅，总消耗就在涨

"价格塌方"和"需求爆炸"不矛盾——它们是同一件事的两面。

本期核心论点 · 01

✂️ 记住这把剪刀，全文就懂一半了。下面我先分别证明"蓝线真的在塌""黏土线真的在飙"，再回答最关键的问题：用量凭什么能涨这么猛？

蓝线 · 事实一

Token 单价，正在自由落体

这不是感觉，是有名字的现象。硅谷风投 a16z 给它起名 LLMflation（大模型通缩）—— 同等能力的模型，推理价格大约每年降一个数量级（约 10 倍）。

$60 → $0.06

达到同一基准分数
每百万 Token 成本
2021 末 → 2024 末

1000×

三年降价倍数
≈ 每年降一个数量级

>90%

国内一年内
Token 价格降幅
（2024 价格战起）

国内更刺激。2024 年 5 月，字节火山引擎的豆包大模型把价格打到 0.0008 元/千 Token，直接点燃价格战，阿里云、百度智能云连夜跟进，此后一年主流模型 Token 价格普遍降九成以上。到 2025 年的豆包 1.6，按常用 3:1 输入输出比算，综合成本压到 2.6 元，比同期 DeepSeek R1 的 7 元再砍 63%。

为什么能这么降？六个力一起往下压：GPU 更快、模型量化（16 位精度压到 4 位）、推理软件优化、小模型追平大模型、训练方法进步、开源把利润空间挤干。

💡 一句话理解 LLMflation：同样聪明的 AI，今年的"每万字对话费"只有去年的十分之一。跟手机流量、跟当年长途电话费一个剧本——技术成熟，单价就往地板砸。

黏土线 · 事实二

可被烧掉的 Token 总量，在指数爆炸

单价在跌，但有个数字朝相反方向狂奔。看谷歌一家公司每月处理的 Token 总量，这是 2026 年 I/O 大会上 CEO 皮查伊亲口给的数据：

FIG.02谷歌月处理 Token 量 · 对数刻度

谷歌单月 Token 处理量（纵轴对数刻度，否则前几根矮到看不见）· 数据：Google I/O 2026

换算一下：2024.04 → 2026.05 两年，谷歌一家的月处理量涨了约 330 倍；光最近一年就是 7 倍。配套两个数：每月 850 万开发者在用 Gemini 建应用；过去 12 个月，375 个谷歌云客户每家年消耗超 1 万亿 Token。

🔑 把两条线摆一起：单价一年降约 10 倍，用量一年涨约 7 倍甚至更多。下面三节，回答用量凭什么涨这么猛。

核心机制

为什么越便宜越费？杰文斯悖论

这事一百六十年前就被说透了。1865 年，英国经济学家杰文斯发现一个怪现象：蒸汽机越省煤，全国烧的煤反而越多。

Jevons Paradox · 杰文斯悖论

效率越高，总消耗反而越大

道理很朴素：一样东西用起来更便宜、更高效，它就会被用到过去根本舍不得用的地方。蒸汽机省煤 → 用蒸汽机变划算 → 工厂、火车、轮船全换上 → 烧的煤不降反升。放到今天：Token 越便宜，AI 就越被塞进每一个角落——搜索、邮件总结、代码补全、客服、文档问答…… 每个场景单次便宜了，但场景多了几个数量级，总账单照样往上涨。

💡 一句话理解：当年长途电话一分钟几块钱，你只在过年打一个；现在视频通话几乎免费，你一天挂机好几小时。单价归零，总时长却爆了。

🛑 但别把悖论当永动机（这点别处少有人提）。杰文斯效应靠"省下来的钱催生新需求"驱动，它有刹车点：当一个场景被 AI 彻底吃透、边际效用饱和，再降价也榨不出多少增量。所以真正该盯的不是"还会不会降价"，而是那把剪刀的口子，还在不在继续张开。这就是"算力账本"的看法：看趋势，看的是剪刀差，不是单价。

你大概率不知道的

别再说"Token"了，它其实是四种

大多数科普把 Token 当成一种均价商品。真相是：同样叫 Token，价格能差几十倍。看懂这张价目表，你才明白为什么"推理模型"和"智能体"会把账单撑爆。

FIG.03四类 Token 相对价

同样叫 Token，缓存输入 ≈ 输入的 1/10，输出是输入的 3–5 倍

🧩 为什么会差这么多？

输出比输入贵（约 3–5 倍）：输入是"一口气读进去"，输出要"一个字一个字地算出来、还得排队生成"，更吃算力，所以更贵。
缓存命中近乎白菜价（约 1 折）：同一段系统提示词、同一份资料反复用，模型把它缓存起来，第二次就不用重算，命中部分通常只收 1 折左右。
"思考 Token"按输出计费：推理模型答你之前先打一大段你看不见的草稿，这草稿算作输出 Token——价不变，但量能翻几十倍。这是第 08 节的主角。

🛠 实用结论：想省，别只盯"哪家单价低"。把能复用的提示词做成缓存、让模型少废话（压输出）、非必要不开思考模式——同一个模型，账单能差好几倍。这才是"算账"的正确姿势。

又一个被忽略的

"中文税"：你为每个汉字，可能多付了钱

还有件少被提的事：同样一段话，中文消耗的 Token 常常比英文多。这意味着中文用户、中文应用，在某些模型上天然"贵一截"。但这里有个反转，恰恰是国产模型的机会。

FIG.04中英文 Token 消耗对比

同一段内容的 Token 数（示意）· "中文税"取决于分词器在谁的语料上训练

原理在分词器（Tokenizer）：模型怎么把文字切成 Token，是事先训练定死的。英文语料为主训练出来的分词器，会把一个汉字切成一两个甚至更多 Token，于是同样意思的中文比英文多耗 Token—— 实测在一些主流外语优化模型上，中文比英文多耗 11%–64%，商业新闻这类文本最夸张。

反转在这儿：在 Qwen、DeepSeek 这类中文语料喂得足的国产模型上，一个常用汉字往往能压进一个 Token，中文处理反而比英文更省。"谁的中文更便宜"，本质是"分词器在谁的语料上训练"——这是国产模型在中文场景一个实打实、却很少被点破的优势。

用量凭什么涨

两台"抽水机"，把用量往死里抽

回到剪刀图——黏土线（用量）凭什么涨这么猛？两台抽水机：一台放大单次问答的 Token，一台放大一个任务问多少次。

📚

训练

把模型教聪明
（一次性、烧大钱）

→

💬

普通推理

问一句答一句
几百 Token

→

🧠

思考型推理

答前先在草稿纸上
想一长串再作答

🧠 抽水机①：推理模型，单次问答多烧 5–50 倍

像 OpenAI 的 o 系列、DeepSeek R1 这类推理模型，回答你之前会先打一大段你看不见的草稿（列步骤、试错、自检）。草稿屏幕上看不到，却实打实消耗算力、按输出 Token 计费。差距有多大：

FIG.05普通 vs 推理 · 单次 Token · 对数刻度

同一个问题，推理模式比普通模式多烧 5–50 倍 Token（公开评测口径）

AI Agent · 抽水机②

智能体，把"问多少次"翻几十倍

过去你用 AI 是"一问一答"。智能体是你给它一个目标——"帮我把这份报告查证、整理、做成表格"—— 它自己拆任务、自己搜资料、自己调工具、自己反复检查，一个任务背后调用模型几十上百次，每次都是一轮完整 Token 收费。推理模型让"每次更费"，智能体让"次数暴增"，两台一叠加：一个稍复杂的智能体任务，烧的 Token 可能是当年一次普通聊天的成千上万倍。

💡 一句话理解：普通问答=打车跳一次表；智能体=雇个助理跑一整天，期间打了几十趟车。每趟都便宜了，趟数却多到吓人。

推理让"每次更费"，智能体让"次数暴增"——两台抽水机一叠加，用量就这么爆了。

本期核心论点 · 02

落回供需

这对"算力供需"到底意味着什么

把"单价在跌、用量在飙"放回算力的供需里看，会得出几个直接的判断：

维度	推动力（量在涨）	另一面（价在降）
需求总量	推理 + 智能体把总消耗推向指数级，对算力的需求越来越大	需求大不大，取决于 AI 应用是否真用得起来、用得久
单位价格	推理需求结构性上升，优质算力依旧紧俏	单个 Token 单价被持续压低，靠规模才摊得平
用法变化	从"整租给少数大团队"走向"按量供给给海量小用户"	按量虽便宜，但波动大、不好预测
本质	算力越来越像水电煤：标准化、按量、人人能用	越是基础设施，越拼成本与效率，而非稀缺

🧭 一句话串起来：Token 降价不是终点，而是把 AI 的使用门槛打到地板，让用量长出来。算力这件事，正从"拼一张卡有多稀缺"，转向"拼整体规模与效率"——越来越像一项基础设施。盯的是用量，不是单价。

冷静一下

别只看爆量，也得看没解决的难题

量在涨是事实，但"量涨=算力一定够用、成本一定可控"是另一回事。2026 年这半年，行业里有一串相反的声音，一并放进来。

成本反过来咬人：微软内部测算指出，某些场景让 AI 智能体干活，比直接雇人还贵——Token 烧得太狠。
连 OpenAI 都喊贵：2026 年 6 月，Sam Altman 公开承认 Token 成本"正在成为一个问题"，要想办法提升单位 Token 的价值。
成本质疑没散：社区里"AI 算这笔账根本不划算"的长帖冲到上千赞，核心论点之一是算力被英伟达一家卡着、降不下来。
价格战在反转：国内已有多家头部厂商停止降价、部分 API 反而提价——"无脑降价换量"这条路自己也撑不住了。
用量是预期，不是合同：爆量建立在"AI 应用持续繁荣"上。应用层一旦挤泡沫，算力需求会跟着回调。

⚠️ 本质提醒："降价催生爆量"是真的，但它同时把每一单的成本空间压得很薄。真正能把 AI 用好用省的，是把缓存、输出、思考模式都管起来的人——降价不会自动让你的账单变小。看懂趋势，不等于落地就轻松。

一页速查

这一期，六个词记牢

✂️

量价剪刀差

单价↓×用量↑↑，用量涨得比降价更快。

📉

LLMflation

大模型通缩。同等能力推理价约每年降 10 倍。

🔥

杰文斯悖论

越便宜越费，但有刹车点：盯剪刀口还张不张。

🧩

Token 四类价

缓存≈0.1×、输入1×、输出3–5×、思考按输出但量暴增。

🀄

中文税

外语模型中文更费；国产模型中文反而更省。

🤖

两台抽水机

推理放大单次、智能体放大次数。

三个最容易想拧的问题

Token 一直降价，AI 用起来不就越来越便宜了？

不一定。单价降，但用量涨得更快（杰文斯悖论）。你的总账单是"单价 × 用量"，用量增速一旦跑赢降价速度，总花费反而上升——过去两年就是这样。想省，得主动管好用量。

"思考 Token"我屏幕上看不到，为什么要我付钱？

因为模型"在草稿纸上演算"本身就在占用 GPU、消耗算力，按行业通行规则算作输出 Token 计费。所以同一句回答，用推理模型可能贵好几倍——便宜的是单价，贵的是它想得更多。

这跟 EP01 讲的"算力租赁"是两回事吗？

是同一条链的两端。EP01 讲供给端（算力怎么来、怎么租用），这一期讲需求端（为什么用量会指数膨胀）。供给决定能用上多少，需求决定要用掉多少。两期合起来，才是完整的一笔账。

本期数据来源（公开报道，建议自行复核）

谷歌月 Token 处理量（9.7 万亿→3200 万亿、7× YoY、375 家云客户）：Google I/O 2026 / 皮查伊公开发言及多家科技媒体转述
LLMflation（推理成本约每年降 10×、$60→$0.06、三年 1000×）：a16z《Welcome to LLMflation》
国内价格战（豆包 0.0008 元/千 Token、降幅超 90%、豆包 1.6 综合成本 2.6 元）：火山引擎发布信息及行业报道
Token 四类价差（输出 3–5× 输入、缓存约 1 折）、推理消耗（R1 单次 1–2.5 万、比普通多 5–50×）：各大厂商公开价目表与第三方评测口径汇总
中文税（中文比英文多耗 11%–64%、国产模型中文更省）：多模型分词器实测对比（含 arXiv 公开研究）
成本质疑（微软"AI 比雇人贵"、Altman 承认成本成问题、社区盈利质疑）：Fortune、Tom's Hardware、Hacker News / Reddit 2026 年 5–6 月讨论

📘 本文为 AI 技术科普，目的是把"Token 经济学 / 杰文斯悖论 / 推理模型 / 中文税"这些概念讲清楚。文中数据系引用公开报道（来源见上），仅作通俗解释之用，可能存在简化或偏差，欢迎指正。本内容仅为 AI 工具与术语科普，不构成任何投资建议。

AI 越用越便宜，算力为什么反而不够用？

上一期结尾，我埋了一个没说透的问题

🔁 三十秒回顾 EP01

先给你一张图：量价剪刀差

Token 单价，正在自由落体

可被烧掉的 Token 总量，在指数爆炸

为什么越便宜越费？杰文斯悖论

效率越高，总消耗反而越大

别再说"Token"了，它其实是四种

🧩 为什么会差这么多？

"中文税"：你为每个汉字，可能多付了钱

两台"抽水机"，把用量往死里抽

🧠 抽水机①：推理模型，单次问答多烧 5–50 倍

智能体，把"问多少次"翻几十倍

这对"算力供需"到底意味着什么

别只看爆量，也得看没解决的难题

这一期，六个词记牢

三个最容易想拧的问题

AI 越用越便宜，
算力为什么
反而不够用？