算力、Token,
到底是什么?
算力、算力租赁、Token——这几个 AI 天天刷屏的词,听着玄,其实把它们当成"电"和"电表"就全通了。 这一期用大白话,把算力、训练 / 推理卡、Token 的概念、原理和类比从头讲清, 还配了 3 张自制图表,零基础也能跟上。
先搞懂一个字:算力,其实就是"电"
所有 AI 的故事,根子上都是一个词——算力。它听起来很玄, 但你只要把它想成"电",剩下的全都通了。
算力 · 计算能力
算力,就是一台机器"每秒能做多少次数学运算"的能力。AI 大模型本质上是在做天文数字级别的乘法和加法, 谁的运算速度快、规模大,谁就能更快地训练出更聪明的模型、更快地回答用户的问题。 衡量算力的单位里,你最常听到的是 P(PFLOPS,每秒千万亿次浮点运算)。 常说的"3.5 万 P""6 万 P",指的就是机房里所有显卡加起来的总运算能力。
💡 一句话理解:算力 = 电力。一张 GPU 卡 = 一台发电机,一座装满卡的机房 = 一座发电厂。"6 万 P"就是这座发电厂的总装机容量。AI 公司缺的从来不是创意,是"电"不够用。
⚡ 为什么算力这么金贵? 因为训练一个 GPT 级别的大模型,要把成千上万张顶级显卡连在一起、不间断地跑上几个月,电费和卡钱都是天文数字。于是就有了一种服务:专门买卡、建机房,把"电"租给那些需要算力却买不起卡的人。这就是算力租赁。
算力租赁:像"包租公"一样出租算力
搞懂了算力是"电",算力租赁就一秒钟能懂——它就像"二房东 / 包租公",只不过出租的不是房子,是显卡的运算时间。
算力租赁 · 出租运算时间
先花大钱买入大量高端 GPU,建好机房、通好电、配好网络和散热,组成一个巨大的"算力池", 再把这个池子按"卡 × 小时"租给需要算力的人——比如要训练大模型的团队、做 AI 应用的开发者。 用的人不必自己买卡、不必操心机房运维,像交电费一样,用多少算力付多少钱。
💡 一句话理解:你不会为充一次电去买座发电站。算力同理——按需租用,用多少付多少,需要算力的团队就是"租客"。
🏢 为什么是"租",不直接买卡?
- 买卡太贵:顶级 GPU 一张就要几万到十几万,凑一个能训练的集群动辄上千万,多数团队扛不住。
- 还要资质:高端卡受出口管制,不是有钱就能买到,能合规拿到货本身就是一道门槛。
- 用完即走:训练往往是阶段性的,租用可以用多少付多少,不必为一时的需求养一座机房。
🧱 关键认知:算力租赁,本质是"把一台超贵的机器,拆成小时,给很多人轮流用"。对用的人来说,门槛从"先建一座发电厂"降成了"按月交电费"——这才是它能跑起来的原因。
为什么高端卡这么稀缺?训练卡 vs 推理卡
"全是英伟达高端卡,不是低端国产卡,低端卡玩不了大模型训练"——这句话背后,是 GPU 世界里一条重要的分界线: 教模型变聪明的卡,和让模型干活回答的卡,根本不是一回事。
训练(Training)是把一个"什么都不懂"的模型,喂海量数据、反复纠错、教成一个聪明的大模型。 这个过程要把上万张卡连成一个整体一起算,对显存大小、卡和卡之间的互联带宽、浮点算力三项指标都极度苛刻—— 就像要造一辆能拉重型货物、长途不熄火的重型卡车。能干这活的,只有英伟达 H100 / H200 / B200 这类塔尖卡。
推理(Inference)是模型训练好之后,拿来回答用户问题、生成内容。它对硬件要求低得多, 更像满街跑的快递电动车——便宜、走量、谁都能造。国产卡、消费级卡都能干。
🚧 稀缺从哪来?人为管制。 美国对华高端 GPU 出口管制,让"能合规拿到训练级高端卡"本身变成了一种稀缺配额。所以拿到英伟达 Preferred 级(优先供货)资质才这么少见——这不是"有钱就能买卡",而是"有资质才有卡"。稀缺不全是市场造的,很大程度是政策造的。
那 Token 又是什么?AI 的"跳表计价单位"
注意:这里说的 Token,不是区块链里的代币,也不是登录用的令牌。 在 AI 大模型的语境里,Token 是一个特别具体的东西——它是模型处理文字时的"计价最小单位"。
Token · 词元 / 文字计价单位
大模型读不懂整段文字,它会先把文字切成一小块一小块,每一块就叫一个 Token。 一个 Token 可能是一个词、半个词、一个汉字、或一个标点。模型每"读进"一个 Token、每"吐出"一个 Token, 都要消耗一点算力。所以全世界的大模型,几乎都按 Token 数量来计量—— 你输入多少 Token、它生成多少 Token,加起来就是这次对话的"用量"。
💡 一句话理解:Token = 出租车的"跳表"。你跟 AI 说的每句话、它回你的每句话,都在不停地跳表。字越多、聊得越长,表跳得越多。算力是"油",Token 是"公里数"。
💰 为什么用 Token 来计量?因为它把"看不见摸不着的算力",变成了"可以按量计数的标准单位"——就像把电变成"度"、把水变成"吨"。有了 Token,算力第一次可以像水电煤一样,装个表、按用量、数得清清楚楚。
把两块积木拼起来:从算力到Token
现在你手里有两个概念了——算力(电)和 Token(计量单位)。它们是怎么串起来的?看这条链: 电变成算力,算力带动模型,模型吐出 Token,Token 数清用量。
翻译成大白话:显卡是发电机,模型是用电的机器,Token 是电表上跳动的度数。 常听到的"Token 算力工厂",意思就是把同一批卡,除了整批租给大客户, 还拆成 Token,按量供给给更小的客户、更零散的需求——同一份算力,两种用法。
没有算力,就吐不出 Token;没有 Token,算力用了多少就数不清。这三个词不是并列的,是一条流水线上的三个工位。
同一批卡,两种用法:整租 vs 按量
同一批卡,可以"整租"给大客户,也可以拆成 Token 按量供给很多小客户。两种方式对应两类需求, 了解它们的区别,就懂了 AI 算力是怎么被用起来的。
| 对比项 | 整租(按卡 × 小时) | 按量(按 Token) |
|---|---|---|
| 谁在用 | 要训练大模型的团队,整批包用 | 做 AI 应用的中小开发者、个人,零散取用 |
| 怎么计 | 按"卡 × 小时",包一段时间 | 按 Token 用量,用多少算多少 |
| 生活类比 | 整层楼租下来自己用 | 家里装个电表,按度数算 |
| 适合场景 | 算力需求大、且持续 | 需求零散、随用随走 |
| 灵活度 | 稳定、可规划 | 门槛低、弹性大 |
📊 一句话区分:整租像"把整桶水搬回家",按量像"在便利店买瓶装水"。同样的算力,整租适合"用得多、用得稳",按量适合"随用随走、不想囤"。两种方式并存,覆盖不同的人。
把三个词,串成一句话
到这里,算力、训练 / 推理、Token 都讲完了。用一条线把它们接起来,就是这一期的全部:
= 电 / 发电厂
提供运算能力
= 用电的机器
= 电表的度数
用量数得清
算力是电,模型是用电的机器,Token 是电表上跳动的度数。先有算力,模型才能跑;有了 Token,用了多少才数得清。
关于算力,几个容易被夸大的点
讲清楚原理,也得讲清楚边界。下面几条,是聊算力时最容易被带偏的地方。
- 稀缺是阶段性的:高端卡今天稀缺,很大程度是出口管制造成的。管制变化、或国产卡追上来,稀缺程度都会变,不是一成不变。
- 硬件会折旧:GPU 会贬值、会被新一代淘汰。今天的顶级卡,几年后可能就退居二线了——它是消耗品,不是永久不变的东西。
- Token 在持续降价:模型变高效、竞争变激烈,全行业 Token 单价这几年一直在猛降。便宜是好事,但"按量"这本账也要重新算(这正是 EP02 要聊的)。
- "算力多"不等于"模型好":卡多只是基础,数据、算法、工程同样关键。别把算力当成衡量 AI 能力的唯一标尺。
⚠️ 一句话提醒:算力是 AI 的底座,但它只是"电"。电多不代表灯一定亮得好——怎么用电、用电的机器好不好,同样重要。把算力理解清楚,但别神化它。
六个词,一次记牢
三个最容易搞混的问题
- 算力单位 FLOPS / PFLOPS、训练 vs 推理对硬件要求的差异、互联带宽与显存的作用:英伟达官方技术文档、各家 GPU 架构白皮书公开介绍
- Token 与分词(tokenizer)原理、中英文 Token 占用差异、按 Token 计费模式:各大模型厂商 API 文档(计费与 tokenizer 说明)公开页
- 高端 GPU 出口管制与供货资质、算力租赁 / GPU 云的运作方式:公开新闻报道与行业综述