算力账本 / COMPUTE LEDGER
入门 · BASICSEP 01
纯技术科普 · 把概念讲明白 · 零基础友好

算力、Token
到底是什么

算力、算力租赁、Token——这几个 AI 天天刷屏的词,听着玄,其实把它们当成"电"和"电表"就全通了。 这一期用大白话,把算力、训练 / 推理卡、Token 的概念、原理和类比从头讲清, 还配了 3 张自制图表,零基础也能跟上。

核心概念
4 个
算力 / 租赁 / 卡 / Token
一条主链
电→算→字
算力 → 模型 → Token
计价单位
Token
像电表的度数
阅读难度
零基础
不需要任何前置
01
第一块积木

先搞懂一个字:算力,其实就是"电"

所有 AI 的故事,根子上都是一个词——算力。它听起来很玄, 但你只要把它想成"电",剩下的全都通了。

Computing Power / FLOPS

算力 · 计算能力

算力,就是一台机器"每秒能做多少次数学运算"的能力。AI 大模型本质上是在做天文数字级别的乘法和加法, 谁的运算速度快、规模大,谁就能更快地训练出更聪明的模型、更快地回答用户的问题。 衡量算力的单位里,你最常听到的是 P(PFLOPS,每秒千万亿次浮点运算)。 常说的"3.5 万 P""6 万 P",指的就是机房里所有显卡加起来的总运算能力。

💡 一句话理解:算力 = 电力。一张 GPU 卡 = 一台发电机,一座装满卡的机房 = 一座发电厂。"6 万 P"就是这座发电厂的总装机容量。AI 公司缺的从来不是创意,是"电"不够用。

为什么算力这么金贵? 因为训练一个 GPT 级别的大模型,要把成千上万张顶级显卡连在一起、不间断地跑上几个月,电费和卡钱都是天文数字。于是就有了一种服务:专门买卡、建机房,把"电"租给那些需要算力却买不起卡的人。这就是算力租赁。

02
一种服务

算力租赁:像"包租公"一样出租算力

搞懂了算力是"电",算力租赁就一秒钟能懂——它就像"二房东 / 包租公",只不过出租的不是房子,是显卡的运算时间。

Compute Leasing / GPU Cloud

算力租赁 · 出租运算时间

先花大钱买入大量高端 GPU,建好机房、通好电、配好网络和散热,组成一个巨大的"算力池", 再把这个池子按"卡 × 小时"租给需要算力的人——比如要训练大模型的团队、做 AI 应用的开发者。 用的人不必自己买卡、不必操心机房运维,像交电费一样,用多少算力付多少钱。

💡 一句话理解:你不会为充一次电去买座发电站。算力同理——按需租用,用多少付多少,需要算力的团队就是"租客"。

🏢 为什么是"租",不直接买卡?

  • 买卡太贵:顶级 GPU 一张就要几万到十几万,凑一个能训练的集群动辄上千万,多数团队扛不住。
  • 还要资质:高端卡受出口管制,不是有钱就能买到,能合规拿到货本身就是一道门槛。
  • 用完即走:训练往往是阶段性的,租用可以用多少付多少,不必为一时的需求养一座机房。

🧱 关键认知:算力租赁,本质是"把一台超贵的机器,拆成小时,给很多人轮流用"。对用的人来说,门槛从"先建一座发电厂"降成了"按月交电费"——这才是它能跑起来的原因。

03
硬件常识

为什么高端卡这么稀缺?训练卡 vs 推理卡

"全是英伟达高端卡,不是低端国产卡,低端卡玩不了大模型训练"——这句话背后,是 GPU 世界里一条重要的分界线: 教模型变聪明的卡,和让模型干活回答的卡,根本不是一回事。

FIG.01训练卡 vs 推理卡 · 三项硬指标
同样是 GPU,要求差在哪(示意,越长要求越高) 训练卡 推理卡 浮点算力 极高 够用 显存容量 卡间互联 高速 一般 训练要上万张卡连成一个整体一起算,三项都顶满;推理只要单卡答得快、够便宜
训练卡 vs 推理卡的要求(示意)· 训练像重型卡车,推理像满街跑的电动车——两类卡,两个世界

训练(Training)是把一个"什么都不懂"的模型,喂海量数据、反复纠错、教成一个聪明的大模型。 这个过程要把上万张卡连成一个整体一起算,对显存大小、卡和卡之间的互联带宽、浮点算力三项指标都极度苛刻—— 就像要造一辆能拉重型货物、长途不熄火的重型卡车。能干这活的,只有英伟达 H100 / H200 / B200 这类塔尖卡。

推理(Inference)是模型训练好之后,拿来回答用户问题、生成内容。它对硬件要求低得多, 更像满街跑的快递电动车——便宜、走量、谁都能造。国产卡、消费级卡都能干。

🚧 稀缺从哪来?人为管制。 美国对华高端 GPU 出口管制,让"能合规拿到训练级高端卡"本身变成了一种稀缺配额。所以拿到英伟达 Preferred 级(优先供货)资质才这么少见——这不是"有钱就能买卡",而是"有资质才有卡"。稀缺不全是市场造的,很大程度是政策造的。

04
第二块积木

Token 又是什么?AI 的"跳表计价单位"

注意:这里说的 Token,不是区块链里的代币,也不是登录用的令牌。 在 AI 大模型的语境里,Token 是一个特别具体的东西——它是模型处理文字时的"计价最小单位"。

Tk
Token · LLM Billing Unit

Token · 词元 / 文字计价单位

大模型读不懂整段文字,它会先把文字切成一小块一小块,每一块就叫一个 Token。 一个 Token 可能是一个词、半个词、一个汉字、或一个标点。模型每"读进"一个 Token、每"吐出"一个 Token, 都要消耗一点算力。所以全世界的大模型,几乎都按 Token 数量来计量—— 你输入多少 Token、它生成多少 Token,加起来就是这次对话的"用量"。

💡 一句话理解:Token = 出租车的"跳表"。你跟 AI 说的每句话、它回你的每句话,都在不停地跳表。字越多、聊得越长,表跳得越多。算力是"油",Token 是"公里数"。

FIG.02一句话怎么被切成 Token
同样一句话,怎么被切成一个个 Token(示意) 英文 I love AI ≈ 3 个 Token 中文 ≈ 6 个 Token 英文 1 Token ≈ 0.75 个单词;中文常常 1 个汉字就占 1–2 个 Token,同样意思往往更"费 Token"
分词器怎么切 Token(示意)· 同样一句话,中文常被切得更碎——做中文 AI 应用要留意这点

💰 为什么用 Token 来计量?因为它把"看不见摸不着的算力",变成了"可以按量计数的标准单位"——就像把电变成"度"、把水变成"吨"。有了 Token,算力第一次可以像水电煤一样,装个表、按用量、数得清清楚楚。

05
核心链条

把两块积木拼起来:从算力Token

现在你手里有两个概念了——算力(电)和 Token(计量单位)。它们是怎么串起来的?看这条链: 电变成算力,算力带动模型,模型吐出 Token,Token 数清用量。

FIG.03算力 → 模型 → Token · 一条流水线
算力 / GPU 机房里的卡 · 提供运算 🧠 跑大模型 读字 · 思考 · 写字 🎟️ 吐出 Token 每个字 = 一次跳表 📊 按量计 用多少一目了然 = 发电厂 = 用电的机器 = 电表跳的度数 = 抄电表
从算力到 Token 的一条链(示意)· 显卡是发电机,模型是用电的机器,Token 是电表上跳动的度数

翻译成大白话:显卡是发电机,模型是用电的机器,Token 是电表上跳动的度数。 常听到的"Token 算力工厂",意思就是把同一批卡,除了整批租给大客户, 还拆成 Token,按量供给给更小的客户、更零散的需求——同一份算力,两种用法。

没有算力,就吐不出 Token;没有 Token,算力用了多少就数不清。这三个词不是并列的,是一条流水线上的三个工位。

本期核心论点 · 01
06
两种用法

同一批卡,两种用法:整租 vs 按量

同一批卡,可以"整租"给大客户,也可以拆成 Token 按量供给很多小客户。两种方式对应两类需求, 了解它们的区别,就懂了 AI 算力是怎么被用起来的。

对比项整租(按卡 × 小时)按量(按 Token)
谁在用 要训练大模型的团队,整批包用 做 AI 应用的中小开发者、个人,零散取用
怎么计 按"卡 × 小时",包一段时间 按 Token 用量,用多少算多少
生活类比 整层楼租下来自己用 家里装个电表,按度数算
适合场景 算力需求大、且持续 需求零散、随用随走
灵活度 稳定、可规划 门槛低、弹性大

📊 一句话区分:整租像"把整桶水搬回家",按量像"在便利店买瓶装水"。同样的算力,整租适合"用得多、用得稳",按量适合"随用随走、不想囤"。两种方式并存,覆盖不同的人。

07
串起来

把三个词,串成一句话

到这里,算力、训练 / 推理、Token 都讲完了。用一条线把它们接起来,就是这一期的全部:

算力
机房里的卡
= 电 / 发电厂
提供运算能力
模型
用算力读字、思考、写字
= 用电的机器
Token
模型处理文字的单位
= 电表的度数
用量数得清

算力是,模型是用电的机器,Token 是电表上跳动的度数。先有算力,模型才能跑;有了 Token,用了多少才数得清。

本期核心论点 · 02
08
冷静一下

关于算力,几个容易被夸大的点

讲清楚原理,也得讲清楚边界。下面几条,是聊算力时最容易被带偏的地方。

  • 稀缺是阶段性的:高端卡今天稀缺,很大程度是出口管制造成的。管制变化、或国产卡追上来,稀缺程度都会变,不是一成不变。
  • 硬件会折旧:GPU 会贬值、会被新一代淘汰。今天的顶级卡,几年后可能就退居二线了——它是消耗品,不是永久不变的东西。
  • Token 在持续降价:模型变高效、竞争变激烈,全行业 Token 单价这几年一直在猛降。便宜是好事,但"按量"这本账也要重新算(这正是 EP02 要聊的)。
  • "算力多"不等于"模型好":卡多只是基础,数据、算法、工程同样关键。别把算力当成衡量 AI 能力的唯一标尺。

⚠️ 一句话提醒:算力是 AI 的底座,但它只是"电"。电多不代表灯一定亮得好——怎么用电、用电的机器好不好,同样重要。把算力理解清楚,但别神化它。

09
一页速查

六个词,一次记牢

算力
机器每秒能算多少。= 电。单位 P。
🏢
算力租赁
按卡×小时租用算力。= 像租充电宝。
🚚
训练卡
教模型变聪明的顶级卡。稀缺、要资质。
🛵
推理卡
让模型干活回答。走量、要求低。
🎟️
Token
模型处理文字的计量单位。= 跳表度数。
🔤
分词器
把文字切成 Token 的规则。中文常更费。

三个最容易搞混的问题

这个 Token,和区块链里的"代币"是一回事吗?
完全不是,它和区块链、虚拟货币没有任何关系。AI 里的 Token 只是"把文字切成的小块",是个技术计量单位。同一个英文词,两个八竿子打不着的意思,本文讲的全是后者。
算力租赁和"云计算"是一回事吗?
是亲戚,不完全相同。传统云计算租的是通用服务器(CPU、存储、带宽);算力租赁专门租 AI 训练用的高端 GPU。可以理解为:算力租赁是云计算里"最贵、最稀缺、最吃资质"的那一个细分方向。
既然能按 Token 零散供给,为什么还要"整租"?
因为零散需求不稳定,很难让一座大机房一直满负荷运转。大客户整租能保证机房稳定有人用,是"地基";按量供给灵活、覆盖面广,是"补充"。两者搭配,算力才能既跑得稳又用得开。
本期参考与延伸(公开资料,建议自行复核)
📘 本文为 AI 技术概念科普,目的是把"算力 / 算力租赁 / 训练卡 / 推理卡 / Token"这些词讲清楚。文中图表多为示意,数字(如中英文 Token 占用、成本构成)会随模型、分词器、工况不同而变化,仅作通俗解释之用,可能存在简化或偏差,欢迎指正