"token 是一个可以对一个项目所含信息量进行量化的一个指标,一个项目沉淀的所有资产转换为 token 的数量就是对这个项目规模的衡量。"
延伸阅读:Context Window 的限制如何创造了基于 Token 的测量需求,参见AI 的无状态性与 Context Window。Token 规模如何影响工具选择,参见工具与 Context 选择:为什么 AI IDE 卖的是"上下文选择能力"。
1. 为什么用 Token 来衡量项目规模
在传统软件工程里,我们衡量项目规模的方式通常是:
- 代码行数(LoC)
- 文件数量
- 功能模块数量
- 团队人数
但在 AI-Native 时代,这些指标都有局限性:
- 代码行数:AI 生成的代码可能很“啰嗦”,行数多不代表复杂度高
- 文件数量:AI 倾向于生成大量小文件,文件数量不能反映真实的信息密度
- 功能模块数量:模块边界在 AI 时代变得更模糊,数量意义不大
- 团队人数:AI 让单人产能大幅提升,人数和项目规模的关系被打破了
Token 作为一个新的量化指标,有其独特优势:
直接反映 AI 的“理解成本”
一个项目需要多少 token 才能被 AI 完整理解,这个数字直接决定了:- AI 能否在一个 session 里处理整个项目
- 需要多少轮 AI 接力才能完成一个需求
- Context 选择策略的复杂度
统一衡量所有资产
Token 可以统一衡量:- 代码
- 文档
- 测试用例
- 配置文件
- 甚至会议录音、设计稿(如果转成文本)
和 AI 的成本直接挂钩
Token 消耗 = AI 使用成本,这个指标直接关系到:- 团队能否持续使用 AI
- 哪些工具/模型适合当前项目规模
2. 1M Token 和 10M Token 的边界
根据实践经验,有两个关键的数字边界:
- 1M Token:一个超小型AI-Native的团队15-30天生产的所有内容正好在这个规模左右
- 10M Token:在这个规模以内,AI-Native 方案都能带来至少 3 倍的生产力提升
1M Token 意味着什么:
- 一个中等规模的代码库(几万到十几万行代码)
- 加上必要的文档和测试
- 可以在一个“大上下文模型”(如 Gemini 100 万 token)里完整加载
- AI 可以在一次会话里理解整个项目的全貌
10M Token 意味着什么:
- 一个大型项目,或者多个相关项目的集合
- 已经无法在一个 session 里完整加载
- 必须依赖 Context 选择策略,让 AI 只关注“相关的部分”
- 但在这个规模内,只要 Context 选择做得好,AI 仍然能带来显著的生产力提升
超过 10M Token 之后:
- Context 选择的复杂度会急剧上升
- AI 的准确率会明显下降(因为总是只能看到“部分上下文”)
- 可能需要考虑“项目拆分”或“架构重构”,把大项目拆成多个 1–10M Token 的子项目
3. 如何测量项目的 Token 规模
一个粗略的估算方式是:
代码部分
- 把整个代码库的文本加起来
- 按照“1 token ≈ 4 个英文字符”或“1 token ≈ 1.5 个中文字符”估算
- 或者直接用工具(如 tiktoken)精确计算
文档部分
- 把所有 markdown、文本文档加起来
- 同样按 token 比例估算
测试部分
- 测试代码和测试数据
- 如果测试用例很多,这部分可能占很大比例
其他资产
