从哲学概念到科技概念，再到经济概念，Token的前世今生-游侠源码网

统一声明：

1.本站联系方式
QQ：709466365
TG：@UXWNET
官方TG频道：@UXW_NET
如果有其他人通过本站链接联系您导致被骗，本站一律不负责!
2.需要付费搭建请联系站长QQ：709466365 TG：@UXWNET
3.免实名域名注册购买- 游侠云域名
4.免实名国外服务器购买- 游侠云服务

当主流模型皆以 Token计费、企业设立专门Token预算、政府政策文件也写入“词元交易”时，Token 正成为无需争论的新经济单位。

2026年3月，发生了两件看似不相关的事。

英伟达CEO黄仁勋在GTC大会上预测，公司到2027年的营收将至少达到1万亿美元。

演讲中，他还顺手将数据中心重新定义，介绍“那是生产AI智能Token的工厂”。

而同一个月，中国国家数据局局长刘烈宏在中国发展高层论坛上发言时说，“Token不仅是智能时代的价值锚点，更是连接技术供给与商业需求的结算单位”。

并且，他代表官方给“Token”定下了中文译名：“词元”。

一位是全球最大芯片公司的掌舵人，一位是中国数据领域的最高主管官员，却用几乎一致的口吻，将Token描述为了一个经济单位。

那么，如今火爆全球，甚至有可能成为新时代的货币的Token，究竟是什么？

1906年，美国哲学家Charles Sanders Peirce（查尔斯·桑德斯·皮尔士）正在琢磨一个看似简单的问题：一页书上印了20个“the”，这到底算是一个词，还是20个不同的词？

这并非是皮尔士心血来潮，故意在咬文嚼字。

作为哲学家，他认为那个作为抽象概念的“the”，其实代表了一种普遍的规则或形式。

对此，他称其为“类型”（Type）；而书中每一个具体可见的“the”，则是这个类型的一次具体呈现，可以叫做“实例”（Token）。

也就是说，20个“the”是同一个“类型”的20个不同“实例”。

他就此指出：“类型（Type）本身并不存在，但它却决定了哪些具体的东西能够存在。”

这个看似玄奥的观念在哲学圈流传了很久，但当时没人想到，它未来会和计算机产生什么关联。

直到1936年，哈佛大学的语言学家乔治·齐普夫在研究词频时，再次对Token进行了数学上的解释。

彼时，齐普夫在对各种语言中词频的统计时，发现了一个有趣的现象：一个词的排位和它词频的乘积，几乎是一个常数。举个例子，在汉语中，“的”是最常用的字，排第一，它的字频大约是6%。

这时，排名（1）乘以字频（6%）约等于6%。

接下来，排第二的字是“是”，它的字频约3%，2乘以3%也约等于6%；然后是排第三的字“一”，字频约2%，3乘以2%同样约等于6%。

可以看到，这里的排序和字频的乘积近似为一个常数。

因此，排第一的“的”的字频大约是排第二的“是”的两倍，更是排第三的“一”的三倍。

这种“频率与排名成反比”的规律，后来被命名为“齐普夫定律（Zipf’s law）”。

谁也没想到，这个看似枯燥的数学理论，会在三十年后，成为计算机语言处理的一项重要理论基础。

时间来到1960年代，“Token”的概念终于在计算机世界得到了应用。

比如，当程序员写下int x = 5;这样的代码时，早期的计算机会像一个认真的“语法拆解员”，从头到尾把这串字符逐个拆开理解。

在此过程中，计算机先认出“int”是一个表示整数类型的关键词，接着把“x”标记为一个变量名称，之后看到“=”是赋值符号，最后的“5”则被识别为一个具体的数字值。

而每一个这样被识别出来、并贴上明确含义标签的独立单元，就是一个Token。

如此一来，Token终于完成了从人文概念到机器语言的转身，成为了计算机“读懂”指令和信息的基本单位。

从默默支撑数字世界的语法基石，到后来被赋予全新的价值与共识，Token的含义仍在不断延伸。

2017年，随着区块链与ICO热潮的兴起，冷门的Token也因披上了“数字代币”的华丽外衣，被世人逐渐熟知。

尽管那轮热潮逐渐冷却，许多项目悄然退场，但Token这个概念却稳稳地留了下来。

它不再只是一个技术名词，而是带着“可流通的数字权益凭证”这层新身份再次被人提及。

可以说，无论身处什么样的背景，Token的核心始终是：把复杂事物标准化，变成系统可识别、可处理、可流转的最小单元。

也正是这个贯穿始终的基因，才使得在大规模语言模型崛起的今天，Token成为了人机交互中最基础、也是最重要的“语言单元”。

那么，当AI面对人类语言时，又是如何运用这把“尺子”来学会“理解”与“思考”的呢？

我们首先要厘清，AI理解人类的指令，并非只是我们想象中的“阅读”或“推理”，而是一次精准的“外科手术”——“切割”。

这意味着，你输入的任何一句话，AI都会做一次精密的“拆解手术”。

在指令发出后，所有文字都会被切割成一系列Token碎片，随即转化为计算机数据。

换句话说，AI模型所有的“思考”与“推理”，其实都是在这些数字的复杂运算中完成，再“翻译”成人们能读懂的语言。

这听起来简单，实际操作却异常复杂。

比如，最常见的就是AI的歧义困境。

举个例子，“羽毛球拍卖了多少钱”这句话，AI模型想理解的话，究竟是该在“羽毛球拍”后断开，还是在“拍卖”后断开？

前者是体育用品询价，后者却变成赛事竞拍，语义天差地别，AI仅凭字符根本无法判断。

所以，指令该“切什么、怎么切”，就成为AI最底层的核心问题。

更麻烦的是，如果某个词从未在训练数据中出现，模型便无法识别，只能标记为“未知”跳过，意味着系统出现了一个BUG（漏洞）。

因此，如何让AI模型既能处理歧义，又能“认出”从未见过的字词组合，成为困扰计算机语言处理领域多年的难题。

而这个难题被克服，则来自一篇被遗忘多年的技术论文。

1994年，美国程序员Philip Gage（菲利普·盖奇）在一本C语言技术杂志上发表文章，介绍了一种名为BPE（字节对编码）的压缩算法。

盖奇的思路很简单，即通过反复扫描文本，把最常相邻出现的两个字符（如\”th\”）焊成新符号，一轮轮迭代压缩。

经过反复迭代后，常用词组会越压越小，解压端只需保存这张“打包对照表”即可，让整个程序的体积变得极小。

然而，因其压缩效率并不突出，业内并没人关心几KB内存的变化，因此这个算法在当时并未引起太大关注。

这篇论文很快被人遗忘，这一忘就是22年。

直到2016年，爱丁堡大学的研究员里Rico Sennrich（科·森里希）在研究机器翻译的分词难题时，偶然检索出了这篇旧文。

他敏锐地意识到，BPE这种基于频率的合并策略，恰好是分词的绝佳方案：无需预先定义词典，完全让数据自己“说话”，高频组合就像滚雪球一样，逐渐凝结成Token。

如此一来，即使面对“未见过”的生僻词，计算机语言也能将其拆解为更细致的字节，从而彻底规避了“未知”困境。

2019年，OpenAI在发布GPT-2时，也是借用了这个概念。

研发团队将分词起点直接设定在“字节”——计算机存储的最小单元，从底层统一了所有语言的表示方式，从而使模型理论上能够处理任何语言文字。

一篇尘封二十余年的短文，就此成为驱动万亿级AI产业的底层逻辑之一。

这个结果，恐怕连盖奇本人也未曾料到。

然而，当这种“处理一切文字”的能力与效率至上的算法结合时，一种全新的“算法霸权”悄然出现。

如今AI所用的这套分词方法，表面上看很“公平”：哪种语言用得多，处理起来就更高效、更完整；用得少的语言，就会被切得比较零碎，处理起来也更“费劲”。

可这种效率至上的“公平”，却悄悄地把全世界的语言分成了两种待遇：有的语言是“快速通道”，有的却像走在碎石路上。

简单来说，由于BPE算法的核心逻辑是“频率优先”，哪种语言最常见，那么相关词汇就会被更高效地合并为Token。

而英语作为互联网的绝对主流，自然是最优先的表述语言，其他语言则只能依据其“数字能见度”依次排序。

因此，AI模型中实际上形成了一套隐性的“语言税”体系：表达相同的意思，英文最省Token、成本最低；中文通常需要1.5~2倍；而像祖鲁语、藏语等资源较少的语言，开销可达英文的5~10倍。

这意味着，在按Token计费的规则下，使用英文与AI对话不仅更快，同等预算下能调用的算力也远多于其他语言。

这也不是什么新鲜事，信息时代一直如此。

从莫尔斯电码到键盘设计，几乎每一次信息技术的底层变革，都会默认为英文铺平道路，而让其他语言的使用者不得不付出额外的“转码”代价。

因此，Token的效率差距，只是这条历史规律在AI时代的重演罢了。

值得警惕的是，这种“起跑线”上的不公一旦写进AI的初始词表，就几乎无法再进行修正。

因为，分词规则是AI模型认知世界的地基，大楼盖得越高，地基就无法更换。

可喜的是，随着中国在大模型领域快速进步，即便是英文语料主导的模型，也开始显著优化对中文的处理效率。

这一点，在OpenAI的模型迭代中体现得非常明显。

比如同一句中文，在GPT-3中需要38个Token，到GPT-4降为26个，而GPT-5仅需15个。

说明通过几代GPT的演进，处理同一中文内容所需的Token数量下降超过60%，中文的识别效率显著提升。

而通义千问、DeepSeek等国产大模型，更是从设计之初就将中文的高频词组、成语等作为原生Token纳入词表，从而在相同模型规模下，实现了对中文更高效、更“母语”级的处理。

换句话说，在AI时代，谁掌握了“语义切分权”，即定义语言基本单元的权力，谁就在很大程度上掌握了该语言在数字世界的表达效率与成本优势。

而这种定义Token的权力，实质上已构成一种数字时代的“基础铸币权”。

其战略意义，甚至不亚于掌握芯片的设计与制造。

这种效率上的差距看似是道坎，实际上更像一张门票：只要你有足够的算力和数据，完全可以不走别人的老路，自己打下最结实的地基。

而要把这种“定义语言基本单元”的优势，真正变成产业上的话语权，还需要一整套从能源、芯片到算力的硬支撑。

这条路上，中国恰好都站在了起跑线前。

如果要为中国在全球Token经济中的位置画一条链路，起点是能源，终点则是全球AI服务市场。

不妨想象个画面：西北戈壁的风机将风能转为电力，电流又沿特高压线路汇入数据中心；GPU再把电能转化为算力，源源不断生产出Token。

而这些数字单元最终通过海底光缆，流向全球各地，再换回以美元计价的API调用收入。

事实上，中国在这条链条上的体量，早已大到可以独立成势。

公开数据显示，截至2026年3月，我国日均Token调用量已达140万亿，两年间增长超千倍。

同期全球监测更显示，中国大模型每周调用量已连续数周超越美国，领先幅度超过两倍，稳居全球首位。

那么，中国的Token经济为何这么强？

这要从成本说起，但最关键的变量是电价。

在贵州、云南等水电丰富的地区，以及甘肃、新疆等风光资源充沛的省份，工业用电价格长期处于低位。专门供给算力中心的绿色电力，部分地方甚至低至每度电0.15元。

反观欧美大部分地区，工业电价普遍是中国的数倍甚至更高。

举个例子，生成100万个Token大约需消耗15到20度电。如果按中国西北的低价绿电计算，成本仅数元人民币；而同样的计算任务，在国际市场上对应的电价则通常在60到200美元之间。

这样一比，中国凭借在能源与算力成本上的优势，构筑了一条从“电”到“Token”的成本护城河。

更关键的是，中国将大量难以被完全消纳的绿色电力，与持续爆发的算力需求精准对接，形成了独特的产业闭环。

2025年，中国全年发电量突破10万亿度，占全球总量近三分之一。

其中，风电、光伏等新能源曾因储能不足、外送受限而产生明显的“弃风弃光”现象。

而数据中心作为可调节的负荷大户，可以在风光发电高峰时段提升运行负荷，高效消纳这些原本被浪费的绿色电力。

这样一来，不仅降低了用能成本，也提升了能源利用效率，构成了其他国家难以复制的系统性优势。

近年来推行的“东数西算”工程，更是将这一逻辑提升至国家战略层面，引导数据中心向贵州、内蒙古、宁夏等可再生能源富集地区布局。

这相当于将算力中心直接接入“绿电插座”，将过去可能被弃用的风电、光伏电力，高效转化为可用的AI计算力，持续产出Token。

因此，这场AI竞赛看似是算法与模型的比拼，实则是能源转型与数字基建深度融合的全新答卷。

而中国，恰好在这条赛道上占据了交汇点。

与此同时，随着AI从技术探索走向产业深处，传统制造业的质检排产、金融业务的风控合规、政务系统的文书处理等场景，正快速成长为Token消耗的新主力。

这类需求体量庞大、持续稳定且对价格高度敏感，恰恰又与中国Token产业的低成本结构高度适配，让中国在全球Token竞争中，始终占据着难以复制的供给优势。

正是因为有了从能源、算力到实际应用的完整支撑，Token也逐渐从纯粹的技术单元，演变为可在数字世界中承载和交换价值的通用载体。

这就意味着，Token完全有可能在未来成为数字经济的“基础货币”。

回望历史不难发现，任何一种新计量单位最终占据主导，靠的都不是完美，而是越用越离不开，到最后切换成本高到没人愿意换。

而Token恰恰具备这种“一旦用上就难以离开”的特性。

Token天生就是AI服务的计费单元，每一次调用都有清晰的消耗记录，比电价更易核算，也比流量更直接对应价值产出，而这一属性从诞生之初便已根植其中。

而就在近期，国家数据局在征求意见稿中已首次提出“词元交易”，探索构建以词元为核心的可量化、可定价数据价值体系。

这意味着，Token在国内终于有了一个“价值标准”，不再只是技术文档里的计量单位。

与此同时，一个看似矛盾的趋势正在发生：用户端感受到的AI服务价格不断下降，但上游的算力成本却持续上涨。

比如，2025年10月至2026年3月，H100芯片年租价上涨近40%，且一卡难求；国内外主要云厂商也在2026年初集体提价。

这背后，正是AI从“对话”转向“自主执行”这一结构性转变，推动了算力需求的重构，也使得Token作为核心价值载体的地位愈发凸显。

关键是，AI的使用方式已经变了。

过去与AI助手聊天，一问一答，消耗的资源很少；但现在，企业让AI去自动完成写报告、做分析这些任务，消耗的资源一次可能就是聊天的几百倍。

当原来按使用次数收费的方式，已经覆盖不了飞速增长的计算成本时，涨价就成了必然，相当于市场在给AI“越来越能自动干活”这个能力，重新标价。

Token如今的处境，其实与当年的美元有几分相似。

1971年美元脱离金本位之后，本质上靠的已是“共同相信它有价值”。

它能沿用至今，根本原因在于替换它的协调成本高到难以承受——全球的贸易、金融、储备体系都已围绕它建立。

今天，同样的逻辑又在Token身上重演。

当主流模型皆以Token计费、企业设立专门Token预算、政策文件也纳入“词元交易”时，Token也如传统货币那样，因嵌入过深而难以被取代。

所以，Token是否将成为新的经济单位，已无需争论。

真正的问题是：谁来定义Token经济的规则？谁又在全球算力网络中掌握定价的主动权？

答案，或许正随着每一个被生成、被交易、被消耗的Token，写进奔涌的数据洪流之中。

1.Peirce， C. S. (1906). Prolegomena to an Apology for Pragmaticism. The Monist，16(4)， 492–546.

2.Zipf， G. K. (1935). The Psycho-Biology of Language： An Introduction to Dynamic Philology. Houghton Mifflin.

3.Zipf， G. K. (1949). Human Behavior and the Principle of Least Effort. Addison-Wesley.

4.Gage， P. (1994). A New Algorithm for Data Compression. The C Users Journal，12(2)， 23–38.

5.Sennrich，R.，Haddow，B.， Birch， A. (2016). Neural Machine Translation of Rare Words with Subword Units. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016)， 1715–1725. https：//aclanthology.org/P16-1162

6.Radford，A.，Wu，J.，Child，R.，Luan，D.，Amodei，D.， Sutskever， I. (2019). Language Models are Unsupervised Multitask Learners [GPT-2 Technical Report]. OpenAI. https：//cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

7.Brown，T.， et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems (NeurIPS 2020)，33， 1877–1901. https：//arxiv.org/abs/2005.14165

8.NVIDIA. (2026， March). NVIDIA GTC 2026 Keynote： Jensen Huang. NVIDIA Corporation. https：//www.nvidia.com/gtc/

9.刘烈宏.(2026年3月).在中国发展高层论坛2026年年会上的发言.国家数据局.

10.国家数据局.(2026年4月16日).关于推进行业高质量数据集建设行动的实施方案（征求意见稿）.

11.国家发展和改革委员会.(2022年2月).关于印发“东数西算”工程实施方案的通知. 国家发展改革委.https：//www.ndrc.gov.cn

12.中国电力企业联合会.(2026年).2025年全国电力工业统计快报. 中电联.https：//www.cec.org.cn

13.J.P. Morgan. (2025). AI Big Data： Token Demand Outlook 2025–2030. J.P. Morgan Research.

14.IDC. (2025). China AI Agents and Autonomous Task Forecast， 2026–2031. International Data Corporation.

15.Hoffmann，J.， et al. (2022). Training Compute-Optimal Large Language Models. arXiv preprint arXiv：2203.15556. https：//arxiv.org/abs/2203.15556

16.Touvron，H.， et al. (2023). LLaMA： Open and Efficient Foundation Language Models. arXiv preprint arXiv：2302.13971. https：//arxiv.org/abs/2302.13971

本文来自微信公众号 “砺石商业评论”（ID：libusiness），作者：王剑，36氪经授权发布。

📌 原文链接

https://36kr.com/p/3788900363770883

来源：36氪

1. 本站所有资源来源于用户上传和网络，如有侵权请邮件联系站长！
2. 分享目的仅供大家学习和交流，您必须在下载后24小时内删除！
3. 不得使用于非法商业用途，不得违反国家法律。否则后果自负！
4. 本站提供的源码、模板、插件等等其他资源，都不包含技术服务请大家谅解！
5. 如有链接无法下载、失效或广告，请联系管理员处理！
6. 本站资源售价只是赞助，收取费用仅维持本站的日常运营所需！
7. 如遇到加密压缩包，请使用WINRAR解压,如遇到无法解压的请联系管理员！
8. 精力有限，不少源码未能详细测试（解密），不能分辨部分源码是病毒还是误报，所以没有进行任何修改，大家使用前请进行甄别！
站长QQ：709466365 站长邮箱：709466365@qq.com

Flex核心概念从哲学概再到经济念到科技的前世今

统一声明：

本站导航

外部推荐

其他页面

官方TG

统一声明：

相关文章