Token与"词元":看似玄乎
翻译争论
最近AI圈因为一个翻译吵得不可开交:token该不该翻译成”词元”。
支持派说这是文化自信的体现,信达雅俱全,不然全像片假名一样不乱套了。反对派说没必要,这反而是文化不自信的表现,那么多专有名词,若一个个都翻译成了中文,不乱了套了,有些就不需要中文。
其实反对派的说法已经接近真相了:这个翻译让一个简单概念变复杂了。
元诅咒
这个字已经被用坏了:元宇宙,元认知,元数据,元叙事。
每个词单独看都没问题,但架不住用多了。现在一看到”元”字,脑子里自动冒出俩感觉:玄和虚。就像这个标题,初看肯定令人困惑,因为它跟词元一样,是生造词。
Token本来就是个朴素的概念。在英语里它是代币,票根,标记。技术语境里是把句子切成小块,每块就是一个token。简单,具体,人人都能听懂。
翻译成词元之后就听起来像个学术概念了,看起来好高深莫测。这就违背了翻译的初衷,增加了认知成本。
翻译的边界
想象一下:
#def calculate_tokens(text): tokens = tokenizer.encode(text) return len(tokens)
#def 计算词元(文本): 词元列表 = 词元化器.编码(文本) return len(词元列表)翻译的目的是帮助理解,但这个翻译恰恰阻碍了理解。
这就像写程序:你当然可以在GUI界面上做汉化,让用户看得懂。但你不会把代码本身翻译成中文,尤其是核心概念。
好的翻译应该:帮助理解,保持统一,降低成本。
词元做到了吗?恐怕一项都没有。
协同困难
假设你提issue:我遇到了词元限制问题,当输入超过词元上限时会报错…
最后的结果多半不是翻译器起了什么效果,而是外国开发者找到了我们争论是否该翻译的帖子。
一个更尴尬的事情是,国内开发者自己讨论也得切换:看中文博客说词元,看官方文档说token,写代码写token,和PM汇报难道说词元吗?
丑陋的民粹
就在争吵的前些日子,某官媒刚组织过”给AI起中文名”的活动。候选名单是:灵机,玄枢,灵境,灵犀。
是不是很熟悉? 再过些时日,恐怕永乐大典里就要出现人工智能了。
尾声
一个段子:
按下手机的音量增加键和电源键,插入通用串行总线数据线,进入紧急下载模式,传入火管文件,使用命令行界面进行分区回读。
翻译成人话:按音量键加电源键,插USB线进EDL模式刷固件。
Token改成词元,大概也就是这种感觉。
技术已经够难了,术语就别再添乱了。
文章分享
如果这篇文章对你有帮助,欢迎分享给更多人!