“词筹”——Token的最佳译法
译名要解决两个问题:它是什么,它做什么用。
Token在现在的AI话题中频繁出现,但是其译法一直颇有争议。有人建议沿用计算机领域已有的译法——"令牌",但是令牌指的是身份认证凭证,与大语言模型的用法毫无关系。有人建议"词元","元"暗示最小单位,但 token 的粒度恰恰不是固定的。一个token可以是一个字,也可能是多个字,在其它语言中还可能是单词的一部分如英语里的"ing"。用"元"字框住它,反而把概念说窄了。
那该怎么译?
译名要解决两个问题:它是什么,它做什么用。
Token在大模型里的核心角色是文本的最小理解单元。模型用它来理解和生成语言。而服务商则用它来计量用户消耗的实际资源。因此,理想的译名应该同时兼顾语言学属性和计量属性。
因此,我认为Token的最佳译法应该为“词筹”。
选择"词"而非"字",正是因为它描述的是tokenizer的实际工作方式。"筹"这个字,历史上就是用于计数的竹片,简洁、准确。更巧的是,物理学里有个类似的概念"磁筹",证明"筹"这个字在专业术语中站得住脚。
"词筹"。一个兼顾了语言学属性和计量属性的译名,没有概念混淆,也没有历史负担,是当下时间节点最佳的翻译结果。
Comments ()