「你在我心中是最美」
对于我们来说,这则寓言还需要加上一个脚注:我们对技术的恐惧也是对西方的恐惧,我们害怕的是西方不经意地扩大和塑造东西方的「本质差距」,并将其伪装成技术发展的自然结果,抹杀不同的社会想象、技术路径和未来可能。

在写《讲中文的机匹替》时为求速度,写得比较马虎,下午和小栋聊天时他提到几个数据和表达问题,我顺手测试了最新的 API 并进行修改。为便于阅读也贴在这里:
按多轮测试的结果,在英文中,一个「通证」就是大约是 4/3 个词;在中文中,一个「通证」则是一个字,这也符合中英文组成句子最小单位不同的特征。这种界定直接导致,OpenAI 的模型能够单次读取、持续记忆的中文信息量只有英文的 60% 左右,处理同样信息的文本消耗的费用也高了 40-60 %,与此同时响应速度也有相当相当程度的下降。
聊天时小栋提到怀疑 GPT 在处理德语时也会消耗大量通证(token),我想了下确实有可能,并且也是蛮有意思的问题,于是开始了两轮测试,基本测试方法如下:
- 使用机器翻译(DeepL)将文本翻译成其他几种语言;
- 用最新的 ChatGPT 将文本内容打过去;
- API 处理完毕后会返回请求的通证数,我们以此为准来记数。
两轮测试也特意制造了一些差别,例如一轮的语料是昨天在调试翻译咒语时使用的文段,相对专业,句子也比较复杂;另一轮时随手写的文段,都是简单句,不包括复杂逻辑,能尽量避免因归化词或翻译导致的问题。
🧶
尊重一篇定量文章最好的方式就是跳过所有定量的部分,直接看结尾的数据分析。