机匹替征友记

OpenAI 发布 ChatGPT 的 API 后,我一时兴奋地无法入睡。和原本的 GPT3.5 模型相比,这个模型性能更好(和线上的 ChatGPT 基本一致),且价格降低了 90%,来到了千字符 0.002 美元。对中文用户来说,这个价格已经到达了可以大批量日用的边界。同时由于提供了 API,我们又可以想象很多不同的、更具组合性的使用方式,其中很大部分将在短期被各路程序员实现。以下我就来示范一个组合方式,也是我最近一直在测试的一种玩法。
众所周知,ChatGPT 做翻译很有一套,具体来说就是大部分情况下它能把句子写得很通顺,如果你要求它写得更像地道中文,它也能翻译得更「地道」。问题恰恰在于,GPT 的翻译并不是由双语材料对照训练而来,内部也没有词库,因此它经常把多义词的意思搞错,甚至遇到生癖词就开始瞎编,以至于研究者都期望它能够学着查查词典。有了 API 之后,查词典当然就不是什么复杂的事情了,可在程序上要怎么设计流程呢?生癖词倒还好,可多义词的意义和语境高度关联,没办法逐个查实。
因此,最简单的办法是给它提供一个参考。如果说 GPT 的翻译是机灵的狐狸,我们就得找个固执的刺猬来帮它纠偏,这也就引入了 DeepL。考虑到 DeepL 早有 API 且第三方的价格相当便宜(4 美元 / 15M 字符),整个程序设计非常简单:取到文本之后,我们先将内容打给DeepL的API,取到结果后,再将结果、原文和用户自定义的术语表一并打给GPT的API,最后取回翻译文本。现在让我们先忽略程序上的具体实现,来实测一下这样做是否能够成立,又多大程度上提升了翻译的结果,最终是否能够产生出一个足够日用的翻译器。
案例一:文学研究
原文:So here are two characters, Poirot and Miss Marple, who offer their own versions of challenge to the modern world. Towards the end of her life, the eminent academic Gillian Rose wrote that she hoped that she would not be deprived of old age. ‘I aspire’, she wrote, ‘to Miss Marple’s persona: to be exactly as I am, decrepit nature, yet supernature in one, yet equally alert on the damp ground and in the turbulent air’.
DeepL:因此,这里有两个人物,波洛和马普尔小姐,他们向现代世界提出了自己的挑战版本。知名学者吉利安-罗斯(Gillian Rose)在她生命的最后时刻写道,她希望自己不会被剥夺老年生活的权利。我渴望",她写道,"马普尔小姐的角色:完全像我一样,腐朽的自然,但又是超自然的,但在潮湿的地面和动荡的空气中同样警惕"。
ChatGPT:所以这里有两个角色,「波洛」和「玛普小姐」,他们各自对现代世界提出了挑战。在她生命的末期,杰出的学者吉莲·罗斯写道,她希望自己不会被剥夺老年时光。「我渴望成为『玛普小姐』的角色:做我自己,虽然身体虚弱,但同时拥有超凡本质,在潮湿的地面和汹涌的空气中同样警觉。」
ChatGPT+DeepL:因此,这里有两个角色,波洛和马普尔小姐,他们各自向现代世界提出了挑战。在她生命的晚年,著名学者吉莲·罗斯 (Gillian Rose) 写道,她希望自己不会被剥夺老年生活的机会。她写道:「我渴望成为马普尔小姐那样的人物:保持腐朽自然的状态,却同时超越自然,同样机警地活跃在潮湿的地面和动荡的空气中。」
人肉翻译:因此,这里有两个人物,波洛和马普尔小姐,他们各自向现代世界提出了挑战。在生命末尾,杰出的学者吉莲·罗斯 (Gillian Rose) 写道,她希望自己不会被剥夺老年的时光。「我渴望,」她写道,「成为马普尔小姐一样的人物:做我自己,自然衰老,却又超越自然,无论在潮湿的地面还是在翻涌的空气中都同样警敏。」
原文出自 Mary Evans 的《想象邪恶》(Imagination of Evil),文段中罗斯的引文意义比较含糊,有些文学色彩,机器翻译较难处理。简单对比,DeepL在此处开始说出「腐朽的自然,但又是超自然的一体」这般胡话;ChatGPT则意译到了天上说「虽然身体虚弱,但同时拥有超凡本质」。两者结合后,译文虽然还有令人不满意的地方——例如考虑到作者是罗斯的晚辈,「eminent」应该偏向「杰出」而不是「著名」,以及「decrepit nature」应该是说「自然衰老」而不是「腐朽的自然」。当然如果不纠结字眼,句子已经是完全通顺的水平,且格式完全正确。