20世纪40年代,计算机由真空管制成,要占据整个房间这么大的空间。而机器翻译(计算机翻译)也只是计算机开发人员的一个想法。在冷战时期,美国掌握了大量关于苏联的各种资料,但缺少翻译这些资料的人手。所以,机器翻译也成了亟待解决的问题。
最初,计算机研发人员打算将语法规则和双语词典结合在一起。1954年,IBM以计算机中的250个词语和6条语法规则为基础,将60个俄语词组翻译成了英语,结果振奋人心。IBM701通过穿孔卡片读取了一句话,并将其译成了“我们通过语言来交流思想”。在庆祝这个成就的发布会上,一篇报道就曾提到,有60句话翻译得很流畅。这个程序的指挥官利昂·多斯特尔特表示,他相信“在三五年后,机器翻译将会变得很成熟”。
事实证明,机器翻译最初的成功误导了人们。1966年,一群机器翻译的研究人员意识到,翻译比他们想象的更困难,他们不得不承认自己的失败。机器翻译不能只是让计算机熟悉常用规则,还必须教会计算机处理特殊的语言情况。毕竟,翻译不仅仅只是记忆和复述,也涉及选词,而明确地教会计算机这些非常不现实。
在20世纪80年代后期,IBM的研发人员提出了一个新的想法。与单纯教给计算机语言规则和词汇相比,他们试图让计算机自己估算一个词或一个词组适合于用来翻译另一种语言中的一个词和词组的可能性,然后再决定某个词和词组在另一种语言中的对等词和词组。
20世纪90年代,IBM这个名为Candide的项目花费了大概10年的时间,将大约有300万句之多的加拿大议会资料译成了英语和法语并出版。由于是官方文件,翻译的标准就非常高。用那个时候的标准来看,数据量非常庞大。例如,统计机器学习从诞生之日起,就聪明地把翻译的挑战变成了一个数学问题,而这似乎很有效。机器翻译能力在短时间内就提高了很多。然而,在这次飞跃之后,IBM公司尽管投入了很多资金,但取得的成效不大。最终,IBM公司停止了这个项目。
2006年,谷歌公司也开始涉足机器翻译,这被当做实现“收集全世界的数据资源,并让人人都可享受这些资源”这个目标的一个步骤。谷歌翻译开始利用一个更大、更繁杂的数据库,也就是全球的互联网,而不再只利用两种语言之间的文本翻译。
为了训练计算机,谷歌翻译系统会吸收它能找到的所有翻译。它从各种各样语言的公司网站上寻找对译文档,还会去寻找联合国和欧盟这些国际组织发布的官方文件和报告的译本。它甚至会吸收速读项目中的书籍翻译。谷歌翻译部的负责人弗朗兹·奥齐是机器翻译界的权威,他指出,“谷歌的翻译系统不会像Candide一样只是仔细地翻译300万句话,它会掌握用不同语言翻译的质量参差不齐的数十亿页的文档。”
尽管其输入源很混乱,但较其他翻译系统而言,谷歌的翻译质量相对而言还是最好的,而且可翻译的内容更多。到2012年年中,谷歌数据库涵盖了60多种语言,甚至能够接受14种语言的语音输入,并有很流利的对等翻译。之所以能做到这些,是因为它将语言视为能够判别可能性的数据,而不是语言本身。如果要将印度语译成加泰罗尼亚语,谷歌就会把英语作为中介语言。因为在翻译时它能适当增减词汇,所以谷歌的翻译比其他系统的翻译灵活很多。
谷歌的翻译之所以更好并不是因为它拥有一个更好的算法机制。和微软的班科和布里尔一样,这是因为谷歌翻译增加了很多各种各样的数据。从谷歌的例子来看,它之所以能比IBM的Candide系统多利用成千上万的数据,是因为它接受了有错误的数据。2006年,谷歌发布的上万亿的语料库,就是来自互联网的一些废弃内容。这就是“训练集”,可以正确地推算出英语词汇搭配在一起的可能性。
谷歌公司人工智能专家彼得·诺维格在一篇题为《数据的非理性效果》的文章中写道,“大数据基础上的简单算法比小数据基础上的复杂算法更加有效。”他们就指出,混杂是关键。“由于谷歌语料库的内容来自未经过滤的网页内容,所以会包含一些不完整的句子、拼写错误、语法错误,以及其他各种错误。况且,它也没有详细的人工纠错后的注解。但是谷歌语料库的数据优势完全压倒了缺点。”