机器翻译可以让所有人都能接触到只有英语的科学
还在上高中的时候,刘心怡曾在北京航空航天大学的一个实验室短暂工作过,他惊讶地发现研究人员经常使用谷歌翻译来生成第一份英文科学论文草稿。如果科学家想向高知名度的期刊投稿,翻译是必须的,这些期刊几乎都是英文的。
“对于博士后来说,首先使用谷歌翻译来翻译所有内容,然后对其进行修改和润色是很正常的。但在第一次翻译之后,整篇论文就没有意义了,”加州大学正在升职的大三学生刘说,伯克利大学,主修分子和细胞生物学。“从字面上看,所有的词,所有的术语都是随机地粘在一起的。”
一定有更好的办法,她想。
因此,去年,当她看到丽贝卡·塔文(Rebecca Tarvin)正在教授一个关于打破科学语言障碍的新研讨会时,她报名了。
该课程将于 2023 年春季在加州大学伯克利分校第三次授课,是综合生物学助理教授 Tarvin 的试验气球。随着校园范围内对多样性、公平和包容性的重新关注,她和她所在部门的工作组认为,这门课可以帮助加州大学伯克利分校解决一个长期存在的科学问题:英语,科学的主要语言,是一个主要障碍。不是以英语为母语的科学家。
当科学主要以英语交流时,不仅外国学生和科学家处于劣势。许多出生的学生也是如此。2020 年秋季,进入加州大学伯克利分校的新生中约有 40% 是第一代大学生,而在加州大学系统的 10 个校区内,39% 的第一代学生在成长过程中以英语以外的语言作为第一语言。
“我们来自加利福尼亚的许多学生都是为他们的父母翻译长大的,”塔文说。“从他们很小的时候起,翻译就已经成为他们生活的一部分。”
对 Tarvin 而言,课程——打破进化和生态学中的语言障碍——是一个“既能教授学生翻译素养技能的机会,又能鼓励学生成为这一结构变革领域的积极分子。事实上,我看到了一个学生们对这种激进主义的反应非常积极,因为他们似乎都同意在学习完课程后解决语言障碍非常重要。”
该班带领塔文和加州大学伯克利分校的一些研究生,以及加拿大、以色列和匈牙利的合作者,撰写了一篇科学论文,评估新的机器翻译工具,全世界的人们都可以使用这些工具使他们的科学文章可供非英语人士使用. 该论文本月在线发表在《生物科学》杂志上。西班牙语、法语、葡萄牙语和匈牙利语(合著者的语言)的翻译也在线。
“这里的想法是,我们试图为人们提供工具和动力来翻译他们自己的科学研究,”塔文说。“科学不需要基于单一语言。在科学的每个阶段都采用多语言方法可以带来很多额外的好处。例如,由于更好的科学交流,以多种语言出版将使社会受益。”
“语言既可以成为障碍,也可以成为将人们聚集在一起的绝佳工具,”该论文的第一作者、加州大学伯克利分校环境科学、政策和管理专业的研究生 Emma Steigerwald 强调说。“这是我们可以使用这项新技术克服的障碍。我们解释了这项技术及其实施方式,以及我们在使用该技术时需要注意的事项,以及科学传播的所有美妙和积极的方式可以通过采用这项新技术来进行改造。”
迈向多语言科学网络
直到最近,计算机翻译还是个笑话。人们分享了有趣的误译例子,似乎常常贬低英语以外的语言,并暗示贬低其他文化。
但是机器学习或人工智能极大地提高了翻译的准确性,以至于游客使用谷歌翻译等互网服务与他们所访问国家的人们进行交流。
但是对于包含大量行话的文本——其中大部分是科学的,但也来自许多其他学术领域——谷歌翻译严重不足。
“翻译质量不适合期刊,”该课程的研究生导师之一 Ixchel Gonzalez Ramirez 说。“很多时候,人们不得不花钱请专业翻译人员翻译他们的作品,而且非常昂贵。”
这篇新论文重点介绍了众多服务中的一些——其中大部分是免费的——这些服务可以将英语科学写作转换成其他语言。除了著名的谷歌翻译平台外,这些平台还包括 DeepL,它使用神经网络,声称在将英语翻译成中文、日语、罗曼语或德语时比竞争对手准确很多倍,反之亦然;百度翻译,互网公司百度的一项服务,最初专注于中英文翻译;Naver Pagago,韩国一家公司创建的多语种翻译器;和 Yandex.Translate,它使用统计机器翻译,主要关注俄语和英语。
“翻译正变得越来越触手可及。无论您是否是专家,甚至是否会说双语,我们今天拥有的众多技术都极大地提高了翻译能力,”施泰格瓦尔德说。“那么,作为科学家,我们如何将其整合到我们的工作流程中,这将如何改变围绕科学交流的期望?”
英语是科学的通用语
Tarvin 对翻译的兴趣源于她的一名研究生 Valeria Ramírez Castañeda,她在 2020 年发表了一篇论文,描述了她的哥伦比亚博士生同学想要在以英语为主导的世界中发表文章或与同事互动所产生的成本。
作为一名对一些动物如何使用毒药感兴趣的进化生物学家,塔文决定将她的新研讨会的重点放在翻译进化和生态学领域的论文上,尽管最终报名的学生制定了自己的课程。她特别寻找像刘这样的学生和像冈萨雷斯·拉米雷斯这样的双语或多语种导师。
“班上的每个人都与语言有某种家庭相关的关系,”塔文说。
Tarvin 还请加州大学伯克利分校法语和语言学教授、新闻和文学翻译专家 Mairi-Louise McLaughlin 与全班同学讨论专业人士如何处理翻译以及翻译如何影响意义。当学生尝试翻译科学摘要,有时甚至是整篇论文时,这个主题引起了学生的共鸣。
2022 年春季参加该课程的二年级新生崔若明选择了百度翻译科学摘要。她立即发现,英语长而复杂的句子和使用多个词来描述一个概念在翻译成中文时似乎是多余的。
她说:“我们通常不会用中文这样做,因为它会使每个句子都变得超长,而且非常乏味。”
刘补充说,如果没有大量的修饰,许多英文翻译就会出现乱码,她说。
“我听说过这样的说法,即使你的成绩很出色,但如果你因为翻译而写了一篇混乱的论文,人们会因为他们无法理解你在做什么而生气,”刘说。“这将极大地影响人们验证研究的方式,或者他们是否会阅读它。我认为这是科学界的一大障碍。”
Steigerwald、Tarvin 和他们的合著者也意识到,用更通俗易懂的英语撰写科学论文——长期以来,非科学家一直在鼓励这一点——对说英语和非英语的人都有好处。
“如果你的母语不是英语,而你只是想阅读英文版的论文,那么当作者使用简单的语言时,它会感觉不那么模棱两可,可读性会好得多,”Steigerwald 说。“而且,非常重要的是,当你翻译那段文本时,机器学习工具将更容易翻译用简单语言编写的内容。所以,这是一种面向未来的写作,所以如果有人想把它翻译成一百万种语言,那么当它以这种方式编写时,他们会更容易理解它。”
科学文章的广泛翻译仍然存在障碍,包括在哪里提供这些文章以及如何处理版权。大多数期刊甚至不接受非英文的文章,很少有明确允许与翻译的文章共同出版。Tarvin 发现很少有期刊对翻译有任何政策,并且由于普遍的版权限制,许多出版商收取高昂的费用才能在出版后在线发布翻译。
“令人震惊的是,有多少期刊不允许您在发表后自由发表翻译,而很少有平台支持您甚至可以只获得第二或第三语言的摘要,”Tarvin 说。“我认为主要障碍是网络平台;不仅仅是出版和版权规则,还有平台功能。”
随着打破障碍研讨会和现在的生物科学论文,塔文和她的同事希望逐渐改变科学规范,默认将论文翻译成其他语言,尤其是研究完成国家的语言和合作的语言。作者。
并且翻译越多,训练机器翻译系统做得更好的材料就越多,逐渐提高科学翻译的质量。
“在我的实验室,我们正在翻译我们的很多研究,现在艾玛实验室的人也在这样做,”她说。“我认为分享我们对此的积极态度以及它如何为人们带来改变已经影响了一小部分但不断增长的人,他们开始将翻译纳入他们的科学工作流程。”
生物科学论文的其他合著者包括加州大学伯克利分校的博士生 Valeria Ramírez-Castañeda 和 Débora Brandt;匈牙利 Vácrátót 生态研究中心生态与植物研究所的 András Báldi;以色列贝尔谢巴内盖夫本古里安大学博士后研究员 Julie Teresa Shapiro;加拿大渥太华大学 翻译和口译教授 Lynne Bowker 。