DETA蓄电池(能源股份)Co., Ltd
行业组织使用大数据进行机器翻译
考虑到问题的严重性,翻译服务越来越依赖于机器翻译的效率和吞吐量。根本就没有足够的人工翻译和口译员。令人高兴的是,由于神经网络方法在过去十年的应用,机器翻译的质量得到了提高,主要是在这一领域发展的大的科技公司,统称为FAMGA(Facebook、苹果、微软、谷歌和亚马逊)。这些公司都以自己的方式依靠大数据在的语言优势上展开竞争。然而,他们不是在处理数字,而是在处理文字。
跟踪冠状病毒蔓延的社交媒体翻译和隐私挑战
Facebook公司利用大规模的样本反向翻译(一种基于神经机器翻译的大数据技术),在2019年WMT竞赛的多个类别中均获得名,需要大量的双语培训数据,也就是可供参考翻译的句子。双语数据很难获得,因此Facebook公司团队使用反向翻译作为解决方法。终,该团队使用了大约100亿个单词的额外数据来完成其任务。Facebook公司利用其20亿个左右用户的评论和帖子作为训练材料,并具有无与伦比的内容访问权限。
在语言竞赛中,出于实验目的使用发布的语言是一回事,而在新冠病毒等敏感的健康问题上利用用户提供的信息是另一回事。正如Bruegel研究所的J.Scott Marcus所观察到的那样,用户以各种方式“自愿”提供信息:在社交媒体上的帖子中,在他们使用移动服务和提供位置数据时在寻找健康信息。Marcus表示,大数据已用于对抗新冠病毒的战略规划,用于跟踪潜在感染者,并为感染者和公众提供指导、建议和信息。
翻译与自愿收集的数据有关的隐私问题
很多人可能不知道提供“自愿”数据将被用来追踪或暴露其行程的追踪。不仅仅是一个国家,先从中国开始,然后是韩国、日本、以色列等其他国家,已经明确使用了部分或全部这些信息。通常,高科技公司与各国政府合作以提供其数据,尽管欧洲的通用数据保护条例等法规等隐私保护措施阻止了此类使用。
病毒跟踪计划使用机器翻译实现“标准化”通信,并使公共卫生官员可以的语言对其进行访问。例如,在以色列,阿拉伯语的社交媒体通信通过机器翻译技术自动翻译为希伯来语,其目的是寻找潜在的病毒携带者。
大规模机器翻译和口译的公共用途
机器翻译大规模应用的另一个例子是在国际机场对乘客进行筛选。除了热成像设备和手持测温度仪之外,检测人员还使用手持语音翻译器向到达的乘客询问他们的旅行史或医疗症状。
同样的考虑也适用于向使用其他语言的公众提供信息。提供有关冠状病毒的新信息是移民的一个问题。据美国之音报道,荷兰的志愿者设立了一个健康服务台,为不会说荷兰语的新移民帮助。在澳大利亚在其边境采用了一个大规模的翻译项目。笔译和口译服务是澳大利亚移民和边境保护部为同时使用人工翻译和机器翻译的非英语使用者提供的服务。
美国医院的需求量很大。《纽约时报》于2020年4月报道了美国的西班牙裔冠状病毒患者所遭受的巨大苦难,其所遭受的痛苦不成比例,约占纽约患病人数的34%。为了满足这种需求,纽约的医院越来越多地转向视频远程口译,医疗保健提供者可以在需要时提供口译服务。