首页 >> 业界新闻 >>行业动态 >> 行业动态 | 再次冲击翻译行业！腾讯推出Trans agents，使用大模型进行超长文学著作翻译，效果媲美人工翻译

文章

文章

搜索

业界新闻

详细内容

行业动态 | 再次冲击翻译行业！腾讯推出Trans agents，使用大模型进行超长文学著作翻译，效果媲美人工翻译

“(PERHAPS) BEYOND HUMAN TRANSLATION: HARNESSING MULTI-AGENT COLLABORATION FOR TRANSLATING ULTRA-LONG LITERARY TEXTS”

论文地址：https://arxiv.org/pdf/2405.11804

摘要

机器翻译在各个领域取得了显著进展，但文学作品的翻译仍然是一个巨大的挑战。本文介绍了一个基于大型语言模型的新型多代理框架，名为TRANS AGENTS，通过利用多个代理的集体能力来模拟传统的翻译出版流程，以应对翻译文学作品的复杂需求。

我们提出了两种创新的评估策略：单语言人类偏好（MHP）和双语语言模型偏好（BLP）。实证结果表明，尽管d-BLEU分数较低，TRANS AGENTS的翻译在需要领域特定知识的流派中被人类和语言模型认可。我们还通过案例研究突出了TRANS AGENTS的优点和局限性，并提出了未来研究的方向。

简介

机器翻译在深度学习和神经网络的推动下取得了显著进展，但文学翻译仍然是机器翻译系统面临的难题之一。文学文本的复杂性使其成为机器翻译中最具挑战性的领域之一。最近的研究表明，基于大型语言模型的多智能体系统在解决复杂问题方面表现出了显著的优势。因此，我们建立了一个名为TRANS AGENTS的文学翻译多智能体系统，利用多智能体系统的优势来解决文学翻译的挑战。该系统的翻译过程分为两个主要阶段，每个阶段包含多个子阶段，通过多智能体协作来提高翻译质量。

本文提出了两种评估策略：单语言人类偏好（MHP）和双语LLM偏好（BLP）。研究发现，TRANS AGENTS在历史和文化背景等领域专业知识要求较高的文学类型中表现优异，但在当代文学类型中表现不佳。虽然TRANS AGENTS的d-BLEU分数较低，但在人类评估者和语言模型中都比人工参考翻译更受欢迎。此外，研究还发现LLM翻译系统存在重要的局限性，包括内容遗漏等问题。该研究的贡献在于提出了TRANS AGENTS和两种评估策略，并对其进行了深入分析。

相关工作

机器翻译在近年来取得了显著进展，包括通用MT、低资源MT、多语言MT和非自回归MT等。近期的研究也致力于将上下文信息融入翻译过程中，以实现更准确、连贯的翻译。大型语言模型在MT中也展现出了优异的性能。

文学翻译是一个具有挑战性的任务，需要准确传达文化细节和生动的表达。评估MT的质量也是该领域的关键问题。传统的BLEU指标已经不足以评估MT的质量，新的方法包括利用预训练语言模型来更有效地评估翻译质量。

Trans agents：一个多agent的文学翻译虚拟公司

TRANS AGENTS是一个虚拟的多代理翻译公司，由CEO、高级编辑、初级编辑、翻译、本地化专家和校对员组成。当客户分配书籍翻译任务时，来自TRANS AGENTS的选定代理团队协作翻译。该公司采用协作策略，确保翻译质量和一致性。翻译流程包括公司概述、核心协作策略和翻译工作流程。

概述

虚拟翻译公司包括高级编辑、初级编辑、翻译员、本地化专家和校对员等不同角色。每个角色都有自己的职责和任务。为了增强模拟的真实性和效果，使用了GPT-4-TURBO生成了30个虚拟代理人的详细个人资料，包括性别、国籍、每字价格、教育背景、经验年限和专业领域等。这种详细和个性化的方法不仅丰富了翻译流程模拟的真实性，而且反映了真实世界翻译环境中的复杂性和多样性。这些元数据的包含不仅增强了当前的模拟策略，而且旨在支持和启发未来的研究。

Agent协作策略

本文介绍了两种协作策略：加减法协作和三方协作。加减法协作是指两个代理人分别扮演加法代理人和减法代理人，通过迭代来生成最终回答。三方协作则将协作分为行动、批判和判断三个分支，每个分支由一个代理人负责，通过迭代来生成最终回答。

翻译工作流程

TRANS AGENTS 的书籍翻译工作流程，包括准备阶段和执行阶段。准备阶段包括确定翻译需求、选择翻译人员和制定翻译计划。执行阶段包括翻译、校对和交付。

准备阶段

公司通过项目成员选择系统来分配角色给个体agent，在角色扮演过程中使用提示或消息。公司创建了30个agent档案，每个档案都附有一个独特的角色分配提示。CEO首先选择一位高级编辑来负责书籍翻译项目，然后与该编辑密切合作，组建项目团队。此外，公司引入了自我反思策略，包括一个“幽灵agent”，用于促使CEO重新考虑他们的决定。为了保持整个翻译工作流程的一致性，公司需要有翻译指南文档，包括词汇表、书籍摘要、语气、风格和目标受众等五个组成部分。

公司设计了不同的策略来处理这些组成部分。

术语表。书籍翻译中的主要目的是编制术语表，将源语言中的关键术语及其对应的目标语言翻译收集起来，以确保在整本书中使用这些术语时的一致性和准确性。术语的收集过程采用了“加法减法协作”，由初级编辑（加法代理A）首先尽力识别所有潜在的关键术语，然后由高级编辑（减法代理S）对识别出的关键术语进行审核和删除，直到收集到的关键术语列表不再需要进一步修订。
书籍摘要。书籍摘要的生成是通过初级编辑（加法代理A）和高级编辑（减法代理S）之间的协作完成的，初级编辑致力于保留尽可能多的章节摘要细节，而高级编辑则专注于删除多余的信息。在编写完章节摘要后，高级编辑会撰写整本书的摘要，这个过程与编制术语表的过程类似。
语气、风格和目标受众。书籍翻译不仅仅是逐字逐句的转换，还需要根据目标读者的背景和喜好，以及原文的风格和内容进行调整。高级编辑会根据随机选择的一章来定义翻译书籍的语气、风格和目标读者。

术语表、书籍摘要、语气、风格和目标读者共同构成了全面的翻译指南，这些指南对于参与书籍翻译过程的所有角色都是重要的提示，以确保整个作品的一致性和连贯性。

执行阶段

执行阶段分为四个子阶段：翻译、文化适应、校对和最终审查。在前三个子阶段中，我们采用协作策略，由翻译员、本地化专家和校对员扮演行动代理人P的角色。

执行代理人Q和判断代理人J的职责由初级编辑和高级编辑分别承担。翻译阶段涉及翻译员、初级编辑和高级编辑三个关键角色的合作。文化适应过程由本地化专家进行，校对员进行语言错误检查。最终审查由高级编辑完成，评估每个章节的翻译质量和章节之间的过渡流畅性。判断代理人在算法2中起到重要作用，负责评估回应的质量并确定是否需要进一步修订。

实验设置

基线

我们使用最先进的LLM GPT-4-TURBO作为我们agent的基础，并将我们的方法与WMT2023共享任务中的无约束系统进行比较。我们还列举了其他几种翻译模型，包括LLAMA-MT、GPT-4、GOOGLE TRANSLATE、DUT和HW-TSC。

数据集

测试集包含了20本网络小说的连续章节，共240章。测试集中有两个参考翻译，一个是由人工翻译的，另一个是通过手动对齐双语文本构建的。

评估

文学作品的翻译与标准机器翻译（MT）语料库的翻译有很大的区别。文学翻译使用的技巧与常见的MT领域不同，并且文学翻译家有自由和负担去进行语义和批判性解释，导致文学文本没有单一、独特的最佳翻译。本文采用两种评估方法：标准评估和偏好评估。标准评估使用d-BLEU评估翻译质量，而偏好评估则要求人工评估者或LLMs在没有参考翻译的情况下选择他们偏好的翻译。

基准评估

TRANS AGENTS在d-BLEU指标上表现较差，但d-BLEU存在局限性，不能完全捕捉生成文本的质量和连贯性。自动评估指标不能准确反映文学翻译中的人类偏好。文学文本的独特特点和创造性要求更细致的评估方法。

偏好评估

文学文本没有一个普遍适用的翻译，传统的翻译评估方法无法适应文学文本的多面性和主观性。我们使用人类评估者和大型语言模型来评估翻译偏好。

评估方法

本文提出了两种偏好评估方法：单语言人类偏好（MHP）和双语言LLM偏好（BLP）。两种方法都使用胜率（%）来衡量模型的性能，即模型生成的章节被人类评估者（在MHP中）或LLM（在BLP中）偏好的实例百分比。

单语言人类偏好（MHP）

在阅读翻译书籍时，读者不需要理解原始语言，因此读者应该更倾向于选择更好的翻译版本而不需要参考原文。为了评估翻译质量，作者采用了人工评估的方法，将每个章节的翻译分成多个小段进行评估。评估者需要比较描述同一部分故事的翻译段落，并选择他们更喜欢的翻译版本。评估者需要按照原始顺序评估每个段落，以考虑上下文的影响。

通过SurveyMonkey收集了来自目标受众的人们对翻译的偏好，并对回答进行了筛选和聚合处理。为了减少位置偏见，评估者在比较翻译段落时，会随机交换位置。最终，通过多数投票的方式确定最受欢迎的翻译版本。

双语言LLM偏好（BLP）

文学文本的复杂性、艺术表达和文化细微差别使得几乎不可能产生一个单一、普遍正确的翻译。因此，同一文学文本的多个翻译可以共存，每个翻译都提供了独特的视角和解释。

我们使用GPT-4-0125-PREVIEW评估翻译段对，而不提供参考翻译。最近的研究表明，即使是最先进的语言模型也可能难以处理非常长的序列。因此，我们要求GPT-4-0125-PREVIEW根据提示确定哪个翻译段更好，而不是直接比较两个完整章节的质量。

为了避免潜在的偏见，我们使用了GPT-4的不同变体进行评估。鉴于最近的研究提出了关于LLM评估中位置偏差的担忧，我们在正向和反向两个方向上评估每个翻译段对。

实验结果

使用了12个网络小说的240章节进行测试。通过人类评估，发现该方法的翻译质量略优于其他两种方法。同时，使用双语语言模型进行评估，结果也表明该方法的翻译更受欢迎。其中，GPT-4-0125- PREVIEW模型更偏好多样化和生动的描述。

案例分析

这段文字主要讨论了两个案例研究，涉及到文化适应和内容省略的问题。

首先，作者指出在中文和英文中，关于职位称呼的顺序存在差异，而TRANS AGENTS是唯一一个能正确反映这种文化背景的系统。其次，作者强调了保持全书翻译的一致性的重要性，并指出TRANS AGENTS在这方面表现出色。最后，作者提到TRANS AGENTS在内容省略方面存在一些问题，可能会影响到原文的细节表达和主题元素的保留。

翻译质量评估专家对比了三种翻译方法：TRANS AGENTS、REFERENCE 1和GPT-4-1106-PREVIEW。两位专家认为TRANS AGENTS的翻译风格像小说，语言精细，但有时会省略原文的部分。REFERENCE 1和GPT-4-1106-PREVIEW则更贴近原文。总体而言，TRANS AGENTS的翻译最具表现力和吸引力，REFERENCE 1的翻译最直接，GPT-4-1106-PREVIEW的翻译最传统。这些评论证实了TRANS AGENTS能够产生更具表现力和吸引力的翻译。

限制

研究的主要限制在于评估方法的使用。传统的机器翻译评估技术存在许多问题，如评估指标不准确和参考翻译的可靠性。除了传统的评估指标外，我们提出了额外的评估方法，包括专业翻译人员的评论和单语人工偏好和双语LLM偏好评估。然而，这些新的评估策略的实施可能会引入一些挑战，可能会影响我们的研究结果的有效性：