|
技术应用 | 如何用AI赋能口译平行语料库的建设在口译实践中,口译员会根据不同的需求和任务,运用多种类型的语料库来辅助翻译工作。常见的语料库类型包括: 常见的语料库类型包括: 1. 平行语料库 2. 单语语料库 3. 专业语料库 4. 多模态语料库 这是最常见的语料库类型之一,包含两种语言的对照文本。平行语料库可以帮助口译员查找源语言与目标语言之间的对应词汇和表达,特别是在处理程序化文本时非常有用。 单语语料库包括单一语言的文本数据,如新闻报道、演讲稿、会话记录等。这类语料库有助于口译员了解语言的常见表达方式、词汇搭配、语法结构等,提高其对目标语言的理解和运用能力。 专业语料库会收录某一特定领域的语言数据,例如医学、法律、商业、科技等行业的文献、报告或对话。口译员可以通过查阅这些专业语料库,迅速获取行业术语、专业表达和相关背景知识,从而应对高难度的专业口译任务。 多模态语料库结合了语音、视频、文本等多种信息来源,适用于口译员需要在特定情境下理解非语言信息(如肢体语言、表情等)的情形,尤其是在跨文化交流和国际会议中,能够帮助口译员更好地捕捉讲话者的意图和情感色彩。 其中,平行语料库作为知识库、决策支持工具和资源库,在口译实践中对保障翻译质量、确保术语一致性、研究口译策略运用等方面发挥着重要作用。 例如,在译前准备环节,会议口译平行语料库作为知识库,包含了大量会议和记者招待会的双语文本对,可帮助口译员了解常见的会议用语、术语以及特定场合下的固定表达方式。例如,记者提问、发言人回应、主持人引导等常见对话场景中的语言模式。通过提前了解这些常用表达,可以帮助译员在实际口译过程中快速应对,提升反应速度和翻译准确度。 (上海外国语大学记者招待会汉英会议口译语料库) 此外,在分析口译策略时,平行语料库作为决策支持工具能够帮助口译员分析同一源语言句子在不同语境下的不同翻译方式,从而研究如何根据文化背景、听众需求或不同场合灵活调整翻译策略。同一术语在不同文化中可能有不同的翻译方式,语料库能够提供这些变化的实例,帮助口译员做出合适的决策。比如,针对“人才”一词,是否只能译为“talent”,在对应语料库搜索之后,便可得出答案。 (上海外国语大学政府工作报告汉英平行语料库) 同时,在译后语言资产管理中,平行语料库也扮演着重要角色,它不仅是翻译质量控制和一致性保障的关键工具,也是翻译资产有效管理和利用的基础。平行语料库作为资源库,可以为译者提供大量的翻译样例,尤其在遇到重复的内容时,译者可以通过查询语料库中的翻译样本快速找到合适的翻译,避免从头开始翻译。这有助于提高翻译效率,减少重复工作,同时也有助于降低项目成本。这时,译者自建的小型语料库便可发挥重要作用了。 (译者自建术语表) 然而,传统的口译平行语料库建设过程十分繁琐。需要人工清洗语料、对齐源文本和目标文本。工作量可想而知。现在,有了AI,让一切变得轻松多了。通过自然语言处理(NLP)技术,AI可以轻松地把源语言和目标语言的对照内容对齐,甚至可以自动生成平行语料库。口译员只需将精力放在审核阶段,无需花费大量时间去“造”语料库。 具体过程该如何实践? 我们一起来探索! 我们选用的语料来自口译员在2019年国际篮联篮球世界杯(2019 FIBA)会议口译中用到的双语平行文本,接下来,我们将会为此次会议口译的平行文本建立一个体育行业的小型语料库。 创建步骤 Step1:对文本进行OCR扫描 Step2:清洗语料 Step3:双语文本对齐 Step4:创建语料库 在这一步中我们用到的工具是Adobe Acrobat,Adobe Acrobat 提供了强大的 OCR功能,可以将扫描文档中的图片或手写文字转换为可编辑的文本。在Adobe Acrobat中输入《篮球规则》.PDF后,即可将文本转化为可编辑的Word版本。 在OCR识别完成后,我们就可以开始正式进行语料清洗了。将刚才得到的Word版本粘贴文字至新文档后,即可得到纯文字版的新文本。这时,如若按照传统清洗语料的办法,通常会使用通配符来进行文本预处理。例如:当文本中的软回车过多时,用^p^p来替换^p清除多余软回车。 Before: After: 缺陷:可以使用通配符处理硬回车软回车等问题,但一些细节问题,诸如,文档在经过通配符处理过几轮后仍存在一些文字间的不合理空格,若此类问题还需要人工反复核查,则过于繁琐。 而AI技术在语料清洗中可以发挥重要作用,尤其是当面对大规模、多样化的语料时。通过结合机器学习、自然语言处理和自动化技术,AI能够有效提高语料清洗的效率和准确性,节省人工校对的时间和成本。以ChatGPT为例:在ChatGPT中输入以下指令: 以上指令需要保证AI的生成结果可以顺利完成人工尚未解决的部分,如下图所示: 以下是ChatGPT处理的结果,可以看到,与预期效果基本符合。ChatGPT以单句单行为形式输出,且输出结果去掉了无用空格和空行。可直接进行对齐。 Before: After: 缺点:ChatGPT会终止输出,需人工示意继续工作,才可进行接下来的文本清洗工作。 传统方法:人工手动对齐,在这里我们需要用到的工具是Abbyy Aligner 将预处理后的文本输入到Abbyy Aligner中,软件会显示出双语未对齐的部分,这时,需进行手动调整,依次对齐语对。 缺陷:工作量较大,经过笔者测试,为了确保文本中的每一对句子都能逐一对齐,需要花费近四十分钟的时间。 AI赋能:利用ChatGPT进行自动对齐,无需手动调整。 将已经对齐的文本输入进Sketch Engine中,即可创建语料库。 Sketch Engine: 词汇素描通过统计分析,能够展示与目标单词最常见的搭配词。搭配词包括与目标词一起出现的名词、动词、形容词、副词等。例如,以下是“入界(n)”的修饰语。 词汇对比(Word Sketch Difference):比较两个词语(或短语)在语料库中的用法差异,直观地分析词汇搭配、语法模式和语义特征的不同之处。例如,以下是administration和disposal的搭配关系、语义和语法特征之间的差别。 用于查看同一段文本在不同语言版本中的对照展示。这一功能在涉及翻译、跨语言对比和双语研究时,可以深入分析不同语言之间的对等词汇、句法结构以及语言使用的差异。例如,以下是“中线”一词的对齐显示。 |