基于数据增强技术的维汉机器翻译研究与实现
这是一篇关于维汉翻译,神经机器翻译,数据增强,词性信息,迭代回译的论文, 主要内容为近年来,人类社会发展迅速,世界各国间交流日益频繁,各语言间的转换需求量和转换速度的要求不断提高,人工翻译耗时且昂贵,机器翻译应运而生。随着深度神经网络技术的飞速发展,学术界和工业界的机器翻译研究也逐渐从传统的统计机器翻译转变成神经机器翻译。训练一个高性能的神经机器翻译模型需要大规模的高质量的平行语料,但维吾尔语和汉语之间的大规模的高质量平行语料难以搜集,这阻碍了维汉机器翻译的发展。本文针对维吾尔语和汉语的特点,采用神经机器翻译的方法,主要完成以下三部分工作:(1)分析了传统分词方法的缺点,在处理形态丰富的维吾尔语时,分词性能低下,会产生大量的罕见词,使模型在训练过程中不能学到单词的正确信息,导致最终的维汉翻译模型性能不佳。本文引用基于子词的分词策略,对比了传统分词、字节对编码子词分词和一元语言模型子词分词在维汉翻译任务上的表现,实验表明了基于子词的分词策略能提升维汉机器翻译性能,其中字节对编码子词分词在维汉翻译任务中表现最佳。(2)提出了一种基于词性替换的数据增强方法,为了解决平行语料不足的问题,本文通过大规模汉语语料训练词向量模型,根据词向量模型结合词性信息生成语义相关词,结合词对齐模型扩充两种语言的平行语料,对新增的汉语语料进行语法纠错。另外,利用50万维语单语语料和50万汉语单语语料,通过迭代回译的翻译策略,完成了维汉翻译任务,最终的模型性能比基线Transformer提高了3.78个BLEU值,实验结果表明本文提出的基于词性替换的数据增强方法结合迭代回译翻译策略能有效提升维汉机器翻译性能。(3)基于以上研究成果,本文实现了一个基于B/S架构的维汉翻译系统,经过准确性和并发性测试,本文搭建的维汉翻译系统已经可以满足一定的实际应用需求。
基于数据增强技术的维汉机器翻译研究与实现
这是一篇关于维汉翻译,神经机器翻译,数据增强,词性信息,迭代回译的论文, 主要内容为近年来,人类社会发展迅速,世界各国间交流日益频繁,各语言间的转换需求量和转换速度的要求不断提高,人工翻译耗时且昂贵,机器翻译应运而生。随着深度神经网络技术的飞速发展,学术界和工业界的机器翻译研究也逐渐从传统的统计机器翻译转变成神经机器翻译。训练一个高性能的神经机器翻译模型需要大规模的高质量的平行语料,但维吾尔语和汉语之间的大规模的高质量平行语料难以搜集,这阻碍了维汉机器翻译的发展。本文针对维吾尔语和汉语的特点,采用神经机器翻译的方法,主要完成以下三部分工作:(1)分析了传统分词方法的缺点,在处理形态丰富的维吾尔语时,分词性能低下,会产生大量的罕见词,使模型在训练过程中不能学到单词的正确信息,导致最终的维汉翻译模型性能不佳。本文引用基于子词的分词策略,对比了传统分词、字节对编码子词分词和一元语言模型子词分词在维汉翻译任务上的表现,实验表明了基于子词的分词策略能提升维汉机器翻译性能,其中字节对编码子词分词在维汉翻译任务中表现最佳。(2)提出了一种基于词性替换的数据增强方法,为了解决平行语料不足的问题,本文通过大规模汉语语料训练词向量模型,根据词向量模型结合词性信息生成语义相关词,结合词对齐模型扩充两种语言的平行语料,对新增的汉语语料进行语法纠错。另外,利用50万维语单语语料和50万汉语单语语料,通过迭代回译的翻译策略,完成了维汉翻译任务,最终的模型性能比基线Transformer提高了3.78个BLEU值,实验结果表明本文提出的基于词性替换的数据增强方法结合迭代回译翻译策略能有效提升维汉机器翻译性能。(3)基于以上研究成果,本文实现了一个基于B/S架构的维汉翻译系统,经过准确性和并发性测试,本文搭建的维汉翻译系统已经可以满足一定的实际应用需求。
神经机器翻译关键技术研究与应用
这是一篇关于神经机器翻译,深度神经网络,中文词向量,机器翻译系统的论文, 主要内容为在如今经济全球化的时代,翻译服务的重要性逐渐体现。相较于人工翻译服务而言,机器翻译的速度更快,更能满足社会的需求。神经机器翻译作为一种利用大规模双语平行语料对神经网络进行训练,从而得到翻译模型的技术,已经成为机器翻译的主流方法,被广泛用于各种语言之间的翻译工作当中。本文以中英神经机器翻译为例,对神经机器翻译的关键技术进行了研究与应用。神经机器翻译通常仅通过平行语料学习翻译知识而忽略了语言本身的先验特征。除此之外,在主流的神经机器翻译模型中,只有最顶层编码器的输出得到了利用,其他的深层信息则被忽略,这也限制了翻译模型的性能。本文为解决以上问题,完成了以下工作:(1)提出了融入多粒度形态特征的中英神经机器翻译模型。中文词语由汉字组成,而汉字能够进一步划分为部件,这些组件的形态特征与词语的语义有着极为密切的联系。本文创新性地提出的基于部件n元组的中文词向量模型能够获取细粒度的形态特征。而粗粒度特征则通过BERT预训练语言模型的词嵌入层获得。在中英神经机器翻译任务中,本文的翻译模型相较于基准模型Transformer提高了0.78的BLEU-4评分。本文提出的中文词向量模型在词向量评测任务中分别取得了88.8与63的最高分,验证了模型提取中文形态特征的能力。(2)提出了基于深层编码器信息的神经机器翻译模型。为了解决在深层翻译模型中解码器仅对最顶层的编码器输出进行解码的问题,本文设计了三种方法使得深层编码器的输出信息也能被模型充分利用,分别为:平行层编码器信息的引入,多层编码器信息的引入,动态深层编码器信息的引入。本文根据三种方法分别训练得到三种基于深层编码器信息的翻译模型,并与基准模型Transformer在中英神经机器翻译任务上进行对比。实验结果表明,本文提出的模型最高比基准模型提高了0.89的BLEU-4评分,验证了本文方法的有效性。(3)基于本文创新点改进的神经机器翻译模型,设计并实现了一个神经机器翻译WEB系统。该系统基于B/S架构,实现了用户交互层,核心服务层及模型处理层,系统的用户界面简洁易用,能够提供准确的机器翻译服务。
基于特定领域的自然语言问句与SPARQL转换的关键技术研究
这是一篇关于神经机器翻译,SPARQL,RDF,知识库的论文, 主要内容为近年来,基于RDF的结构化查询语言SPARQL允许用户构造复杂的查询并访问知识库,提高了查询的精确性。然而SPARQL语言具有复杂的语法和语义,通常仅限于精通查询语言的语义Web专家使用,对于普通用户来说,知识库查询成为一项艰巨的任务。为了让更广泛的用户方便地访问知识库,前人已经研究了将更易使用的自然语言问句自动转化成SPARQL的方法。而近年来神经机器翻译模型也被用于将更自由的自然语言语句翻译为SPARQL查询,尽管翻译效果在各方面都有很大的提升,但依然存在词汇错译(包括集外词错译和歧义词错译等)问题。这是由于神经机器翻译系统的性能高度依赖于平行语料的规模和质量,而自然语言-SPARQL对应的平行语料高度稀缺,制约了翻译模型的性能,因此会产生错译。此外,当前基于语义解析的知识库问答系统,无法发挥出自然语言交互模式的优势。因此,为用户查询知识库中的结构化知识开发一套使用自然语言查询知识库的系统是非常有必要的。本文主要围绕词汇错译和构建基于SPARQL翻译知识库问答系统这两个方面的问题展开研究,本文的主要工作和创新点如下:(1)为了解决词汇错译问题,本文提出一种融合外部特征的SPARQL翻译方法。该方法从语义的层次上对错译问题进行建模,将单语预训练词向量和语义知识库融入到NMT系统来学习术语到本体标签的映射关系,从而改善错译问题。实验结果表明,融合外部特征的SPARQL翻译模型显著改善了自然语言转换SPARQL的准确率。此外,融合语义知识库的模型在特定领域Monument数据集上可达到目前最好的翻译准确率。(2)本文设计并实现了基于SPARQL翻译模型的知识库问答系统。首先本文通过笔者手动构建的查询模版生成了基于电影领域的自然语言-SPARQL语句平行语料。此外,结合本文第三章提出的改进算法训练了一个神经机器翻译模型,最后实现了一个基于电影领域的知识库问答系统,该系统不仅具有友好的交互界面,而且具有问句答案的知识图谱和SPARQL翻译模型输出展示。
融入预训练语言模型的中-越神经机器翻译方法研究
这是一篇关于神经机器翻译,预训练语言模型,中文,越南语,注意力机制,推敲网络的论文, 主要内容为神经机器翻译是一种依靠数据驱动的机器翻译方法,在双语平行语料充足的语种间表现优异,但在中文-越南语这类低资源机器翻译任务中,中文-越南语的双语平行语料不足,导致中文-越南语的机器翻译的性能并不理想,如何在有限的数据中挖掘出更多的语言信息来提升机器翻译模型性能是针对低资源机器翻译的热门研究方向。当下各研究机构针对单语大规模语料设计了预训练语言模型,从大规模的单语数据中预训练语言模型通过训练能够充分学习到语言信息,如何利用预训练语言模型中的语言信息以提升中文-越南语这类低资源机器翻译性能,具有深入研究的价值。本文研究使用预训练语言模型提升中文-越南语机器翻译性能方法,主要从以下几个方面开展研究:(1)基于多重注意力机制约束的中越平行句对抽取方法:对于神经机器翻译这一任务,主流做法仍是基于大量双语平行句对的监督学习,从篇章中抽取出可用于神经机器翻译模型训练的双语平行语料是训练神经机器翻译前重要的前置任务。利用中文预训练语言模型以及越南语预训练语言模型对句对中的两种语言文本分别进行编码后获得两种语言的语义信息表征向量,利用注意力机制将两种语言的表征向量进行融合后得到该句对的表征向量,对该表征向量进行计算分类,筛选后得到符合要求的句对。(2)融入BERT与词嵌入双重表征的中越机器翻译方法:针对中越神经机器翻译对源语言的编码表征能力不足问题,本文提出一种融合源语言BERT预训练语言模型与词嵌入双重表征的低资源神经机器翻译方法,使用预训练语言模型和词嵌入分别对源语言序列进行表示学习,通过注意力机制建立两种表征之间的联系后进行拼接操作得到双重表征向量,再经过线性变换和自注意力机制,使词嵌入表征和预训练语言模型表征完全自适应融合在一起,得到对输入文本的充分表征,以此提高神经机器翻译模型性能。(3)基于预训练指导推敲生成的中越神经机器翻译方法:针对中越神经机器翻译解码译文质量不佳问题,本文提出一种基于预训练指导推敲生成的中越神经机器翻译方法。由于目标端文本在训练期间无法得知,所以本文采用推敲网络的方式设计神经机器翻译模型,为双解码器结构,第一段解码器生成粗糙译文,使用预训练语言模型约束指导第二段解码器对粗略译文的推敲优化过程,以此提高最终译文质量。(4)中越神经机器翻译原型系统:本文设计并实现了一个基于神经机器翻译技术的原型系统。该系统为B/S架构,Web客户端采用Javascript语言Vue框架搭建,服务器端采用Python语言Flask框架搭建,数据存储于Sqlite轻量级数据库,模型训练基于Python语言Fairseq框架。系统实现在线平行句对判断功能,在线机器翻译功能。
基于迁移学习的低资源神经机器翻译研究
这是一篇关于神经机器翻译,迁移学习,低资源语言,B/S架构的论文, 主要内容为随着社会发展和科技的进步,跨语种交流需求日趋上升,人工翻译方式成本高、效率低已不再适应时代的发展。神经机器翻译利用深度学习等前沿技术,提升了翻译的效率和准确率,可以更好的满足大量翻译业务的需求。然而神经机器翻译依赖于大规模的平行语料,且当翻译领域不同时,模型泛化能力差。在现实中,大多数语言都存在数据资源稀缺、平行语料的领域和种类稀少等问题,采用迁移学习方法可以将旧领域学到的知识迁移到相似新领域,可有效缓解上述问题。本文通过对基于迁移学习的神经机器翻译进行研究,提出了相似多语言领域融合的混合迁移学习模型,旨在提高低资源语言的翻译质量。基于此模型,构建了低资源语言翻译系统,具体工作如下:(1)针对数据资源稀缺的问题,提出相似多语言混合迁移学习方法。该方法选择多种与低资源语言相似的高资源语言作为迁移的父对象,以此解决低资源语言语料稀缺的问题。将该方法应用在乌孜别克语到汉语的翻译任务中,与混合迁移学习方法相比提升了1.2个BLEU值,翻译质量得到了提升。(2)针对模型泛化能力低的问题,提出领域融合的混合迁移学习方法。通过对低资源语言模型两次微调的方式,解决训练数据与测试数据领域不同时,翻译质量下降的问题。将该方法应用在不同领域的乌孜别克语到汉语翻译任务中,与混合迁移学习方法相比提升了1.3个BLEU值,翻译质量得到了提升。(3)提出相似多语言领域融合的混合迁移学习模型。该模型由相似多语言混合迁移学习方法和领域融合的混合迁移学习方法融合而成。将该模型应用在不同领域的乌孜别克语到汉语翻译任务中,与单独使用相似多语言混合迁移学习方法相比提升了0.9个BLEU值,与单独使用领域融合的混合迁移学习方法相比提升了1.2个BLEU值,翻译质量得到进一步提升,由此证明提出的相似多语言领域融合的混合迁移学习模型的有效性。(4)搭建低资源语言翻译系统。使用本文提出的相似多语言领域融合的混合迁移学习模型,构建基于B/S架构的乌孜别克语到汉语翻译系统,详细介绍系统的设计与实现,并对翻译结果进行展示。本文针对低资源语言语料稀缺和模型泛化能力低的问题,提出了相似多语言领域融合的混合迁移学习模型,切实提升了低资源语言的翻译质量。同时,基于此模型,构建了乌孜别克语到汉语的翻译系统,该系统具有一定的应用价值,有助于民族间的相互交流。
基于Transformer的多语种跨领域神经机器翻译技术研究
这是一篇关于神经机器翻译,语义空间共享,语料评估,领域自适应翻译的论文, 主要内容为神经机器翻译是使用人工神经网络将一种语言(源语言)翻译成另一种语言(目标语言)的技术。在各种机器翻译方法中,神经机器翻译使用了神经网络技术,在拥有大量平行语料数据的通用领域已经达到高质量的翻译水平。但针对多语种、领域自适应神经机器翻译中还存在:(1)小语种、专业领域语料稀缺,导致翻译模型在低资源情况下不能有效学习单词向量表示,存在错译漏译问题。(2)在多语种神经机器翻译中,如何迁移其他高资源语种来提升低资源语种的语义学习。(3)在领域自适应神经机器翻译中,存在领域知识过拟合、单个模型只能对应一个领域、训练时需要人为调整参数等问题。针对以上问题,重点研究:(1)针对小语种、专业领域语料稀缺问题,使用Scrapy爬虫系统采集专利文本信息100万余条,通过数据清洗、篇章切割、领域筛选以及机器翻译方法,构建信息技术领域的英语-日语、英语-西班牙语等六种语言的平行语料库10万余条。并采用基于语句长度、实词翻译质量、短语翻译质量等指标对所构建的平行语料库进行了评估。取评估结果前25%与后25%语料进行翻译模型训练。结果表明,以前25%语料训练的模型BLEU值均高于后25%语料训练的模型,其中英语-法语模型中BLEU值最多高出1.2。(2)针对多语种翻译中如何迁移其他高资源语种知识来提升低资源语种语义学习的问题,提出了基于语义空间共享和自回译的神经机器翻译方法。该方法使用语义空间共享方式,将多个语言的词汇表示共享到一个通用语言空间中,成为一个通用的单词表示。并将自回译策略融合进语义空间共享模型,将前向翻译中获取的预测语句进行后向翻译,以适应训练过程中每个步骤的源语句,在有限的语料环境下获取更多的上下文知识。在罗马尼亚语(Ro),阿塞拜疆语(Aze)、白俄罗斯语(Bel)、加利西亚语(Glg)到英语的四个低资源语种数据集上进行了多个实验。结果显示在罗马尼亚语(Ro)上的BLEU值相比基线模型提升了4.3,加利西亚语(Glg)上的BLEU值提升了5.1。表明本文提出的方法在多语种低资源情况下的翻译质量取得了明显提升。(3)针对领域自适应神经机器翻译中的知识过拟合,模型灵活性差、人工经验主导等问题,提出了基于知识扩充和增量修剪的多领域自适应方法(KAIP)。该方法利用知识隐藏策略,在训练过程中使用辅助语料库进行辅助任务学习,前馈扩充编码器传递向解码器的知识,然后使用模型修剪策略来学习多个不相连的特定领域子网络,在无需调整模型的情况下适应多个不同领域。在4个目标领域数据集和5个扩展领域数据集上的单、多领域适应任务中,各个领域BLEU值均有明显提升,其中Novel领域上BLEU值提升了2.3,EMEA领域提升了1.1,IT领域提升了1.4。验证了本文所提出的方法能有效应对领域自适应任务。
融入预训练语言模型的中-越神经机器翻译方法研究
这是一篇关于神经机器翻译,预训练语言模型,中文,越南语,注意力机制,推敲网络的论文, 主要内容为神经机器翻译是一种依靠数据驱动的机器翻译方法,在双语平行语料充足的语种间表现优异,但在中文-越南语这类低资源机器翻译任务中,中文-越南语的双语平行语料不足,导致中文-越南语的机器翻译的性能并不理想,如何在有限的数据中挖掘出更多的语言信息来提升机器翻译模型性能是针对低资源机器翻译的热门研究方向。当下各研究机构针对单语大规模语料设计了预训练语言模型,从大规模的单语数据中预训练语言模型通过训练能够充分学习到语言信息,如何利用预训练语言模型中的语言信息以提升中文-越南语这类低资源机器翻译性能,具有深入研究的价值。本文研究使用预训练语言模型提升中文-越南语机器翻译性能方法,主要从以下几个方面开展研究:(1)基于多重注意力机制约束的中越平行句对抽取方法:对于神经机器翻译这一任务,主流做法仍是基于大量双语平行句对的监督学习,从篇章中抽取出可用于神经机器翻译模型训练的双语平行语料是训练神经机器翻译前重要的前置任务。利用中文预训练语言模型以及越南语预训练语言模型对句对中的两种语言文本分别进行编码后获得两种语言的语义信息表征向量,利用注意力机制将两种语言的表征向量进行融合后得到该句对的表征向量,对该表征向量进行计算分类,筛选后得到符合要求的句对。(2)融入BERT与词嵌入双重表征的中越机器翻译方法:针对中越神经机器翻译对源语言的编码表征能力不足问题,本文提出一种融合源语言BERT预训练语言模型与词嵌入双重表征的低资源神经机器翻译方法,使用预训练语言模型和词嵌入分别对源语言序列进行表示学习,通过注意力机制建立两种表征之间的联系后进行拼接操作得到双重表征向量,再经过线性变换和自注意力机制,使词嵌入表征和预训练语言模型表征完全自适应融合在一起,得到对输入文本的充分表征,以此提高神经机器翻译模型性能。(3)基于预训练指导推敲生成的中越神经机器翻译方法:针对中越神经机器翻译解码译文质量不佳问题,本文提出一种基于预训练指导推敲生成的中越神经机器翻译方法。由于目标端文本在训练期间无法得知,所以本文采用推敲网络的方式设计神经机器翻译模型,为双解码器结构,第一段解码器生成粗糙译文,使用预训练语言模型约束指导第二段解码器对粗略译文的推敲优化过程,以此提高最终译文质量。(4)中越神经机器翻译原型系统:本文设计并实现了一个基于神经机器翻译技术的原型系统。该系统为B/S架构,Web客户端采用Javascript语言Vue框架搭建,服务器端采用Python语言Flask框架搭建,数据存储于Sqlite轻量级数据库,模型训练基于Python语言Fairseq框架。系统实现在线平行句对判断功能,在线机器翻译功能。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码海岸 ,原文地址:https://bishedaima.com/lunwen/52657.html