分享5篇关于语料库构建的计算机专业论文

今天分享的是关于语料库构建的5篇计算机毕业论文范文, 如果你的论文涉及到语料库构建等主题,本文能够帮助到你

基于依存句法分析的企业税法实体关系抽取方法研究

这是一篇关于依存句法,关系抽取,语料库构建,自动问答的论文, 主要内容为随着人工智能技术的不断发展,人机对话系统的构建成了研究领域里的一大热点,人机对话的实现离不开计算机对于文本信息(以下简称“文本”)的处理和理解,从现有的研究来看,计算机对于文本的理解还不够智能化。计算机要实现对文本的智能化处理,需要同时对句法和语义进行分析,遇到歧义时,还要结合上下文的语境进行处理,本文的研究亦是基于上述原则展开的。本文研究重点在于命名实体识别和实体关系抽取,为了取得较好的结果,需要将语法规则和语义分析结合在一起。命名实体的识别,通过知识图谱进行总结和梳理,以一种可视化的形式展现出来,同时在最大程度上确保了命名实体的全面性,方便及时查漏补缺。实体关系抽取,要从语法和语义两个方面入手,为了获取较好的语法规则,本文选用了依存句法对其进行分析。该种方法可以用来处理长难句和歧义句,且可以更好地展现出句子的核心和层次性。同时,实体关系的抽取离不开实体关系词的语义映射,这就需要对实体关系进行语义上的分类,而不单单只停留在语法层面。有了语法层面的规则分析以及语义层面的实体关系分类,就可以更好地理解一句话的真实意图,从而达到对于文本信息的处理和识别。本文研究的领域为企业税法,因此研究的目标则为公司税法领域内所涉及到的相关命名实体以及实体关系,本文参考了六本该领域的专业书籍,同时通过百度词条、百度问答、知乎等平台来搜寻企业所涉及的相关税法,对其中所涉及到的命名实体进行总结、划分和归类。在构建实体关系体系时,针对每一种实体关系,也建立了一个与之相对应的词表。使用“Mind Manager(思维导图)-幕布”作为工具,生成该领域中所涉及到的命名实体及实体间关系,然后以图形的方式将它们表现出来。同时,抽取其中所涉及到的命名实体关系,抽取主要是对句法规则进行总结,对新增的句子进行解析,得出相应的分词,在经过分词、词性标注以及句法分析等步骤后,每个句子都会有一个相对应的句法树,每个句法树都可以用相对应的标签来表示。本文选择企业税法领域作为研究对象,与其重要性是密不可分的。税收来源于民众,而服务于民众。无论是从国家或是政府的财政收入还是社会的经济发展状况来看,税收都起到了举足轻重的作用。而税收的依据就是税法,基于此,笔者认为研究企业税法的社会价值十分重要。同时,现阶段,整个社会进入了一个全民创业期。对于创业者来说,他们急需学习相关的企业税法知识,而本文所做的有关于“企业税法”方面的研究将为他们提供一个了解该领域知识的平台。此外,本文在企业税法实体关系抽取研究的基础上,结合当前的研究热点,将研究内容与自动问答系统结合在一起,使得研究结果能够运用到实践中,也让该研究具有了更多的实际价值。综上所述,本文利用依存句法分析技术和语义分类,将其应用于企业税法领域中,试图实现自动抽取命名实体和实体关系的目的,并以此为基础,提出了一套构建该领域的自动问答系统的构想,希望借助该研究,将其运用到实际的自动问答系统之中。

面向内蒙古历史的领域语料库构建

这是一篇关于语料库构建,内蒙古历史领域,中文分词,实体识别,关系分类的论文, 主要内容为近年来,随着深度学习技术的高速发展,人类在自然语言处理方向的研究不断深入,对于语料库的需求也日益增多。语料库作为一个存放语言材料的数据仓库,是自然语言处理以及计算机语言学的研究基础,为分词任务、实体识别任务以及关系抽取任务等提供了有效的底层数据支持,推动人们对语言的理解和应用。而在内蒙古,该地区有着丰富的历史文化,但许多历史人物、事迹以及民族发展等都是以书籍文献等纸质文本方式进行记载存储,不利于知识文化的传播以及学习。为此,本文基于内蒙古历史,对其进行语料库构建,涉及到三大部分:中文分词、实体识别以及关系分类。面向内蒙古历史的领域语料库构建,能为上层的、与内蒙古历史文化相关的知识图谱、智能问答、推荐系统等提供了原始的数据支持,让人们能够更加快速地学习和了解内蒙古历史,推动了其文化的发展与传播。本文主要研究内容如下:(1)基于深度主动学习构建内蒙古历史领域的中文分词和实体识别语料库。本文把中文分词和实体识别都视为成一个序列标注问题,深度学习模型采用BERT+Bi LSTM+CRF框架,主动学习的样本选择策略使用MNLP(Maximum Normalized Log-Probability)算法。最后成功标注15542条句子,总词数达到388789个的中文分词语料库;实体识别语料库则标注了19种不同类别、共计56140个实体。在这两个语料库的基础之上,本文使用BERT+Bi LSTM+CRF框架分别训练了内蒙古历史领域的中文分词模型M-CWS和实体识别模型M-NER,其中MCWS和M-NER的F1值分别为96.63%和86.57%,能够满足于一般的使用场景需求,同时这两个模型也用于本文原型系统中的展示平台。(2)基于远程监督方法构建关系分类语料库。远程监督的思想在于若实体对共现在一条句子中,则认为该句子能够表达实体对之间的关系,但这种方法提取的语料存在大量的噪音。为此,本文提出一种基于触发词的匹配对齐方法,利用M-CWS分词模型对触发词进行全词匹配,实现对13种单向关系,共计29203条句子的内蒙古历史领域的关系分类语料库构建。在此语料库的基础之上,本文使用BERT+Bi LSTM+Softmax框架训练了一个内蒙古历史领域的关系分类模型MREL,该模型F1值达到88.95%,能够满足于一般的使用场景需求,同时该模型也用于本文原型系统中的展示平台。(3)实现原型系统。本文实现的原型系统包括标注平台和展示平台两个部分。其中,标注平台主要辅助标注人员标注以及语料的存储,如PDF文件转换成TXT文本、相对应语料的标注页面、语料管理页面、语料导出等功能。展示平台则分为图谱展示以及句子识别,图谱展示对内蒙古历史人物关系及相关属性进行可视化展示,便于历史脉络的梳理和整合;句子识别则使用M-CWS、M-NER和M-REL模型来对句子进行中文分词、实体识别以及关系分类。