复杂问题的中文问答系统的设计与实现
这是一篇关于问句类型多样性,问句实体多态性,问句语义模糊性,问句分类,实体识别,语义映射,知识图谱的论文, 主要内容为现有的问答系统涵盖了模板方式、图查询方式、表示学习方式、深度学习方式,缺乏对复杂中文问句的语义理解。中文复杂问句有问句类型的多样性、问句实体的多态性、问句语义的模糊性三方面的复杂性,导致了问答系统在中文复杂问句方面表现不如人意。此外,中文复杂语句问答系统缺乏成熟的部署方案,人工标注、答案处理、系统的划分结构、需求变更导致的再次开发影响系统的成本、推理能力、鲁棒性、可迭代能力。为了解决上述问题,本文提出了复杂中文问答系统的设计与实现,基于分类模型处理中文问句类型的多样性,基于实体识别和实体消歧处理问句实体的多态性,基于知识图谱处理问句语义的模糊性。在解决问句复杂性的基础上构建问答系统,论文设计和实现了一个复杂问题中文问答系统及其部署方案。本文的主要研究点与贡献如下:(1)论文设计了深度学习模型解决复杂中文问题三方面的复杂性。论文提出了基于双向长短期记忆网络的问句分类模型,确定中文复杂问句的问句类型。论文提出了基于命名实体识别技术,抽取中文复杂问句的实体,利用命名字典生成候选实体,构建基于孪生网络模型,消除实体的二义性,生成中文问句的唯一实体。论文构建中文复杂问句的知识图谱,基于中文复杂问句类型和实体信息,生成中文问句的关系路径,生成中文问句的答案。(2)论文实现了一个复杂问题中文问答系统的原型系统,CCS-QA(Question Answering System for Chinese Complicated Statements)。在数据层,论文实现了一个实体识别及实体消歧的标注策略,来扩展和更新CCS-QA原型系统的数据;在模型功能层,论文实现了中文问句理解模块,查询知识图谱,映射中文问句的关系路径,生成答案;在接口层,论文实现了基于RESTful API接口,为第三方用户提供复杂问题中文问答服务;在应用层,论文实现了中文复杂问题的问答系统的部署。(3)本文通过原型系统和实验验证,评估整体系统性能。中文复杂问句分类方面,复杂问题中文问答系统到达了97.41%的F1值;在中文问句实体识别方面,我的中文问答系统达到了98.33%的准确率;在实体消歧方面,复杂问题中文问答系统到达了95.57%的F1值。本文所提出的原型系统,在整体系统性能方面,在数据集合NLPCC-2016,达到了83.65%的准确率。实验结果表明,本文的复杂问题中文问答系统具备可行性和有效性。
基于中文知识图谱的智能问答系统设计与实现
这是一篇关于智能问答,知识图谱,深度学习,实体识别,属性链接的论文, 主要内容为随着人工智能技术的不断发展,传统的基于搜索引擎的知识获取方式越来越难以满足人们从互联网中获取信息的需求,其返回的信息过于冗杂,用户需要耗费大量的时间与人力从返回的信息中寻找正确的答案。智能问答系统则因为精准捕捉用户搜索意图,理解用户自然语言提问,将答案直接返回给用户而受到越来越多的重视。知识图谱的快速发展,为智能问答系统的实现提供了高质量的知识来源,直接推动了问答系统在行业领域(如客服、医疗等)的发展。本文基于实体识别算法和属性链接算法设计并完成了一个智能问答系统。该系统以通用中文知识图谱为知识来源,包含数据处理、实体识别、属性链接等功能模块,可以从用户多样性表达的问句中准确地识别询问主体,并从知识图谱中找到答案。本文主要开展的工作有:1.针对传统的语义表示上下文信息不足的问题,本文采用词嵌入技术(word embedding)来提取用户自然语言问句的语义特征作为实体识别和属性链接模块的模型输入;2.针对问句中用户表达的多样性和歧义性,引入Bi-LSTM模型(Bi-directional LSTM,双向长短期记忆模型),利用Bi-LSTM提取语义特征并对实体进行标注,可以较好地识别多词一意等歧义情况,从而提高实体识别的准确性。3.针对深层次的语义特征提取不足的问题,本文在CNN(Conversation Network Neural,卷积神经网络)模型中引入注意力机制,该机制使CNN模型可以更好的挖掘自然语言问句词语和属性词语之间的语义关系。实验结果表明,在实体识别算法中引入Bi-LSTM以及在属性链接算法中融合注意力机制,能够使回答问题的准确性得到提升,并在一个开放的数据集上进行了验证。本文根据上述算法实现了一个基于中文知识图谱的智能问答系统,在实验测试环境下运行状况良好,可以实时对用户自然语言问句进行准确回答。同时我们在实际环境中也对所设计的系统进行了功能和性能上的检验,结果表明该系统具有良好的稳定性,证明上述算法具有可行性。
面向中小学语文诗词的知识图谱构建与应用
这是一篇关于知识图谱,实体识别,图数据库,语文诗词的论文, 主要内容为随着教育信息化和智慧化的发展,越来越多的新兴技术开始在教育领域尝试进行探索,并得到了积极的应用。为面向智能教育新时代,以知识图谱、深度学习等为代表的一批新兴技术的研究和应用,已经成为教育基础科学领域研究的主要内容之一。教育,作为知识表达和传播的一种手段,天然地和能表达知识结构的知识图谱有着密不可分的关系。诗词作为中国教育中具有丰富文化内涵和历史价值的重要部分,在文化教育所起到的深刻意义广为人知,在中小学语文学科的学习内容中一直以来占据着非常重要的地位,诗词知识的学习奠定了人文素质教育的基础。诗词知识的学习、传播和表达却鲜少与知识图谱等新兴技术的发展相融合。本文在研究中小学诗词知识学习特点和诗词知识实体识别特点基础上,构建了面向中小学语文诗词的知识图谱,设计开发了中小学诗词知识结构化展示的查询平台。本文的具体研究内容如下:首先,本文获取和清洗中小学语文诗词数据,构建多源诗词语料库。本文以中小学语文教材为参考样本,使用网络爬虫工具收集百度百科、古诗词网、诗词名句等诗词网站的相关主题信息,获取诗词知识的半结构化数据和非结构化文本数据。以第三方数据库进行数据补充,获取诗词知识相关的部分结构化数据。通过对半结构化、非结构化和结构化的诗词数据进行数据清洗和分析处理,完成多源的中小学诗词语料库构建。然后,本文通过分析研究诗词查询服务和诗词知识实体识别的特点,设计了诗词知识图谱构建的总体架构。将中小学语文诗词知识图谱的构建过程分为数据获取、信息抽取、知识存储和可视化四个环节。其中最为关键的环节信息抽取分为诗词知识实体识别、诗词属性获取和诗词关系识别三个方面。利用双向长短期记忆网络-条件随机场模型训练诗词语料库,并且采用网络信息包装器和基于句法分析的方式,对中小学诗词语料库进行实体识别、关系和属性抽取。通过对识别的诗词知识三元组进行消歧和对齐,完成了中小学诗词知识图谱三元组的构建和获取。基于图数据Neo4j实现了诗词知识图谱的数据存储和可视化展示。最后,基于构建出的中小学诗词知识图谱和图数据库Neo4j对诗词知识内容的存储,设计开发出能结构化展示诗词知识关系的查询平台应用于教学实践中。该平台提供诗词知识查询的入口,支持对诗词知识实体的查询、查询内容的结构化展示和知识的结构图展示,便于诗词知识的学习。
外来海洋生物知识图谱构建
这是一篇关于外来海洋生物,知识图谱,卷积神经网络,实体识别的论文, 主要内容为外来海洋生物入侵给我国的公共健康、社会经济、生态系统等带来严重的威胁和损失。近年来,国家高度重视海洋生物安全问题,在党的十八大政府报告中首次提出了建设“海洋强国”和“海洋丝绸之路”的战略目标。2020年,党的十九大提出建设海洋强国、美丽中国的目标,报告中提出我国目前需着力解决海洋水污染、海洋生态环境破坏等海洋环境突出问题。《生物安全法》于2021年4月15日正式施行,要求我国相关部门加快建立健全生物信息的采集、发布和信息追溯机制,加强对我国外来海洋生物的监督管理和入侵防控。我国目前已有的外来海洋生物数据主要是以文本形式存在的,集中在生物学相关网页和文献资料中,并且数据的分布较为分散,数据结构不一,难以对其有效整理,无法对外来海洋生物数据进行快速检索以及信息追溯,无法从外来海洋生物的分布情况、入侵途径等方面对外来海洋生物提出监督管理建议。因此,建立一个我国外来海洋生物信息检索平台的需求迫在眉睫。知识图谱能够从多数据源中抽取出有需要的信息,实现信息的快速检索和可视化展示,所以本文提出构建外来海洋生物的知识图谱。本文在水产养殖网、海洋生物学网站等网页中爬取了1500条外来海洋生物文本数据作为样本数据。针对文本数据中外来海洋生物实体构造复杂且实体间存在嵌套的现象,提出基于融合注意力机制的卷积神经网络(Convolutional Neural Networks,CNN)-双向门控循环单元网络(Bidirectional Gated Recurrent Unit Network,Bi GRU)-条件随机场(Conditional Random Field,CRF)模型进行外来海洋生物实体识别,提高了实体识别的准确率。在此基础上完成了外来海洋生物知识图谱的构建,通过对知识图谱中生物的国内分布、引入路径等进行可视化分析,给出我国在外来海洋生物监督管理的建议。本研究的主要创新性成果如下:(1)针对外来海洋生物领域实体构造复杂且实体间存在嵌套的现象,提出使用融合注意力机制的CNN-Bi GRU-CRF模型进行外来海洋生物实体识别,并构造词向量、词性特征向量等特征作为模型的联合输入以提升模型识别效果。提出的模型可以充分提取文本特征,解决文本的长距离依赖以及文本中实体存在的复杂嵌套问题。实验结果表明使用融合注意力机制的CNN-Bi GRU-CRF模型在外来海洋生物领域实体识别的效果较传统实体识别方法有较大提高。(2)通过本体构建、实体识别、关系识别等知识图谱构建流程构建我国外来海洋生物的知识图谱,构建的知识图谱对我国的外来海洋生物信息进行整理分类,实现我国外来海洋生物数据的快速查询和可视化分析。通过知识图谱发现我国外来海洋生物主要集中在广东、浙江等发达沿海地区,船舶压载水是入侵生物的主要来源方式,无意引入的海洋病原微生物对我国危害最大。并基于以上结论,给出了我国在外来海洋生物引种、船舶压载水管理、水体生物监测等方面的建议。
基于联合学习的实体关系抽取研究
这是一篇关于实体识别,关系抽取,预训练模型,联合学习的论文, 主要内容为实体识别任务和关系抽取任务是信息抽取的两大经典任务,对自动问答、知识图谱等下游任务的搭建有着至关重要的意义。因此,本文主要针对信息抽取任务中的实体关系抽取任务进行研究,该任务旨在识别出文本中的各种实体,并分析判断出各种实体之间可能存在的关系。本文的主要工作和创新点如下:1、针对实体关系抽取领域数据集质量低问题,本文采用了一种新的标注策略对英文Sem Eval2010 Task8公共数据集和中文司法盗窃案判决文书数据集进行数据标注,以提高数据集的质量,为后续实体关系抽取任务提供了坚实的基础。2、提出了一种基于动态预训练的关系抽取模型。首先,通过微调BERT(Bidirectional Encoder Representations from Transformers)预训练模型作为词嵌入层,使得模型能够更好地理解句子的语义信息;然后,搭建长短期记忆网络作为模型的解码层,进一步学习文本更深层次特征;最后,加入字级注意力层来提高关键字的权重,送入Softmax层进行分类。实验结果表明,在英文Sem Eval2010Task8数据集和中文司法盗窃案判决文书数据集上,本文模型的F1值相较于基线模型分别提升了5%和7%,同时与其他改进模型相比,具有更好的性能。3、针对传统方法中的错误累计和子任务之间无交互问题,提出了一种改进的实体关系联合抽取模型。首先,采用BERT作为模型的底层,获取更好的词向量表征;然后,搭建双向长短期记忆网络作为模型的解码层,对提取到的双向特征进行拼接,送入多头注意力层来提高关键字的权重;最后,在输出层加入全局归一化来提升模型的性能。在英文Sem Eval2010 Task8数据集和中文司法盗窃案判决文书数据集上的实验结果表明,本文模型的F1值相比于基线模型都提升了11%,同时与其他改进模型相比,本文模型具有一定的竞争力。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码项目助手 ,原文地址:https://bishedaima.com/lunwen/46309.html