基于知识图谱的观点检索
这是一篇关于观点检索,知识图谱,查询扩展,实体链接,实体关系的论文, 主要内容为随着互联网的飞速发展,越来越多的用户交互式媒体涌现出来,人们在这些平台上发表对事物的观点评论,对这些观点文档的研究蕴含了巨大的商业价值和学术价值。随着数据量的不断增大,观点检索也逐渐成为自然语言处理的一个研究热点,它研究如何从社交媒体等文档集中找出带有观点的相关文档,既要求检索出的文档与给定主题相关,还要求带有对主题的评论或看法。目前,国内外学者对观点检索已经开展了许多研究,并取得了一定的成果。但由于用户查询时输入通常很短,难以准确表示查询的信息需求,而现有方法往往忽略了这一点。针对该问题,本文利用知识图谱理解用户的信息需求,进行了以下三个方面的工作:(1)针对用户查询通常很短,难以准确表示查询的信息需求的问题,提出了基于知识图谱实体文本的观点检索模型,通过知识图谱中的实体文本理解用户的信息需求。该模型首先由知识图谱获取候选查询扩展词,并计算每个候选词的扩展词分布、共现频率、邻近关系、文档集频率等特征,然后利用4类特征通过SVM分类得到扩展词,最后利用扩展词对产生式观点检索模型进行扩展,实现对查询的观点检索。实验表明,在微博和推特两个数据集上,与基准工作对比,所提出的方法在MAP、NDCG等评价指标上均有显著的提升。(2)针对基于知识图谱实体文本的观点检索模型中只利用了实体文本的特征,而知识图谱中的其他信息并未得到充分利用的问题,提出了融入知识图谱实体类别的观点检索模型。首先将用户查询和文档实体链接到DBpedia,获取实体的类别属性,然后根据类BM25公式计算实体类别评分,并将类别评分与原有的主题相关度评分进行融合,得到新的检索模型公式。在中英文数据集上的实验结果表明,该模型的检索效果在多个评价指标上均好于(1)中提出的方法。(3)针对融入实体类别的观点检索模型只考虑了单个实体的描述文本和类别属性,而实体间关系未得到利用的问题,提出了融入知识图谱实体关系和类别的观点检索模型。在查询扩展获取候选扩展词时,不仅考虑实体文本,还考虑与实体相关的其他实体的知识,同时针对不同扩展词的差异,在模型中增加扩展词的权重因子。实验结果表明,该方法相较于(1)和(2)可以更加有效地检索到所需的观点文档。
基于J2EE的投资项目评估系统的研究与实践
这是一篇关于项目评估,J2EE,Struts,实体关系,范式的论文, 主要内容为投资项目评估一般指投资机构根据有关政策、法律法规、方法与参数,运用科学的方法和手段,对项目的财务和社会效益等有关内容进行全面的分析和评价,决策是否给予投资或贷款支持的评估过程。很多单位由于没有很好的技术经济评估软件系统,对各种投资项目风险的预测(主要是指财务指标)往往依靠经验,致使投资项目未达到预期的经济效益。为了科学地对投资项目进行经济评价,对项目的财务可行性和经济合理性进行分析论证,为项目的决策提供可靠依据,使用投资项目评估软件是提高评估效率、加快与国际接轨的有效手段。 本文根据投资项目评估行业的发展特点,按照软件工程原理,参考了国家发改委的建设项目经济评价方法与参数标准设计而成。 首先,本文通过对投资项目评估行业和其信息化系统建设的背景介绍,突出了项目评估信息化系统的必要性和意义,并根据行业的具体流程和指标参数,给出了详细的需求分析。 其次,对投资项目评估实际系统所采用的开发标准J2EE架构规范和Struts框架实现的MVC模式进行了详细的研究,并对其有关概念、原理从理论到实践进行了探讨。根据实际开发和应用的需要,对选遥的Web容器和数据库管理系统进行了讨论。 然后,给出了项目评估系统基于Struts框架的MVC模式实现方案,对调用的类进行了设计。给出了数据库实体关系的概念、逻辑完整设计,并进行了范式验证。 论文最后给出了数据源访问数据库、中文编码处理和部分功能模块的实现代码。
基于深度学习的实体关系联合抽取
这是一篇关于实体关系,联合抽取,三元组重叠,分解策略,机器阅读理解,端到端的论文, 主要内容为伴随着互联网数据的爆炸式增长,如何存储、管理、应用这些杂乱的非结构化数据,已成为人工智能领域的热门课题。知识图谱把杂乱数据中的概念、实体及其关系整理成结构化数据,并存储到图结构中,转化为人类认识世界的形式,利于管理、搜索、分析以及应用海量数据。实体关系抽取作为知识图谱构建任务的重要步骤,主要任务是把非结构化文本转化为结构化知识,直接影响着知识图谱的质量。同时,实体关系抽取还是搜索引擎、人机对话、智能交互、用户画像以及机器翻译等技术的基础,具有重要的研究意义。目前,实体关系抽取任务主要有两种解决方案:流水线模型和联合抽取模型。流水线模型把实体关系抽取任务分为实体识别和关系抽取两个子任务,存在着错误传播的现象。联合抽取模型为解决错误传播问题,使用一个模型同时抽取实体和关系,但是现有模型难以处理三元组重叠问题。本文分析了实体关系抽取任务存在的问题,针对问题改进模型,以提高实体关系抽取任务的效果。首先,本文提出了一个基于分解策略的实体关系联合抽取模型。首先,优化模型编码器,采用Word Piece模型、BERT预训练模型、BIO词性序列编码以及Bi LSTM模型,改进编码效果。然后,将实体关系抽取任务分解为两大阶段(头实体抽取和尾实体抽取),此措施可以帮助模型解决三元组单实体重叠问题。接着,将关系和尾实体抽取分解成并行的三个子过程,此措施可以帮助模型解决三元组中绝大部分实体对重叠问题。最后,将头实体抽取和尾实体抽取的每个子过程,都转化为序列标记任务,利用指针标注模型来处理。本文在NYT数据集上评估本模型,获得了良好的效果,Precision=87.0、Recall=85.1和F1=86.0。然后,本文提出了一个基于机器阅读理解的实体关系联合抽取模型。(1)将实体关系抽取任务转化为两段连续的机器阅读理解任务。阶段一,根据实体类型编制实体问题,抽取文本子序列回答实体问题,得到文本中所有实体;阶段二,根据当前实体和关系类型编制关系问题,抽取文本子序列回答关系问题,得到和当前实体有关系的所有实体。(2)对文本和问题进行编码,利用向量拼接的方式融合文本特征和问题特征,利用指针标注模型来抽取文本子序列生成问题答案。本文在NYT数据集上评估本模型,获得了良好的效果,Precision=86.7、Recall=86.2和F1=86.4。
基于电子病历的知识图谱构建与疾病预测研究
这是一篇关于深度学习,知识图谱,实体关系,疾病预测,电子病历的论文, 主要内容为医院每天都会接收大量病人,随之产生的是海量的电子病历(Electronic Medical Record,EMR)。电子病历通常包含半结构化或者非结构化的图像和文本,是一种非常宝贵的、值得挖掘和利用的资源。随着人工智能技术的发展,智慧医疗已经成为当前医学领域中的重要研究内容,医疗信息成功完成了由纸质病历到电子病历的转变,基于电子病历的研究也得到了快速发展。电子病历在数字化医疗研究中具有重要意义,一方面,电子病历可以作为辅助信息支持医生的临床决策,避免依据经验的判断失误;另一方面还可以帮助构建在线问诊平台,通过处理患者对病情的描述进行疾病预测和对症下药。但是由于电子病历的信息繁杂多样且专业术语较多,包含许多非结构化文本信息,人们想从中获取所需的信息具有一定难度,并且电子病历中的非结构化文本信息不便于存储,使其不能得到充分地利用。知识图谱作为一种语义网络技术,将真实世界中各种事物之间的联系转换为实体和关系描述,它的提出为结构化存储和充分利用电子病历提供了一种优秀的解决方案。由于现有研究对电子病历的利用大多数只抽取命名实体或者分别抽取实体和关系,割裂了实体和关系之间的联系,并且抽取准确率还有提升空间。预训练模型对于提高自然语言处理下游任务的准确率方面具有较好表现,因此本文针对中文电子病历提出一种基于预训练模型的实体关系联合抽取方法。此外,目前基于电子病历的研究通常过于侧重信息抽取,而忽略了实用成果和实际临床应用,所以本文在实体关系抽取的基础上进行了知识图谱构建和疾病预测的应用研究。本文通过分析电子病历的结构及语言特点,提出一种基于预训练模型的实体关系联合抽取方法,结合BIO标注法+类别+关系进行实体关系联合标注,基于现有的深度学习方法进行研究,提取出相关信息,并组成三元组导入Neo4j图数据库中,构建以疾病为中心的知识图谱,清晰地表示出疾病和症状之间的关系,进一步优化医生的工作。同时,基于构建的知识图谱计算疾病与症状之间的影响因子,有助于辅助预测疾病和构建在线问诊平台。实验表明,基于电子病历的知识图谱的研究有助于医学知识的抽取,并且对于智慧医疗的发展具有一定的辅助意义。
面向我国珍稀物种现状的知识图谱构建
这是一篇关于知识图谱,珍稀物种,命名实体识别,实体关系,BiLSTM-CRF的论文, 主要内容为自2012年谷歌公司提出知识图谱的概念以来,各个领域的知识图谱研究都取得了极大进展,教育、科学、金融、刑侦等领域都在逐步构建专业的知识图谱服务于各个行业,并且取得了一定的成果。而作为国家政府关注的重点,生态建设方面的知识图谱构建和研究却少之又少。随着人口剧增和经济发展对自然资源的需求越来越多,毁林开荒、工业化和城市化等都会破坏野生生物的生存环境,导致生物多样性的丧失。在《濒危野生动植物物种国际贸易公约》列出的640个世界性濒危物种中,我国占了 156种,约占其总数的24%。由于物种之间的相互关联、相互制约的关系,如果有一种植物灭绝,就会有10种至30种依附于这种植物的其他生物消失。因此,构建一个生态领域尤其是珍稀物种现状的知识图谱对于查询和研究物种信息是非常有利的。本文主要针对我国珍稀物种的生存现状进行知识图谱构建。整篇文章从以下四个方面进行研究:第一,数据爬取和处理。本文数据来源于百度百科等搜索网站以及各类有关珍稀物种和物种保护的官方网站,爬取了构建知识图谱相关的包括我国现有珍稀物种种类、科目、栖息地、生存威胁等在内的文本信息,并对文本信息进行降噪处理;第二,命名实体识别。采用的方法主要是条件随机场(CRF)和双向长短时记忆网络(BiLSTM-CRF)模型。并且面对非结构化文本数据利用Word2vec词袋模型,语义模型等进行知识融合。识别出物种名称、分布地区、所属科目、濒危等级等实体信息;第三,基于二分类法的关系抽取。结合卷积神经网络模型,考虑实体位置及距离信息,将实体间的6种关系抽取出来。第四,数据存储与可视化。将数据存储在Neo4j图数据库中,将上万条实体及关系数据以图的形式展示出来,建立我国珍稀动植物与分布区域、濒危等级、所属科目之间的联系。从而完整地实现面向我国珍稀物种现状的相关知识图谱构建。为生态保护的相关部门和工作人员以及珍稀物种爱好者提供更加完善的物种信息,帮助政府部门提供更加合理有效的物种保护措施,促进生态环境的健康可持续发展。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设导航 ,原文地址:https://bishedaima.com/lunwen/53896.html