基于多源的医疗商业知识图谱构建研究与实现
这是一篇关于知识图谱,命名实体识别,事件抽取,摘要生成的论文, 主要内容为知识图谱是一种将多源异构的知识融合到统一的网络结构模型中并进行知识推理和挖掘的技术。知识图谱发展至今,已不局限于通用知识领域。在专业领域,知识图谱能对模式复杂的专业知识进行结构化的整理和对框架结构的深层次分析,准确清晰地展现专业知识的内在联系,对知识的推理发散和辅助决策有着重要作用。本文研究并构建了医疗领域的商业知识图谱,主要贡献如下:(1)图谱本体层设计定义。基于本体理论知识,结合原始数据模式分析,抽取主要本体类和本体间关系,定义商业知识图谱概念层中的实体、实体属性、关系和关系属性,并使用RDFS语言进行描述;(2)实现多数据源数据的获取和处理。设计爬虫系统,从分散的信息发布平台中采集大量文本类型数据和半结构化数据,用于知识图谱构建的数据准备;(3)提出一种基于Bi-LSTM-CRF模型的命名实体识别系统。使用word2vec进行文本的向量化表示,使用Bi-LSTM模型进行特征提取,使用条件随机场模型进行序列标注。在对比实验中,本模型在对机构名实体、人名实体、产品名实体识别的F1值都达到了85%以上,其中机构名实体识别的F1值达到了91.97%;(4)提出一种基于机器学习的事件抽取与摘要生成算法。使用doc2vec模型进行文档级向量化表示,使用K-Means算法进行事件文档聚类,使用基于关键词覆盖的算法进行文档摘要抽取;(5)医疗领域商业知识图谱的构建验证。提出一种将数据从非关系型数据库中映射为三元组知识的算法,在模式层定义和知识抽取的基础上完成图谱的实际构建。基于医疗商业知识图谱,用户可以快速全面的了解企业、医院的相关信息,挖掘深层次的商业往来关系,为业务决策提供技术支持。
面向社会安全事件的知识图谱构建方法研究
这是一篇关于知识图谱,命名实体识别,关系抽取,摘要生成,深度学习的论文, 主要内容为互联网是一把双刃剑,既满足了人们的信息需求,又引发了越加严重的网络安全问题。本文所研究的社会安全事件属于在网络上传播的信息内容安全事件,是网络空间安全的一部分。社会安全事件快速传播所引发的网络舆情,可能会引起社会负面影响和破坏党政机关形象,影响社会稳定。知识图谱通过整合实体、概念以及它们之间的关系为数据的关联分析奠定基础,帮助研究人员通过实体或概念之间的关系实现对事件之间关系的研究。构建社会安全事件知识图谱,对于以事件信息为基础,挖掘社会安全事件内部以及事件之间的多元化关系,具有十分重要的意义。本文开展了面向社会安全事件的知识图谱构建方法研究,研究内容包括以下五个方面:(1)社会安全事件的结构化数据资源建设方法研究完成了基于百度百科的数据资源库建设。提出了百度百科词条的数据获取、解析、存储方法,实现了Neo4j图数据库的节点、关系、属性等信息存储。提出了社会安全事件数据资源库的层次设计,完成了词向量库、Json格式资源库和Neo4j数据库的构建。(2)命名实体识别方法研究研究基于深度学习模型的命名实体识别,提出了两种基于双向LSTM模型的命名实体识别优化模型——强化中心字模型和强化逆向序列模型。强化中心字模型通过并列添加一个输入序列为中心字的神经网络模型,实现对当前序列窗口核心字的优化,F1值达到了97.16%。强化逆向序列模型通过强化逆向序列对神经网络模型的贡献作用,实现对逆向序列的优化,F1值达到了97.27%。实验结果表明,两种优化模型都能提升命名实体识别的效果。(3)实体关系抽取方法研究提出了基于命名实体词性的关系抽取优化模型——词向量优化模型和并列结构优化模型,实现了基于依存句法分析的开放式关系抽取。基于命名实体词性的关系抽取优化模型,解决了传统深度学习模型无法学习词性特征的问题。词向量优化模型是在词向量的基础上添加词性向量,并列结构优化模型是通过并列结构学习句子中实体对的词性。基于并列结构的实体词性优化模型,在CNN、LSTM、GRU模型方面取得了很好的效果,F1值分别提升了12%、6.96%、6.07%。基于依存句法分析的关系抽取能够实现基于定中关系的名词短语识别和基于主谓宾成分的实体关系抽取。实验结果表明,开放式关系抽取取得了不错的效果。生成方法研究研究基于TextRank算法的摘要自动生成,提出了基于TextRank和句子综合相似度的摘要生成模型。句子综合相似度整合词形相似度、统计相似度、语义相似度,解决了句子摘要冗余问题,提升了摘要抽取的效果。(5)事件知识图谱系统的设计与实现设计了系统的总体框架和子模块的功能架构,实现了事件知识图谱系统。基于Webcollector爬虫框架、依存句法分析、TextRank算法、Neo4j图数据库等技术,设计和实现了系统功能,完成了事件知识图谱的构建。
基于多源的医疗商业知识图谱构建研究与实现
这是一篇关于知识图谱,命名实体识别,事件抽取,摘要生成的论文, 主要内容为知识图谱是一种将多源异构的知识融合到统一的网络结构模型中并进行知识推理和挖掘的技术。知识图谱发展至今,已不局限于通用知识领域。在专业领域,知识图谱能对模式复杂的专业知识进行结构化的整理和对框架结构的深层次分析,准确清晰地展现专业知识的内在联系,对知识的推理发散和辅助决策有着重要作用。本文研究并构建了医疗领域的商业知识图谱,主要贡献如下:(1)图谱本体层设计定义。基于本体理论知识,结合原始数据模式分析,抽取主要本体类和本体间关系,定义商业知识图谱概念层中的实体、实体属性、关系和关系属性,并使用RDFS语言进行描述;(2)实现多数据源数据的获取和处理。设计爬虫系统,从分散的信息发布平台中采集大量文本类型数据和半结构化数据,用于知识图谱构建的数据准备;(3)提出一种基于Bi-LSTM-CRF模型的命名实体识别系统。使用word2vec进行文本的向量化表示,使用Bi-LSTM模型进行特征提取,使用条件随机场模型进行序列标注。在对比实验中,本模型在对机构名实体、人名实体、产品名实体识别的F1值都达到了85%以上,其中机构名实体识别的F1值达到了91.97%;(4)提出一种基于机器学习的事件抽取与摘要生成算法。使用doc2vec模型进行文档级向量化表示,使用K-Means算法进行事件文档聚类,使用基于关键词覆盖的算法进行文档摘要抽取;(5)医疗领域商业知识图谱的构建验证。提出一种将数据从非关系型数据库中映射为三元组知识的算法,在模式层定义和知识抽取的基础上完成图谱的实际构建。基于医疗商业知识图谱,用户可以快速全面的了解企业、医院的相关信息,挖掘深层次的商业往来关系,为业务决策提供技术支持。
基于NLP与分布式爬虫的故事化资讯系统
这是一篇关于新闻资讯,自然语言处理,分布式爬虫,时间线,摘要生成的论文, 主要内容为在当前这个互联网大数据时代,各种网络新闻资讯的获取也越来越容易,新闻资讯的更新速度也越来越迅速。基于新闻的时效性,很多新闻资讯都以时间序列为主要的叙事方式,因此在展示新闻内容和新闻线索的时候,时间线就成为了用户与新闻交互中很重要的一环。每当有重大新闻事件发生时,相关的跟踪报导的时间跨度很长,在同一时间下又有多家媒体会对此新闻进行报导,最后导致新闻信息重叠,造成信息获取过多和时间的浪费。因此对于用户来说,如何能快速获取到自己关注新闻的全部进展就成为了一个比较难解决的问题。所以为了解决这一问题,开发一款以时间线为线索的资讯系统就很有必要。基于NLP与分布式爬虫的故事化资讯系统可以整理出一个连续报导事件的发展脉络,并将整个新闻的动态按照时间线或者故事化的方式呈现给用户。故事化资讯系统主要分为分布式爬虫、自然语言处理算法、系统管理端和展示端四个模块。采用Scrapy-Redis分布式爬虫技术来实现新闻资讯的实时获取,通过pyltp工具和Text Rank算法来实现对新闻文本的时间提取和摘要生成,然后由基于Spring Boot框架实现的管理端将数据传递给展示端,最后将整理好的新闻资讯呈现在展示端。本文将对系统各个模块的设计工作与功能实现进行详细的介绍。该系统的使用能满足用户对新闻资讯的实时获取,在大大缩短用户搜集新闻信息时间的同时也能满足用户对新闻资讯发展动向全面了解的需求。本人主要负责该项目的前端部分工作以及NLP模块时间提取和摘要生成的设计与实现。
基于知识图谱的PET/CT影像报告结论辅助生成系统的设计与实现
这是一篇关于结论生成,摘要生成,知识图谱,生成重复的论文, 主要内容为PET/CT是核医学领域的影像检查,广泛应用于肿瘤诊断、健康体检等领域。随着PET/CT检查量逐渐增大和国内医师的短缺,医师书写PET/CT影像报告工作量变得极大。目前常见PET/CT放射信息系统,PET/CT影像报告由影像所见和诊断结论两部分组成。影像所见一般通过一些图像到文本的文本自动生成方法或医师亲自手动完成。而当前的诊断结论的现状无法减轻医师完成PET/CT报告的工作量。对诊断结论进行动态生成,有助于提高医师书写影像报告的效率,进而提高医院的服务效率。论文将摘要生成技术和知识图谱技术相结合,通过对影像表现文本的摘要生成和基于知识图谱的疾病推断和诊断建议文本的生成,实现对诊断结论的自动生成。首先,论文针对影像表现摘要生成重复词句的问题,提出了一种基于独热编码的覆盖率机制(OHCM),实验结果表明,新机制在生成摘要文本的表现上,减少了摘要生成的词句的重复问题,提高了摘要生成内容质量。其次,论文针对诊断结论文本的表述特点,提出了一种知识图谱和摘要生成方法相结合的诊断结论生成策略(DCGS),使得诊断结论生成不仅依赖于摘要生成方法,还依赖于知识结构化的知识图谱,从而提升诊断结论生成内容的准确性。最后,基于上述研究,论文构建出了一个PET/CT影像报告知识图谱,并设计和实现了一个基于知识图谱的PET/CT影像报告结论辅助生成系统。论文首先介绍了相关背景知识及技术,接着对系统进行了需求分析,接着介绍了论文的相关的研究,随后根据需求分析对系统进行概要设计,并根据概要设计对系统的详细设计与实现进行了阐述。最后完成了对系统的功能测试和性能测试。
基于知识图谱的PET/CT影像报告结论辅助生成系统的设计与实现
这是一篇关于结论生成,摘要生成,知识图谱,生成重复的论文, 主要内容为PET/CT是核医学领域的影像检查,广泛应用于肿瘤诊断、健康体检等领域。随着PET/CT检查量逐渐增大和国内医师的短缺,医师书写PET/CT影像报告工作量变得极大。目前常见PET/CT放射信息系统,PET/CT影像报告由影像所见和诊断结论两部分组成。影像所见一般通过一些图像到文本的文本自动生成方法或医师亲自手动完成。而当前的诊断结论的现状无法减轻医师完成PET/CT报告的工作量。对诊断结论进行动态生成,有助于提高医师书写影像报告的效率,进而提高医院的服务效率。论文将摘要生成技术和知识图谱技术相结合,通过对影像表现文本的摘要生成和基于知识图谱的疾病推断和诊断建议文本的生成,实现对诊断结论的自动生成。首先,论文针对影像表现摘要生成重复词句的问题,提出了一种基于独热编码的覆盖率机制(OHCM),实验结果表明,新机制在生成摘要文本的表现上,减少了摘要生成的词句的重复问题,提高了摘要生成内容质量。其次,论文针对诊断结论文本的表述特点,提出了一种知识图谱和摘要生成方法相结合的诊断结论生成策略(DCGS),使得诊断结论生成不仅依赖于摘要生成方法,还依赖于知识结构化的知识图谱,从而提升诊断结论生成内容的准确性。最后,基于上述研究,论文构建出了一个PET/CT影像报告知识图谱,并设计和实现了一个基于知识图谱的PET/CT影像报告结论辅助生成系统。论文首先介绍了相关背景知识及技术,接着对系统进行了需求分析,接着介绍了论文的相关的研究,随后根据需求分析对系统进行概要设计,并根据概要设计对系统的详细设计与实现进行了阐述。最后完成了对系统的功能测试和性能测试。
基于知识图谱的PET/CT影像报告结论辅助生成系统的设计与实现
这是一篇关于结论生成,摘要生成,知识图谱,生成重复的论文, 主要内容为PET/CT是核医学领域的影像检查,广泛应用于肿瘤诊断、健康体检等领域。随着PET/CT检查量逐渐增大和国内医师的短缺,医师书写PET/CT影像报告工作量变得极大。目前常见PET/CT放射信息系统,PET/CT影像报告由影像所见和诊断结论两部分组成。影像所见一般通过一些图像到文本的文本自动生成方法或医师亲自手动完成。而当前的诊断结论的现状无法减轻医师完成PET/CT报告的工作量。对诊断结论进行动态生成,有助于提高医师书写影像报告的效率,进而提高医院的服务效率。论文将摘要生成技术和知识图谱技术相结合,通过对影像表现文本的摘要生成和基于知识图谱的疾病推断和诊断建议文本的生成,实现对诊断结论的自动生成。首先,论文针对影像表现摘要生成重复词句的问题,提出了一种基于独热编码的覆盖率机制(OHCM),实验结果表明,新机制在生成摘要文本的表现上,减少了摘要生成的词句的重复问题,提高了摘要生成内容质量。其次,论文针对诊断结论文本的表述特点,提出了一种知识图谱和摘要生成方法相结合的诊断结论生成策略(DCGS),使得诊断结论生成不仅依赖于摘要生成方法,还依赖于知识结构化的知识图谱,从而提升诊断结论生成内容的准确性。最后,基于上述研究,论文构建出了一个PET/CT影像报告知识图谱,并设计和实现了一个基于知识图谱的PET/CT影像报告结论辅助生成系统。论文首先介绍了相关背景知识及技术,接着对系统进行了需求分析,接着介绍了论文的相关的研究,随后根据需求分析对系统进行概要设计,并根据概要设计对系统的详细设计与实现进行了阐述。最后完成了对系统的功能测试和性能测试。
智能电视摘要生成及语音播报的设计与实现
这是一篇关于智能电视,深度学习,摘要生成,语音播报,迁移学习的论文, 主要内容为近年来,传统彩电行业都向着智能化发展,而随着人工智能发展的不断提升,通过人工智能技术提升电视智能化水平成了智能电视发展的一种重要方向。正是在如此的环境下,将智能电视显示的文本内容进行摘要生成并语音播报这样的功能被提出。本文主要叙述了智能电视文本内容的摘要生成及语音播报功能的设计与开发。首先对作为核心功能的摘要生成与语音合成进行技术研究与分析,确定了以深度学习为基础的功能实现方向,然后对现有基于深度学习的摘要生成与语音合成技术进行对比与分析,通过比较各种算法技术之间的优劣点,提出了一种新的基于迁移学习的双向摘要生成模型和实现了基于Tacotron2的语音合成模型,在给出综合算法方案后,对每个功能进行了详细的仿真对比实验,在实验中,通过对已有成熟算法模型的复现和对本文提出的算法模型进行仿真实验与实验分析,确定了本文提出算法方案的优越性,确定了以基于迁移学习的双向摘要生成模型和Tacotron2语音合成模型,作为实现系统核心功能的技术支持;然后对系统开发进行了详细的需求分析和建模,通过对系统的需求分析,将系统确定为后台管理、摘要生成、语音合成和模型压缩四个模型,并给出用例图确定每个模块的功能,然后根据完整的数据流图,对针对管理员和普通用户的业务使用,根据不同流程进行了细致描述;通过模块的详细分析,给出了各模块的详细设计方案,并予以实现;最后针对每个模块的需求分析和详细设计,对各个模块进行了详细的功能测试和性能测试,确保了系统各个功能模块的有效性和性能保障,对系统进行了完整性运行测试,确保了系统的流畅运行。本文提出的系统创新点在于:从功能性上,提出一个完整的对智能电视文本内容进行摘要生成,并且语音播报给用户的解决方案,通过技术性融合,实现了用户使用智能电视的便捷性,大大提升了用户使用体验;从技术上,以深度学习技术为出发点,提出了一种针对本课题非常有效的双向语言模型作为特征提取器,性能与BERT语言模型相匹配,同时针对现有摘要生成的Seq2Seq架构进行改进,设计并实现了一种双向摘要生成解码器,通过双向语言模型对摘要生成任务进行微调,大大提升了任务性能,最后利用基于权重剪枝的模型压缩技术对本文涉及到的深度学习模型进行处理,加速模型推理,降低了硬件需求,便于项目未来落地的需要。作为在实习公司的预研性项目,该功能成功开发,并通过了公司的验收,印证了智能电视智能化水平的提升是未来的大趋势,而多领域技术的融合对智能化的提升将是巨大的,人工智能技术在其中起到的作用,也是不可估量。
面向新闻内容的多视角分析和生成方法研究与应用
这是一篇关于深度学习,个性化新闻推荐,摘要生成,标题生成,新闻文本的论文, 主要内容为伴随着互联网技术的迅速发展,越来越多的人选择在互联网上浏览新闻内容。而如何快速地从海量的新闻信息中获取所需的信息,是高效地利用网络新闻媒体资源的关键。为了提高获取信息的效率,首先要考虑的是如何利用已有的资源尽可能地节省用户在查找新闻时所花费的时间;其次需要从篇幅较长的新闻内容中提取其中所包含的主要信息,使用户可以浏览到高质量的新闻摘要内容;除此之外,新闻的标题内容也至关重要,部分无良媒体盲目地寻求用户的点击率,恶意地夸大、伪造新闻标题,使得新闻媒体失去了以往的公信力,也给社会发展带来了许多不安定的因素。基于上述原因,本文利用深度学习方法从多视角对新闻文本数据进行分析与生成,即从新闻推荐列表生成、新闻摘要生成、新闻标题生成三个视角进行研究,具体研究内容如下:1)提出了一种基于新闻特征分析与多视角学习的个性化新闻推荐方法,用于生成符合用户兴趣偏好的新闻列表。该方法基于多头自注意力机制构建新闻编码器和用户编码器两个核心的组件,对新闻内容中的标题、正文、类别信息进行多视角的分析提取特征。首先使用新闻编码器对候选新闻信息进行编码分析,获取新闻表示特征,然后使用用户编码器对用户浏览阅读过的新闻信息进行分析以提取用户表示特征,最后通过新闻表示特征和用户表示特征生成符合用户兴趣偏好的新闻推荐列表,达到节省用户查找所需新闻时间的目的。2)提出了一种基于预训练模型的抽取式新闻摘要生成方法,用于生成包含新闻重点的摘要内容。该方法通过利用Ro BERTa预训练模型的先验知识对文本特征进行提取,获取句子级的文本特征向量;然后句子向量经过双向长短期记忆网络层和多头自注意力层以获取文档级特征向量,最后通过分类层输出预测分数,根据预测分数组合生成摘要内容。3)提出了一种融合用户特征的个性化新闻标题生成方法,用于生成符合用户阅读兴趣且具有真实性的个性化标题,可避免媒体为了追求点击率从而对新闻标题进行过度修饰。该方法通过基于Fastformer模型构建编码器对文本向量进行编码,在指针生成网络解码器中注入在个性化新闻推荐模型中提取出的用户特征,从而对生成标题的结果进行影响,使生成的新闻标题内容符合用户的阅读兴趣。通过实验证明,本文从新闻推荐列表生成、新闻摘要生成、新闻标题生成三个视角对新闻文本进行分析所提出的三个模型均取得了较好的评测结果,模型性能也优于基线模型。针对新闻推荐列表生成,经过使用AUC、MRR、NDCG等推荐系统指标在新闻推荐公开数据集上进行评测,我们的结果优于基线模型;针对新闻摘要生成,通过在CNN/Daily Mail新闻摘要公开数据集上进行评测,评测结果在ROUGE-1、ROUGE-2、ROUGE-L三个指标上均有所提升;针对新闻标题生成,采用人工撰写的测试集进行测试,模型性能优于其它端到端的生成模型。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设港湾 ,原文地址:https://bishedaima.com/lunwen/55030.html