基于附加信息建模的知识图谱表示学习研究
这是一篇关于知识图谱,知识表示学习,三元组,额外信息,路径的论文, 主要内容为自从谷歌提出了知识图谱的概念以来,如何将知识图谱应用到各种智能任务上成为了一个重要研究课题。受到表示学习的启发,知识表示学习成为了一种新兴的表示知识图谱的工具,可以更好地将知识图谱的语义信息应用于推理等任务。目前大多数的知识表示学习模型在进行模型的训练时,仅仅考虑了三元组本身的信息,即只对三元组的单步路径进行学习,没有考虑到知识图谱中蕴含的丰富的多源信息,如大规模知识图谱中存在的路径信息等。本文针对以上问题,对更好地利用额外信息进行知识表示学习进行了研究,主要研究内容如下:本文提出了一种自适应的考虑额外路径信息的知识表示学习模型AdaptivePTransE,从路径选择、得分函数和损失函数等三个方面对PTransE进行了优化。首先对于路径的选择,本文只对两步以内的路径进行采样,避免了过长的路径引入额外的噪声;同时,在路径的可靠性衡量上,本文在PTransE模型提出的PCRA算法上选取可靠性大于门限λ的路径,以此避免过多的无效路径影响模型的性能。其次,对于得分函数的设定,本文引入了权重系数来调整三元组与额外路径的重要性,通过改变的取值来适应于不同的知识图谱,使得得分函数更为灵活。再次,对于损失函数的设定,本文通过基于负采样的损失函数,改善了PTransE模型同时只能对一对正负例样本进行训练的问题。最后,与PTransE模型的损失函数中采用了一种固定的距离阈值来最大化正负例样本的距离不同,本文采用自适应的距离阈值来适应训练过程中的最优距离,使得模型能得到更好的训练。在FB15k及WN18数据集上的实体预测实验结果表明,Adaptive-PTransE模型在平均排名及前十命中率上比PTransE模型均有1%~3%的提升。针对同时对对称/反对称、相反以及组合这三种关系模式进行表示的问题,本文提出了一种考虑额外路径的基于旋转的知识表示学习模型Path-RotatE。首先,本文引入了基于旋转的知识表示学习模型RotatE,这种模型具有同时对三种组合关系模型进行表示的优点。然后,本文提出了一种新的旋转组合方式以改进RotatE模型。同时,由于在路径可靠性的计算上,PTransE提出的PCRA算法只根据从头实体流入尾实体的资源量来衡量路径的可靠性,忽略了路径与直接关系的相关性,所以本文提出一种考虑路径与直接关系的相关性的算法,使得路径的可靠性更符合真实情况。最后,本文在FB15k、FB15-237、WN18及WN18RR等数据集上进行了实体预测实验。实验结果表明,Path-RotatE模型在平均排名、平均倒数排名及前N命中率指标上相比RotatE、PTransE及其他基线模型均有一定的提升。
基于时空字幕的学术视频摘要生成技术研究
这是一篇关于视频时空字幕,关键帧,CR-CapsNet,三元组,文本摘要的论文, 主要内容为大数据背景下教学改革的数字化转型推动了在线教育的普及式发展,学术视频数量达到了空前的规模,给视频存储和用户浏览带来了巨大的压力。视频是一种集图像和文本等多模态信息为一体的信息载体,方便人们多方位的理解视频内容和意图。视频摘要作为一种有效的视频信息提取技术,能够快速定位视频关键内容,减轻视频存储和用户浏览压力。然而,传统摘要方法多依赖于视觉底层特征来完成单模态的视频摘要,未能跨越“语义鸿沟”,摘要效果欠佳。为此,本文在国家自然科学基金项目支持下,以图像和文本两种模态信息为切入点,开展了基于时空字幕的学术视频摘要生成技术研究,所完成的主要工作和取得的创新性研究成果如下:(1)提出了一种基于时空字幕的学术视频关键帧提取方法。针对传统关键帧提取方法计算量大且无法全面表征视频内容的问题,结合学术视频结构特性,提出了一种基于时空字幕的关键帧提取方法。该方法首先利用视频字幕区域的时空切片,搭建视频时空字幕像素累积(Spatio-temporal Subtitle Pixels Accumulation,SSPA)曲线,以监测视频字幕存在与消失状态的变化;然后对其进行归一化处理得到突变点(Catastrophe-Point,CP)曲线;最后通过Flag标志法标识字幕变化边界,完成关键帧集构建。此外,还设计了一种基于关键帧字幕滚动的可视化方式。实验结果表明,所提方法能够快速提取学术视频的字幕关键帧,平均综合指数F1-score可达0.97。(2)提出了一种基于CR-CapsNet的自适应关键帧提取方法。针对视频帧中字幕文本方向多变以及关键帧提取过程中时空字幕位置单一,导致视频信息提取不充分的问题,提出了一种基于CR-Caps Net(Capsule Network with Improved Convolution and Routing)的自适应关键帧提取方法。该方法分两阶段展开研究,第一阶段通过构建CR-Caps Net模型完成视频字幕检测,利用深度卷积强大的特征提取能力以及压缩激励模块(Squeeze-and-Excitation,SE)的特征筛选能力改进原始Caps Net的特征提取层,以降低背景噪声影响,并设计基于自适应矩估计的动态路由算法,动态更新学习率,提高模型稳定性;第二阶段以字幕定位为先验条件,设计一种基于自适应时空字幕的关键帧集构建算法,完成关键帧提取。实验结果表明,字幕检测的F值相比于原始Caps Net提高了3.4%,关键帧提取的平均综合指数F1-score提升了1.3%。(3)提出了一种基于三元组信息指导的学术视频文本摘要生成方法。针对现有视频文本提取过程中缺乏视频高级语义信息表达,具有“语义鸿沟”的问题,提出了一种以事实三元组为指导的生成式文本摘要模型(Abstractive Text Summarization based on SPO,SPOATS)。该模型基于Transformer网络搭建具有事实提取能力的双编码器和融合事实特征的解码器。首先,构建LBi G(LTP-Bi LSTM-GAT)模型并设计最优事实三元组选择算法,获取事实性信息的特征表示;然后,利用改进的S-BERT模型对原文本进行句子级向量表示,获取语义丰富的句子编码;最后,设计基于注意力的事实融合机制,以融合双编码特征来提高模型在解码阶段对事实性信息的选择能力。实验结果表明,在数据集LCSTS上,所提模型与基线模型ERPG相比,F1R-1值提升了3.0%,可缓解当前生成式文本摘要模型在解码时对原文本事实性信息利用不充分的问题,丰富原文本语义信息,明显提升摘要质量。
电商在线评论的文本情感倾向性分析
这是一篇关于电商评论,情感分析,三元组,文本向量化,PROST的论文, 主要内容为近年来电子商务的发展极大带动了人们通过互联网购物的热情,从搜索发现、浏览商品详情、加到购物车、付款、收货到产生购物评论的整个过程,都可以足不出户地完成。其中商品评论也成为消费者在选购商品时的重要参考内容之一,因为已生成的评论可以使消费者从商家、广告之外的角度,更全面地了解商品是否值得购买。同样的,制造商、电子商务平台也需要密切关注消费者的发声,以及时调整商品设计或营销策略,来更好地服务消费者,同时达到利益最大化。本文以此为出发点,对京东电商平台手机的4000条评论进行数据获取、清洗、提取产品特征词与情感词、三元组文本向量化及SVM情感分类这一系列过程形成PROST模型,实现了提取消费者对商品最关注的特征和其相应情感倾向的提取,并通过新模型与传统方法的对比,得出了新的方法优于传统方法的结论,为电商在线评论文本情感倾向性分析提供了一种简便可行的操作方法。本文主要书写思路分为以下几部分:第一部分主要为绪论以及基础理论知识,介绍了本文的研究背景、研究意义,对国内外文本情感倾向性分析进展做了概括,并梳理了本文的研究内容、研究方法和使用的技术路线以及创新点。第二部分介绍了四个理论支撑,分别是电子商务相关理论、情感分析相关理论、文本分析相关理论、电商在线评论文本情感倾向性分析概述。第三部分介绍了文本获取与预处理,系统阐述了文本的分词方法、词性标注、句法依存关系。第四部分介绍常见的特征向量化方法和情感分析模型,强调了文本向量化的必要性和重要性,选取了能够获取词间关系的CBOW模型来对文本进行向量化。第五部分为实验过程及结果对比分析,将实验过程的文本数据获取、清洗,到分词以及利用依存句法关系提取三元组并进行连续词袋模型向量化、分类器分类。得到的实验结果与四种传统方法进行对比分析,得出新模型各方面性能优于传统模型的结论。第六部分为总结与展望,对本文提供的PROST的模型利弊进行讨论分析,并提出今后的研究方向。
基于深度学习的政务领域知识图谱自动化构建技术研究
这是一篇关于知识图谱,电子政务,三元组,Bert,深度学习的论文, 主要内容为随着我国在伟大复兴的道路上前进,科技迅速发展,移动互联网逐渐在整个社会普及,政府的工作也发生了翻天覆地的变化。如今,政府部门的线上工作也已开始普及,每天政府部门都会发布无数的政务信息在互联网之上,人民群众也逐渐习惯在互联网上浏览政府发布的工作信息。尤其是新冠疫情以来,人们花在手机等互联网终端上的时间越来越多,整合碎片化的政务领域信息,提供给人们一个方便快捷的方式来了解政务工作已经成为一个迫切的任务。知识图谱由于其自身的结构特性,可以很好的组织知识,将知识直观的表达出来。因此,本文提出了一种政务领域知识图谱构建方法,来解决人民群众获取政务信息效率低的问题。本文的主要工作和贡献如下:(1)提出了一种领域知识图谱三元组数据集的构建方法,从零开始,从互联网资源中筛选领域文档,然后在Saoke数据集的基础上,构建了政务领域三元组数据集,该方法可以在缺乏领域专家的情况下有效的构建用于深度学习的数据集。(2)提出了一种结合Bert的三阶段联合抽取实体及关系的深度学习模型,将政务领域的三元组抽取问题转换为条件序列生成问题,分三个阶段分别抽取主语、宾语及两者的关系。该模型在通用的Saoke数据集及本文构建的政务领域数据集上进行了实验测试,分别取得了0.431和0.530的F1分数,结果表明,该模型在开放领域实体关系抽取上的表现优于传统的模型。(3)针对实体及关系抽取模型的不足,提出了知识修正的概念并实现了实体和关系修正的算法,有效的解决了模型无法处理长篇文章所带来的缺陷,并提高了知识表达能力。最后,本文结合知识融合和知识存储,构建了政务领域知识图谱自动化构建原型系统,该系统具有知识图谱动态展示的功能,可以方便人们浏览。
基于文本挖掘的领域知识图谱构建方法的研究与实现
这是一篇关于知识图谱,远程监督,实体关系抽取,三元组,Neo4j的论文, 主要内容为知识图谱作为一种描述自然界中的实体及其相互联系的语义网络,已经被广泛应用于各行各业。一个完善的领域知识图谱可以辅助计算机理解相关知识,进一步帮助提升从业者的工作效率和质量。知识图谱构建的核心技术是实体关系抽取,目前中文实体关系抽取的准确率通常只有60%~70%,而领域知识图谱构建仍需进一步面临缺乏训练语料,对人工依赖较大以及构建方法难以跨领域移植等问题。针对上述问题,结合目前法律领域数据资源庞大繁杂,亟需有效组织利用的现状,本文研究提出一种基于文本挖掘的法律领域知识图谱构建方法并予以实现。具体工作如下:(1)针对缺乏领域训练语料的现状,提出基于远程监督的训练语料构建方法。采集百度百科上法律相关概念词条下的结构化信息作为初始三元组,利用远程监督的方法回标百科文本,自动化获取训练语料。进一步提出三元组扩充算法与关系特征词过滤语料的方法解决自动获取语料常见的数量较少及噪声问题。(2)针对不同类型的实体关系抽取任务,提出两种抽取方法。第一种是基于最大熵模型的实体关系抽取方法,该方法基于关系分类思想,通过n-pattern特征提取方法表征各类关系文本的差异,从而完成限定类型的关系抽取任务;第二种是融合CRF与句法分析树的实体关系抽取方法,该方法依赖序列标注和句法分析思想,可以完成任意类型的关系抽取任务。实验表明本文提出的两种方法抽取结果准确率均能达到72%以上,与现有的实体关系抽取方法相比具有明显的优化效果。(3)以前述环节获取到的法律知识三元组为数据源,提出一种基于NeO4j图形数据库的RDF文件存储方案对三元组进行存储,进一步研究法律知识图谱构建与应用系统的模块化分工安排,并通过系统应用模块的可视化平台实现法律领域知识图谱的查询与展示功能。
裁判文书的三元组抽取技术研究
这是一篇关于三元组,依存句法分析,预训练语言模型,BERT,条件随机场的论文, 主要内容为三元组抽取能将非结构化的文本以结构化的形式进行表示,是自然语言处理中的一项重要研究内容。对裁判文书进行三元组抽取,对于上游构建知识图谱、建立检索系统、自动问答系统等起着关键的作用,能够帮助司法系统进行知识表达和知识推理,推进智慧司法的建设。裁判文书文本中实体间难以用预定义关系集来限定,且缺乏大规模的标注语料,导致传统通过训练分类器或神经网络模型的实体关系抽取方法不适用。而目前常见的开放式中文三元组抽取方法通常只考虑了句子浅层的句法、位置特征,或是仅从句子的核心词出发,不能有效地完全抽取。本文针对上述问题,提出基于依存句法抽取模式的三元组抽取方法和结合预训练模型和DSEP的三元组抽取方法,并设计对比实验进行验证。论文工作得到了国家重点研发计划项目“内外贯通的审判执行与诉讼服务协同支撑技术研究”(2018YFC0831300)的支持,主要工作如下:(1)针对裁判文书难以用预定义关系集限定和缺少已标注数据集的问题,提出基于依存句法抽取模式的三元组抽取方法。本文对裁判文书文本进行统计分析,总结了三种普遍存在的语言特征,研究发现,这些语言特征能通过句子的依存句法树有效反映。以此为基础,将句子的实体与关系描述映射到依存句法树,提出8种依存句法抽取模式DSEP(Dependency Syntax Extraction Pattern),并基于DSEP设计了抽取算法。本方法将句子中所有名词和名词短语视为实体,通过两两组合为候选实体对匹配DSEP来发现其关系描述词,不局限于使用核心词作为关系。本方法不依赖于任何人工标注,实验结果表明,在准确率和召回率上均高于现有方法CORE、Un CORE和ZORE。(2)为了进一步提高三元组抽取的效果,针对上述方法存在的LTP处理错误、DSEP覆盖不全的问题,提出结合预训练模型和DSEP的三元组抽取方法。利用前一方法的抽取结果,再辅以人工标注的小样本能够构成有标注的数据集,因此设计一个神经网络模型,通过训练它来实现对前一方法抽取效果的修正。本方法将三元组抽取建模为序列标注任务,对句子中的实体和关系描述词进行多标签标注,使用预训练模型BERT(Bidirectional Encoder Representations from Transformers)作为句子的编码器。利用BERT对输入句子的上下文信息进行捕捉,得到句子的分布式表示;下游使用Softmax激活的全连接层对每个字进行多标签分类;考虑到输出序列的标签之间也存在上下文关联,利用CRF层引入标签的上下文信息。实验结果显示本方法能有效提高前一方法的抽取效果,在准确率和召回率上均有提升。
三元组半自动标注系统的设计与实现
这是一篇关于三元组,知识图谱,联合抽取,标注系统,BERT的论文, 主要内容为目前,知识图谱技术发展迅速,知识图谱价值不断地被发掘,各类领域知识图谱也迅速建设起来。三元组在知识图谱的构建和应用中起到了关键作用,它们连接了不同的实体和概念,形成了丰富的知识关系网络。由于领域知识图谱的构建要求与通用知识图谱存在明显的不同,所以在领域三元组标注的过程中面临诸多挑战:(1)领域三元组需要从大量自然语言数据中抽取,需要进行大量的人工标注工作。(2)领域知识图谱对三元组数据的质量要求非常高。(3)领域三元组有特定的实体和关系类型,需要训练面向特定领域的知识抽取模型来进行三元组的抽取。针对上述问题,本文设计了一种基于联合抽取的三元组数据预标注方法和一种基于ALBERT的三元组数据标注方法,并构建了一个三元组半自动化标注系统。具体研究内容如下:(1)本文设计一种基于联合抽取的三元组数据预标注方法,提出了基于层叠指针网络与多头选择机制的联合抽取模型。通过基于层叠指针网络的实体抽取方法解决实体嵌套问题,通过基于多头选择机制的关系抽取方法解决关系重叠问题。(2)本文设计一种基于ALBERT的三元组数据标注方法,该方法通过多次循环训练模型,提高预标注模型的准确率。该方法使用轻量级的实体关系联合抽取模型,在提高模型训练效率的同时,还通过扩大序列标注范围,解决关系重叠问题,提高模型抽取的准确率。(3)本文设计并构建三元组半自动标注系统,通过引入数据智能预标,提高人工标注的效率。系统设计合适的领域管理、任务管理、数据统计、题目分发等功能,为面向领域的知识图谱的标注和构建提供一个高效便捷的平台。通过对比实验和系统测试,本文提出的基于联合抽取的三元组数据预标注方法中的预标注效果明显优于其他联合抽取模型;本文提出基于ALBERT的三元组数据标注方法可以在明显加快模型训练效率的同时,保证较高的预标注效果;系统功能完整,具有较高的可用性和鲁棒性。
基于内容的图像检索系统设计与实现
这是一篇关于图像检索,深度哈希,自注意力模块,三元组,变分自编码器的论文, 主要内容为随着互联网和成像技术的迅猛发展,数字图像的数据量和分辨率得到了极大提升,如何从海量的图像数据中快速准确地检索出目标图像成为了当前亟待解决的问题。基于内容的图像检索(CBIR)系统利用图像的视觉信息进行检索而表现了优越的性能。传统的CBIR系统通常使用手工方法获取图像的低级视觉特征,并使用线性搜索方法进行数据库搜索,导致了较低的检索精度和效率。围绕现有图像检索方法的不足和限制,本文进行了以下研究:1)针对现有图像检索中存在的检索效率低和正负相似对数量不平衡问题,提出了基于非对称深度注意力哈希的图像检索算法。该算法是在Res Net50网络的基础上进行注意力哈希网络构建。一方面,在Res Net50网络中引入自注意力模块和用于生成哈希码的哈希层,以提高哈希码的辨别能力,并通过该网络得到查询集的哈希码;另一方面,通过设计的损失函数训练网络并生成数据库图像的哈希码,大大提高了哈希学习的效率。实验结果表明,该算法不仅解决了正负相似对数量不平衡问题,还有效提高了检索的效率与精度。2)针对监督学习中标签标注费时费力的问题和现有无监督图像检索中存在的原始数据语义类别信息不足问题,提出了基于深度三元组哈希的图像检索模型。该模型首先利用K-means聚类算法生成图像的标签信息,以便构造三元组,同时设计了一种三元组选择策略进行有效的三元组选择。其次,利用三个共享参数的变分自编码器将输入的三元组特征嵌入潜在空间,以获得保留原始数据结构信息的紧凑、低维的哈希码。最后,设计了一个新的损失函数,以鼓励输出的二进制哈希码接近图像的特征表示。实验结果表明,该算法有效提升了哈希码的辨别能力,增强了图像检索的性能。3)基于上述两种方法的研究成果,使用Pycharm平台、Tkinter框架及My SQL数据库设计开发了一套CBIR系统。结果表明,设计的CBIR系统满足图像检索任务快速、实时的要求,表现了良好的检索性能,可适用于多场景的图像检索任务。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设货栈 ,原文地址:https://bishedaima.com/lunwen/48684.html