基于深度学习的地理关系抽取系统研究与实现
这是一篇关于地理实体关系抽,取残差网络,多示例学习,远程监督的论文, 主要内容为随着大数据时代的到来,地理信息领域正在发生巨大的改变。人们对地理信息的需求从原本单一的静态地理位置信息,逐渐转变为动态的,包含社会人文因素的多元信息,传统的基础测绘和卫星遥感手段已经不足以满足这种变化。随着机器学习技术的发展,我们有了新方式来获取信息.:通过机器学习分析网络文本,识别文本的语义,进而获得语义中的地理信息。但互联网数据内容异质而且多元,这使得网络数据的分析使用十分困难。知识图谱具有强大的语义处理能力和开放组织能力。因此,构建地理信息知识图谱将推动地理科学领域的发展,并为日常生活带来更多的便利。目前,实体关系的抽取是地理信息知识图谱研究的重点与难点。当前通用领域关系抽取已经随着深度学习的发展,取得突破性进展,性能优异的算法层出不穷。但由于缺乏地理信息领域数据集,针对地理信息领域的实体关系抽取研究较少。相关的研究还停留在小规模标注,模拟数据进行训练的阶段。针对地理信息实体关系抽取面临的问题及深度学习发展现状,本文开展了以下工作。首先,本文对地理语义网中的实体进行空间位置计算,导出包含五种空间关系的实体关系三元组,将其加入已有的地理语义网,以扩展数据集内容。基于远程监督思想,通过将扩展后的地理语义网与朴素文本NYT进行对齐,构建了地理信息数据集。之后,本文设计实现了自动构建地理知识图谱的系统,包括网络文本信息抓取,命名实体识别,地理实体关系抽取以及知识图谱数据存储四个模块。系统定时抓取网络文本之后,使用Stanford NER对其进行命名实体识别,再将得到的数据进行地理实体关系抽取,最后使用Jena存储最终生成的地理实体关系三元组。对于地理实体关系抽取,本文对通用领域的关系抽取算法PCNNs进行改进,提出了RPCNNs(基于分段池化的残差卷积网络)算法。该算法对PCNNs算法的网络结构进行调整,加入残差网络进一步抽取更丰富的语义特征。RPCNNs算法首先使用word2vec对训练集文本的单词进行编码,并将单词位置信息加入单词编码作为模型输入。之后采用残差卷积网络抽取丰富的特征,在池化层选择分段池化进一步保留位置信息。由于基于远程监督思想构建的数据集假设过于肯定,必然会引入大量噪声,因此整个训练过程采用多示例学习,以包为单位进行训练,每个包中包含的实例拥有相同的实体对和关系标签。地理实体关系抽取系统在上述构建的数据集上进行测试,实验表明当网络深度为15层,包(bag)大小为200,采用选择性注意力机制时,模型效果最优,综合准确率达74%,高于PCNNs模型在本数据集上测试效果。且上述的自动构建知识图谱的系统从功能到性能均符合设计要求。
面向领域知识图谱构建的知识抽取的研究和实现
这是一篇关于知识抽取,知识图谱,命名实体识别,实体关系抽取,多任务学习,多示例学习的论文, 主要内容为随着电网设备故障资料的电子化,与电网设备故障相关的文本数据资源迅速增长。为利用其中的知识,本文拟将电网设备故障领域文本蕴含的知识结构化,构建电网设备故障领域知识图谱。知识抽取是知识图谱的主要构建方法,是从非结构化的文本中提取结构化知识三元组的过程。其中命名实体识别和关系抽取是主要任务。但目前现有命名实体识别模型缺乏对领域的针对性,且大多采用合并预测实体位置和类别的任务构建模式,造成误差积累。在关系抽取任务中,有监督学习模型的训练依赖人工标注数据,但由于领域实体关系标注的专业性,人工成本较高,无法满足需求。针对以上问题,对于命名实体识别任务,本文提出一种基于多任务学习的实体边界感知模型,在任务构建、领域实体信息上利用进行创新。该模型基于多头注意力机制的Transformer,将传统命名实体识别任务分解为实体边界感知任务和实体分类任务,开展多任务学习,减少任务之间的误差积累。本文模型还使用基于领域实体类别综合描述的相似度计算辅助实体分类,实现对领域实体的针对性。并在公开数据集和领域数据集上进行了实验,证明了模型的先进性。对于关系抽取任务,本文提出一种基于多类关系注意力机制的关系抽取模型,以远程监督多示例学习的思想为出发点,减少模型对人工标注的依赖。为提高模型对领域实体关系的针对性,本文引入领域关系特征,并在公开数据集和领域数据集上进行实验,验证了模型的效果。为搭建知识图谱,本文首先对领域实体进行抽取,完善领域词典。之后利用通用知识库和电网标准进行知识对齐,构建领域实体关系数据集,进行关系抽取得到知识集合。最后对结果进行知识融合,实现电网设备故障领域知识图谱的构建、存储和可视化。本文比较了电网设备故障领域知识图谱和通用知识图谱的查询结果,证实该知识图谱在专业性、详细性和领域针对性等方面具有明显的优势。
基于特定示例检测的多示例学习及其在虚拟商品推荐中的应用
这是一篇关于多示例学习,推荐系统,机器学习,数据挖掘的论文, 主要内容为在传统的监督学习研究中,学习对象与标记是一一对应的关系。然而对于现实世界中具有复杂语义的对象来说,其标记往往是弱的或者有歧义的。多示例学习是用来解决这一问题的框架。在多示例学习中,训练集由多个具有概念标记的包组成,每个包由一组示例来表达,而示例并没有对应的明确标记。多示例学习能反映现实任务的复杂性,已被广泛应用在药物分子活性检测、自然场景分类、文本分类和目标检测等领域。以往的多示例学习研究主要关注于区分包的标记而非直接检测包中关键示例,缺乏高效的正示例检测算法。然而在众多的多示例学习技术应用中,什么样的示例触发了相应的标记始终是一个值得关注的问题。例如,游戏道具推荐中,玩家的何种游戏行为触发了道具购买是运营商的关注的重点。本文结合目前存在的一些问题,对多示例学习进行了深入研究,从特定示例检测的角度做了如下工作:1.提出基于近邻重构的正示例检测算法。从多示例学习中经典的多样性密度算法出发,在负示例共享相同性质的假设下,利用负包的近邻负示例重构正包的负示例,通过排除法检测出正包中的正示例。在正示例检测框架下提出两种近邻重构方法,将多示例学习问题转化为简单的二分类问题,然后使用支持向量机算法来求解。通过在药物分子检测、文档分类和图像分类等不同任务上进行实验,验证了算法具有较好的性能和运行效率。2.将多示例学习应用到大规模虚拟商品推荐中。揭示了互联网虚拟商品推荐这一应用和多示例学习假设的特殊联系,即游戏道具推荐包含的复杂上下文相关性、长距离干涉和角色道具优先等问题。使用一种基于标记排序和特定示例侦测的快速多示例多标记学习方法对游戏道具个性化推荐系统进行建模。基于Spark分布式平台实现大规模推荐系统,在真实的游戏道具购买数据上进行实验,结果表明算法能够高效地处理千万级别的样本,且取得优于传统协同过滤算法的效果。
片段选择驱动学习的视频异常检测研究
这是一篇关于监控视频,视频异常检测,样本选择,多示例学习的论文, 主要内容为随着数字信息化、智能化的发展,视频监控技术在智能安防、智能家居和交通监测等领域的应用越来越广泛。视频异常检测是智能视频监控技术的重要组成部分,能够代替人工高效地检测监控视频中的异常片段,是目前学术界和工业界的研究热点。监控视频往往画面相似、场景重复,其中有价值的视频前景和背景片段存在分布不平衡的问题。如何有效地从这样的数据中发现和提取富有表现力和判别力的特征是目前视频异常检测领域的一大研究难点。本文围绕片段选择驱动学习对视频异常检测展开研究,通过选取训练视频中更有意义的片段来进行特征学习和模型优化,使得正常画面与异常画面更加可区分,提高异常检测的准确率。本文的主要工作包括两个部分:(1)针对无监督视频异常检测,提出了一种伪异常片段选择驱动学习的无监督视频异常检测方法。针对视频异常检测无监督训练数据量大、冗余度高等特点,提出了伪异常片段选择驱动学习的训练框架,从原始训练集中迭代地选取部分异常分数高的正常视频帧(记为伪异常帧)来构成新的训练池,用所选训练池优化模型,以精简训练集。在检测模型方面,设计了基于后继帧预测的双路U-Net,以不同采样节奏获取的视频段分别作为两个支路的输入,从而能够从多个粒度上更好地提取和利用视频的时空特征。此外,本文的双路U-Net中每层共享一个记忆模块,通过多层的记忆学习来强化正常模式的影响,抑制异常画面的预测能力。在视频异常检测基准数据集上的实验验证了所提方法在检测精度和训练效率上的有效性。(2)针对弱监督视频异常检测,提出了一种基于代表片段对比学习的弱监督视频异常检测方法。根据现有方法在弱监督设定下对正包中的异常片段定位不准确、使用效率不高的特点,本文提出了腐蚀-膨胀的异常片段选择算法,首先根据阈值大致定位异常片段,然后通过腐蚀操作过滤部分噪声异常片段,再经过膨胀操作保留典型异常片段,从而对异常定位更准确。在此基础上,本方法提出了一种片段对比损失,以典型的异常片段和正常片段来构建正、负匹配对,通过对比学习方法使正常片段和异常片段在特征空间中更加可区分。由于本方法更好地考虑了异常片段的影响,在视频异常检测基准数据集上的展现出优越的性能。值得注意的是,本方法在Shanghai Tech数据集上的误报率降低到了0.02%,超过了当前最优的弱监督视频异常检测方法。
基于EEG信号的轻度抑郁症异常脑拓扑结构研究
这是一篇关于脑电,轻度抑郁症,功能连接,图论,层次聚类,多示例学习的论文, 主要内容为随着计算机与生物信息技术的不断发展,许多研究都试图使用计算机对精神疾病进行辅助诊断,尤其是脑电(Electroencephalogram,EEG)由于其无创伤性、相对低成本、便捷性等优点,被广泛用于抑郁症的识别。然而,目前大多数EEG的抑郁症检测工作都是基于监督学习方法,监督学习需要在训练期间使用特定的标签来识别EEG中的每个示例。通常情况下,基于抑郁症检测的二分类监督学习模型要求在模型初始化前确定所选EEG频段数据以及对其进行标签化处理。然而,由于不同频段的EEG数据包含着许多生理和疾病信息以及动态变化,研究者们很难挑选出能够反映出抑郁程度的频段数据。更重要的是,在目前的方法中,模型的最终预测是通过对被试的所有示例进行平均而得到的分数。然而,深度学习的稳健拟合能力可能会导致没有表现出显著症状的示例对模型性能产生负面影响,从而影响结果。因此,为了解决上述问题,本文首先探讨了轻度抑郁症的异常脑拓扑结构,然后基于研究结果构建出一种针对轻度抑郁症进行辅助诊断的深度神经网络模型。主要工作和创新如下:1.针对轻度抑郁人群功能脑网络研究,本文采用最新的脑功能网络分析方法和层次聚类算法,首次根据视觉搜索范式中的脑电数据系统探索了轻度抑郁症患者的异常脑拓扑结构。行为结果显示,轻度抑郁症组的反应时间明显长于正常对照组。脑功能网络结果表明,两组之间的功能连接存在明显差异,半球间的长距离连接量远大于半球内的短距离连接。尤其在beta频段,轻度抑郁症患者的局部效率(Local Efficiency,LE)和聚类系数(Clustering Coefficient,CC)明显降低,额叶和顶枕叶的聚类结构遭到了破坏,额叶出现大脑不对称情况。此外,左额叶和右顶枕叶之间的长距离连接的功能连接平均值与抑郁症状呈明显的相关性。我们的结果表明,轻度抑郁症患者通过牺牲额叶和顶枕叶区域内的连接来实现两个区域之间的长距离连接,这可能为抑郁症的异常认知处理机制提供了见解。2.针对轻度抑郁症异常脑拓扑结构的多示例学习辅助诊断模型研究,本文基于多示例学习(Multiple Instance Learning,MIL)提出了一个名为CAMMIL(MIL Framework Combining Attention and Max-pooling,CAMMIL)的模型框架,它在示例层层面上使用最大池化层进行捕捉抑郁症状信息,并且在包层层面上使用注意力权重进一步整合每个示例的贡献。此外,本文还提出了一个脑区特征注意力融合CNN模块BRFAFNet(Brain Region Features Attention Fused CNN Net),该网络能够有效地使全脑特征嵌入到每个脑区中。本文的提出的方法达到了85%的准确率(Accuracy,ACC)和84.1%的ROC曲线下面积(Area under ROC Curve,AUC),与目前基于EEG信号的抑郁症检测先进方法相比,准确率最高提升了13.1%。此外本文还对轻度抑郁症识别中的频段选择问题进行了分析,结果发现轻度抑郁患者在beta频段的频段选择上有统计学上的差异。这可能为轻度抑郁症的研究和检测提供新的见解。上述研究表明,轻度抑郁症患者存在牺牲额叶和顶枕叶区域内的连接来实现两个区域之间的长距离连接的异常机制,这或许对抑郁症的异常认知处理机制提供了新的见解。其次本文提出的包含BRFAFNet的CAMMIL模型凭借其主动捕捉反映抑郁症状的频段数据、有效地将全脑特征嵌入到每个脑区特征中以及更高地模型评价指标,或许能够为轻度抑郁检测提供可靠的方法借鉴。另外,本文发现轻度抑郁患者在beta频段的频段选择上有统计学上的差异也具有重要意义。综上,本文发现了轻度抑郁症患者存在异常脑拓扑结构,以及通过该结构建立的CAMMIL模型可以提高轻度抑郁的识别率,为轻度抑郁的检测提供了新的视角。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码工坊 ,原文地址:https://bishedaima.com/lunwen/54492.html