基于GNN的新闻配图物体关系发现机制研究
这是一篇关于图文匹配性检测,图像描述,命名实体,图神经网络的论文, 主要内容为随着互联网的发展,网络已经成为人们日常生活中必不可少的一部分。人们获取新闻时事的主要渠道已经由传统的纸质版媒介转化为以互联网为载体的网络新闻。通常一则网络新闻包括描述时事的新闻文本和直观反映时事的新闻配图。然而有些不良媒体为了谋取高的新闻流量、迎合读者的猎奇心理,刻意给新闻配以与新闻内容无关但很吸引人的配图。如果不及时检测此类新闻,会浪费读者的时间精力、使公众对事实产生误解、误导社会舆论走向,从而破坏网络新闻生态。因此甄别图文不匹配的网络新闻已成为当下亟需解决的社会问题。近年来利用图像描述进行图文匹配性检测的方法取得了一定的进步。然而新闻文本中存在大量的命名实体,现有图像描述方法并不能直接生成带有命名实体的新闻配图描述,这导致新闻文本与新闻配图描述之间存在巨大的语义差异,无法直接使用现有方法检测新闻的图文匹配性。一些研究工作尝试了为图像生成带有命名实体的描述方法,但是缺少分析新闻场景中命名实体之间的关联,因此常常会导致生成的描述中实体关联关系错误。为解决上述问题,提出了基于GNN的新闻配图物体关系发现机制研究,主要工作和创新点如下所述:第一,为了使用新闻的相关文章扩充新闻配图的背景知识,本文构建了TopNews新闻数据集。与其他的新闻数据集不同的是,TopNews新闻数据集中既包含新闻的配图和文本,也包含新闻的相关文章。此外,本文为TopNews数据集人工标注了新闻的图文匹配性,为后续构建新闻知识图谱、分析实体间关联提供了基础。第二,为了准确地发现新闻场景中命名实体之间的关联,本文构建了新闻知识图谱来准确地在新闻场景中刻画命名实体之间的关联,为后续分析实体之间的关联奠定基础。第三,为了分析新闻知识图谱中命名实体之间的全部关联,本文给出了新闻知识图谱驱动的图神经网络(News Knowledge Graph Driven Graph Neural Network,NKD-G NN)。该网络在提取新闻知识图谱的表示向量时,分析了新闻知识图谱中实体间的关联。第四,本文在TopNews新闻数据集上进行了验证。实验结果表明,本文的方法可以有效的甄别新闻的图文匹配性。
基于异质集成学习的多模态表示的研究
这是一篇关于异质堆叠,集成学习,图像描述,多模态表示的论文, 主要内容为随着社会产能的飞速增加,人类进入了信息爆炸的人工智能时代。电商、医疗、交通、物流等具有庞大体量的行业产生了丰富的数据,这引发了数据的时代革命。数据和算法是计算机引领的信息化时代的根本,同时也是作为人工智能核心技术的机器学习和深度学习的基石。本文从机器学习和深度学习出发,主要针对传统机器学习中的异质集成学习以及深度学习中多模态表示的图像描述任务为研究点,主要研究内容如下:堆叠泛化(Stacking)有着与生俱来的高复杂性、“数据泄露”的问题,同时针对不同的数据样本也存在稳定性方面的问题。对此本文提出基于敏感哈希的堆叠算法(LSH-BAG-DAG-Stacking,LBDS),其利用局部敏感哈希(local sensitive hashing,LSH)算法将训练集和测试集映射到哈希桶,当其中某个桶满时作为开始训练条件,训练出的模型对下一次桶满时的训练数据和测试数据及其邻域进行预测,利用稳定性和信息熵条件对基分类器筛选,生成高层数据,最后将高层训练预测得到的结果通过混合投票和平均的方法求得最终分类结果。在若干数据集上验证结果显示,LBDS表现出了更好的稳定性和更强的泛化能力。现在的大多数图像描述模型是平庸普通的,不能根据不同的用户知识经验主动生成其以关注对象为焦点的描述。在这项工作中,本文提出了具有主体意识的异质注意力图像描述(Subjective Consciousness and Heterogeneous Attention,SCHA)结构表示用户“知识经验”,并控制生成的描述内容以及详细程度。SCHA中具有主体意识的先验知识图包含一个由对象、属性、关系三种节点组成的有向图,它从图像抽象而来,没有对应的具体语义。SCHA能够洞悉用户的“知识经验”,从而根据相对应的知识图结构中生成所需的描述。SCHA通过获取不同角度的场景图信息作为“先验知识”,显著提高了描述的层次,同时实现了比在MSCOCO和VisualGenome数据集上精心设计的基线模型更优的精确性和丰富性。最后设计验证算法的仿真系统,系统运行稳定,能够实现算法模型的推理结果,达到了预期的目标,对相关算法类仿真系统的开发和设计有着一定的指导意义。
基于多模态知识图谱的图像描述
这是一篇关于图像描述,小样本学习,知识图谱,目标检测,神经网络的论文, 主要内容为图像描述模型需要识别图像中的对象并给出描述,传统模型可以为训练集中出现过的对象生成良好的描述,结合目标检测器可以进一步描述传统模型无法识别的对象。但要描述目标检测器未见过的对象,就必须再次训练以增加目标检测器可识别对象的类别。为了克服过去图像描述模型对预训练目标检测器的依赖问题,本文提出使用小样本目标检测器来检测待描述图像中的对象,并且结合多模态知识图谱提出了一种新的图像描述模型,无需为识别新对象而再次训练模型,并且利用知识图谱中的语义信息提升描述语句的质量。本课题主要完成了以下研究工作:1)设计实现了一种基于小样本目标检测器和语义信息的图像描述模型。利用小样本目标检测器来检测传统描述模型无法识别的对象,并且给出对象的名称,利用知识图谱来提供这些对象的背景知识,结合这些信息,通过引入注意力机制来引导模型选取合适的单词,进而生成包含这些对象的描述语句。实验结果表明,该模型较基线模型在各项评测标准上均有所提升。2)构建了为图像描述模型提供背景信息的多模态知识图谱。在多模态知识图谱中每个对象包含多张样本图像,并且为每个类别加入相关的三元组信息,通过增加三元组中实体的同义词信息进一步扩大知识图谱的规模。为了充分利用多模态知识图谱中为每个对象提供的多张样本图像,小样本目标检测器会使用这些图像进行检测,根据检测结果中的置信度计算待描述图像中是否包含该对象。根据确定对象类别时所用的样本图像,查找到在多模态知识图谱中相链接的三元组信息,提供给图像描述模型用于生成描述语句。3)设计实现了一种基于多模态知识图谱的图像描述模型。通过扩大样本图像的规模提高了目标检测器的检测能力;结合本文构建的多模态知识图谱,为图像描述模型提供待描述对象的图像特征信息、三元组信息和同义词信息;使用卷积神经网络将多模态知识图谱提供的三种信息进行整合,作为待描述对象的背景知识信息提供给描述生成模块,帮助模型图像的描述。另外,提出了一种新的对图像描述结果进行评价的方法,用来判断模型是否对图像中的重点对象进行了描述。
基于知识增强的图像描述方法研究
这是一篇关于图像描述,图像段落描述,知识增强,深度学习的论文, 主要内容为随着深度学习技术的不断完善与发展,其在计算机视觉、自然语言处理等领域取得了显著的成果。图像理解任务也逐渐由简单的图像标注任务发展为使用完整的自然语言进行描述。图像描述和图像段落描述任务因其跨模态、跨学科的特性在图像理解领域中备受关注。图像描述任务的目标是使用一句话来概括一幅图像中的内容。而图像段落描述任务是为了弥补图像描述任务对于图像细粒度信息缺失问题而出现的进阶任务,其目标是生成一段话描述图像中的内容。使用知识增强的方法可以帮助模型生成更加丰富的语句,因此本文的工作使用知识增强的方法围绕图像描述和图像段落描述任务进行展开。针对图像描述任务,提出了基于知识增强的跨模态交互注意力图像描述模型,主要从两个方面对现有图像描述模型进行改进。首先,图像中占比较小实体对象容易被忽略。由于图像不同模态信息之间存在一定的互补性,因此提出跨模态交互注意力模块(Cross-modal Interactive Attention),利用不同模态之间的信息冗余,对模态特征进行增强,提高小物体注意力。其次,现有模型很难对多个图像区域之间的关系进行知识建模。因此提出了知识增强编码器(Knowledge Augment Encoder),在Transformer的编码器中添加多个知识节点,利用知识节点中的知识特征辅助多图像区域关系建模。本文经过多次试验,分别验证了跨模态交互注意力模块和知识增强编码器的有效性,同时在MSCOCO数据集上进行了广泛的实验,本模型相较于最先进的模型,在BLEU@4、ROUGE指标上有较大提升,分别提升了2.5%和1.7%。针对图像段落描述任务,提出了基于知识图谱和网状语言解码器图像段落描述模型。首先,现阶段模型生成的段落句子主语转换生硬,严重破坏了段落描述的连贯性。本文提出网状语言解码器,增强每个句子之间的上下文联系和生成文本与实际内容的关联,帮助生成段落句子主语之间的平滑过渡并且可以更准确的描述图像中的实体对象。其次是描述单词过于贫乏,导致模型生成段落中使用单词的多样性较差。本文通过引入常识性知识图谱Concept Net进行改善,帮助模型生成更加丰富的词汇,同时本文探索了知识图谱中的知识融入模型的方法。最后,本文经过消融实验证明了每个模块的有效性。本文在Stanford Image-paragraph数据集上达到了先进水平,B@N分数达到了45.76,28.82,17.69,10.53,相较于基准模型提升9.2%。
基于知识图谱的图像描述改进
这是一篇关于图像描述,知识图谱,图像情感色彩,神经网络,逐层训练的论文, 主要内容为人类进入新世纪之后,计算机技术的发展使人类进入了人工智能时代。人工智能技术中最为亮眼的要属计算机视觉、自然语言处理和知识图谱,这几项技术对人类的生活产生了深远的影响。在计算机视觉领域由于卷积神经网络的出现为其带来了新的生机,计算机视觉任务中如图像目标检测、图像分类、图像描述等任务的各项指标也因此得到飞跃。自然语言处理领域由于循环神经网络、Encoder-Decoder的出现为许多不可能的任务带来了可能,他们的出现提升了自然语言处理中机器翻译、问答系统等任务的效果。图像描述任务结合了计算机视觉和自然语言处理两种技术,可以将图像描述应用于医疗领域,使用图像描述帮助医生进行CT、B超等图像的判读,应用于早教领域帮助家长更好的教育孩子。基于Encoder-Decoder框架的图像描述,在Encoder端获取图像中的特征并编码为定长向量,然后使用一个解码网络来生成描述文本,这是一种基于感知的描述,基于感知的图像描述不能准确的获取到图中物品的关系,从而没有办法得到更加完整的信息,并且目前的图像描述算法忽略了图像中所携带的情感信息,从而只是对图像直白的描述。知识图谱是人类部分知识的一个集合,在知识图谱中包含了海量的知识信息,而图像情感识别算法则可以从图像中获取图像的感情色彩,随着知识图谱与图像情感识别算法的发展与应用,将会使感知的图像描述演变为认知的图像描述。本文以Encoder-Decoder为基础,在此之上提出一个新的融合知识和情感的图像描述框架KEC(Knowledge emotional caption,知识情感描述)。在Encoder端对图像进行编码,得到一个定长向量,定长向量的获得通过使用基于VGG16的CNN(Convolutional Neural Networks,卷积神经网络)获取,并且使用 Faster-RCNN获取图像中的目标,接下来将目标输入到使用知识图谱补全算法补全之后的知识图谱中获取关系知识,使用信息增益的方法筛选出唯一的关系知识,同时使用图像情感识别算法获取图像情感色彩。接下来,在Decoder端将上述获取到的中间定长向量通过一个逐层训练的多层Bi-LSTM网络来产生对应图像的描述文本。最后通过实验进行验证,实验结果表明,本文所提出的基于知识图谱的图像描述改进方法在对描述的完整性和准确性都有显著的提高。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码工坊 ,原文地址:https://bishedaima.com/lunwen/54248.html