基于ViT的多视图图像分类方法研究
这是一篇关于多视图,图像分类,视觉Transformer,多头自注意力的论文, 主要内容为在数字科技的推动下,文创产业与人工智能、大数据等数字科技相结合,逐渐形成了数字文创生态。当下,文创产业数字化制造过程需要加强对文化创意设计的保护,创意设计通常是针对立体对象外观而言由多个视图图像描述,由此针对创意设计的多视图图像分类方法的研究应运而生。传统的单视图图像分类方法难以描述立体对象各视图之间的关系,而多视图图像之间往往具有更多的空间位置信息,可以通过利用图像之间的关联关系进行高效分类,因此如何有效的识别并分类出多视图图像对应的物体是一项值得研究的课题。本文从多视图图像分类方法进行展开研究,论文主要工作有以下几个方面:(1)本文在基于多头自注意力的多视图图像分类方法中,首先提出了一种基于视图的自注意多视图卷积神经网络(Multi-View Convolutional Neural Network based on SelfAttention,MVCNN-SA),通过利用视觉Transformer(ViT)模型中的多头注意力机制评估不同视图之间的相关性,构建单独使用多头自注意力模块的网络模型。然后提出了一种基于深度卷积ViT多视图图像分类模型(Multi-view image classification model based on depth-wise convolution Vision Transformer,MViT),通过利用ViT架构及其多头注意力具有捕获全局特征的特性,解决了关于CNN多视图分类模型难以感知图像间的空间位置关系问题。同时由于ViT缺乏归纳偏置,导致对图像块的局部特征捕捉能力较差,通过在模块中引入深度卷积机制构造基于深度卷积的ViT模块DViT(Depth-wise convolution ViT module)捕捉其局部特性。为了进一步扩大不同样本的间距,缩小同一类样本的特征表达间的间距,引入了对比损失,从而进一步改善模型的分类效果。(2)本文在基于小波变换与全局滤波模块的多视图图像分类方法中,首先提出了一种基于全局滤波模块的ViT多视图分类模型(Multi-view image classification model based on the Global filtering Vision Transformer,MGViT),通过利用傅里叶变换能够学习频域中空间位置间相互作用的特性设计了一种全局滤波模块,利用位置编码和作用在频域上的傅里叶变换挖掘图像内部长距离依赖关系,遵循ViT没有设置归纳偏差的原则,将模型复杂度降低到对数线性复杂性。然后提出了一种联合小波变换的ViT多视图图像分类模型(Multi-view image classification model with joint Wavelet-mix Vision Transformer,MWViT),利用小波分解具有下采样的特性,实现特征图池化,从而能够有效减少特征信息的丢失,混合小波模块将小波分解的三个细节高频分量进行拼接融合再与低频分量拼接,最后在MGViT模型基础上通过融合策略实现整体模型同时能够学习空域特征和频域特征。本文实验在公开数据集Model Net40/10以及广东省知识产权大数据重点实验室的外观设计专利数据集Patent-MNIST上进行了分类任务和消融实验,结果表明了本文方法的有效性。
基于ViT的多视图图像分类方法研究
这是一篇关于多视图,图像分类,视觉Transformer,多头自注意力的论文, 主要内容为在数字科技的推动下,文创产业与人工智能、大数据等数字科技相结合,逐渐形成了数字文创生态。当下,文创产业数字化制造过程需要加强对文化创意设计的保护,创意设计通常是针对立体对象外观而言由多个视图图像描述,由此针对创意设计的多视图图像分类方法的研究应运而生。传统的单视图图像分类方法难以描述立体对象各视图之间的关系,而多视图图像之间往往具有更多的空间位置信息,可以通过利用图像之间的关联关系进行高效分类,因此如何有效的识别并分类出多视图图像对应的物体是一项值得研究的课题。本文从多视图图像分类方法进行展开研究,论文主要工作有以下几个方面:(1)本文在基于多头自注意力的多视图图像分类方法中,首先提出了一种基于视图的自注意多视图卷积神经网络(Multi-View Convolutional Neural Network based on SelfAttention,MVCNN-SA),通过利用视觉Transformer(ViT)模型中的多头注意力机制评估不同视图之间的相关性,构建单独使用多头自注意力模块的网络模型。然后提出了一种基于深度卷积ViT多视图图像分类模型(Multi-view image classification model based on depth-wise convolution Vision Transformer,MViT),通过利用ViT架构及其多头注意力具有捕获全局特征的特性,解决了关于CNN多视图分类模型难以感知图像间的空间位置关系问题。同时由于ViT缺乏归纳偏置,导致对图像块的局部特征捕捉能力较差,通过在模块中引入深度卷积机制构造基于深度卷积的ViT模块DViT(Depth-wise convolution ViT module)捕捉其局部特性。为了进一步扩大不同样本的间距,缩小同一类样本的特征表达间的间距,引入了对比损失,从而进一步改善模型的分类效果。(2)本文在基于小波变换与全局滤波模块的多视图图像分类方法中,首先提出了一种基于全局滤波模块的ViT多视图分类模型(Multi-view image classification model based on the Global filtering Vision Transformer,MGViT),通过利用傅里叶变换能够学习频域中空间位置间相互作用的特性设计了一种全局滤波模块,利用位置编码和作用在频域上的傅里叶变换挖掘图像内部长距离依赖关系,遵循ViT没有设置归纳偏差的原则,将模型复杂度降低到对数线性复杂性。然后提出了一种联合小波变换的ViT多视图图像分类模型(Multi-view image classification model with joint Wavelet-mix Vision Transformer,MWViT),利用小波分解具有下采样的特性,实现特征图池化,从而能够有效减少特征信息的丢失,混合小波模块将小波分解的三个细节高频分量进行拼接融合再与低频分量拼接,最后在MGViT模型基础上通过融合策略实现整体模型同时能够学习空域特征和频域特征。本文实验在公开数据集Model Net40/10以及广东省知识产权大数据重点实验室的外观设计专利数据集Patent-MNIST上进行了分类任务和消融实验,结果表明了本文方法的有效性。
基于多视图的图表示学习推荐系统研究
这是一篇关于推荐系统,图神经网络,多视图,注意力机制,图卷积的论文, 主要内容为随着信息技术与互联网应用的发展与普及,现代社会进入了信息过载的时代。爆炸式的信息增长和用户增长导致信息生产者很难将准确的信息推送给需要的用户,用户也难以在海量信息中选择出对自己有用的资料。面对巨大的信息鸿沟和信息需求,推荐系统应运而生。推荐系统对信息进行过滤,学习用户以往的行为习惯,为用户提供符合其偏好的个性化内容。针对现有推荐系统的研究,本文做出了以下探索:(1)典型的基于协同过滤的推荐算法基于欧几里得空间结构,难以充分挖掘节点的属性信息及结构关系信息。推荐系统中数据是非结构化的交互数据,天然符合图数据结构,近年来图神经网络在推荐方面获得广泛应用。图神经网络的架构关键在于构建信息传递机制的邻域聚合信息器,从而将图中节点映射为富有信息表征的低维向量。传统的信息传递网络需要叠加多层聚合网络才能获得高阶交互特征,这导致训练过程不易收敛,难以在大规模数据集上推广应用。本文提出了一种基于极限图卷积的注意力机制推荐模型。该模型利用极限图卷积算法充分挖掘用户-项目交互图中的数据关系,从多个视图中提取高阶交互嵌入表征,然后通过注意力机制对信息进行加权聚合,提高了推荐结果的精度和多样性。本文在三个真实的数据集上与相关算法进行对比实验,实验证明该算法的性能优于现有模型。(2)推荐系统中的很多数据包含很多图结构信息,使得图神经网络(GNNs)在推荐系统中的应用越来越广泛。当前的研究很多研究工作主要通过多层图神经网络实现消息的层层传递,提取用户-项目二部图上高阶交互信息。这类图是没有方向信息和符号信息的简单图,信息基于一阶邻域聚合信息,即中心节点与相邻接点直接聚合。这方面研究比较突出的应用成果为图注意力模型(GAT)。然而GAT模型是为了将注意力机制推广到用户-项目交互图上的,对于关系为负的交互没有设计聚合模式,同样对于方向性信息没有有效信息的表征方式。随着抖音、小红书等带有社交网络功能的互联网应用的蓬勃发展,用户对社交网络型互联网应用数据越来越带有社会关系属性和个人好恶偏好属性。这使得推荐系统的数据结构需要利用带符号和方向的图结构才能全面表示数据信息。本文根据社会学理论,对社交网络中的社会关系和个人偏好进行选择性建模,提出了SDMV(Signed Directed graph based Multi-View learning for recommendation)模型。该模型从多视图视角,对交互节点间符号信息、交互的方向信息及稳态三角形模型分别建模,充分挖掘数据集中的结构关系,同时剔除了容易带来噪音干扰的不稳定状态。本文选择三个常用数据集进行实验,结果显示SDMV表现优于现有的相关模型。
基于多模态信息融合的移动群智感知任务推荐方法
这是一篇关于移动群智感知,任务推荐,多模态,多视图,可变信息瓶颈的论文, 主要内容为随着智能移动终端、无线传感网络等的飞速发展,移动群智感知系统正在被大规模推送部署,相关应用也愈发契合人们的日常生活环境。作为近年来涌现出的新型感知范式,它将用户的智能手机、平板电脑、运动手表等随身携带的移动设备作为基本感知单元,利用这些感知节点的内置传感器,形成大型交互式的、参与式的感知网络,通过广大用户的参与收集周围环境的感知数据,是群体智慧在移动数据感知领域的具体体现。相比于传统无线传感器网络,移动群智感知系统收集到的数据更具多模态、时效性和时空性。任务推荐作为移动群智感知相关研究中的核心模块,主要研究如何有效利用用户特征为用户推荐适宜的感知任务,从而提高用户满意度,最大化感知数据质量,优化感知过程,继而使移动群智感知系统得以普及。所以,本文研究了移动群智感知中的任务推荐方法,主要研究成果如下:1.提出一种基于异质多模态特征及决策融合的移动群智感知任务推荐方法。首先,根据用户历史任务集中文本和图像模态数据的内容特征,构造任务-任务相似性矩阵,实现多模态特征维度和语义维度上的对齐。然后,利用改进的相似性网络融合算法将多个内容相似性网络有效融合成一个相似性网络,结合遗忘定律更新用户的偏好模式,过滤掉已发生兴趣迁移的任务。最后,对迭代更新后的相似性网络进行聚类,以预测用户对新发布任务的现时偏好。依据不同数据集上的实验结果表明,该方法可以提高任务分配的准确率和效率,不止于此,该方法还能提升推荐系统的鲁棒性。2.提出一种基于多视图用户动态行为预测的移动群智感知任务推荐方法。首先,从多视图行为序列出发,采用注意力机制,根据社交影响力的强弱,为不同的用户个体行为设定不同的权重,计算群用户行为在不同时间粒度下的聚合表示。然后,利用记忆神经网络融合单个用户多尺度行为序列与群用户多尺度行为序列,提取单用户多视图嵌入行为序列特征。最后,通过多标签预测,获取用户对多种感知行为的偏好概率,同步预测用户对感知任务类型的多方面偏好。综合多个数据集的实验结果,证实该方法与其他基线方法相比,有效地降低了感知成本,与此同时可以有效应对冷启动问题。3.提出一种基于可变信息瓶颈的多领域协同移动群智感知任务推荐方法。首先,通过变分二分图编码器,聚集同类邻居的同质信息,并生成平台各自的用户/项目潜在变量表示。然后,借助可变信息瓶颈正则化器整合多领域的各种表征,减少数据中多余信息的影响,将跨域的用户-项目交互表示从其源领域去噪。最后,利用重叠用户信息正则化器,细化重叠用户的表示,进一步捕获来自两个平台的域共享信息,完成两个领域之间的联合建模,最终实现跨域任务推荐。仿真实验结果表明,该方法在感知任务覆盖率和感知用户满意度方面的表现胜于其他基线方法。
基于三维重建的柑橘冠层特征检测系统设计与实现
这是一篇关于冠层特征检测,深度图估计,三维重建,多视图的论文, 主要内容为柑橘树的冠层特征检测是柑橘树生产、育种和管理环节中的关键任务,与柑橘树的水肥浇灌、墒情检测、果树育种和产值预估等果园精细化管理项目有着不可分割的关系,是果树检测的主要研究方向。柑橘冠层特征的精准检测是当前柑橘果园智能化和农业建设可持续的关键问题。传统的柑橘树冠层特征检测方式仍然以人工测量居多,其人力成本高、消耗时间长且检测结果可能存在较大误差。近年来,许多研究者将检测的方向聚焦于激光雷达和声波雷达,利用雷达采集的深度图进行点云配准,重建目标三维模型。虽然取得了一定的成效,但是激光探测雷达也存在着存储数据量大、设备体积庞大、不易携带以及造价成本高的缺陷,无法广泛用于柑橘冠层特征检测。现有的基于视觉的重建技术有效地提供了一个高效、实用且低成本的重建果树三维数字模型的方法。发展至今,重建的精度和完整度以及算法本身的可靠度依然密切影响着冠层特征检测结果的优劣。在三维重建领域中,很多研究都致力于提高重建模型的精度和完整度,使其数字化模型更加接近于源目标物体。但是,在互联网和计算机的发展日新月异,产品更迭层出不穷的时代,仍然有大量的程序和理论算法会受到计算机内存和算力的限制,很难呈现出预期的效果。由于三维数据的存储消耗是二维数据的几何级数,重建算法正受到硬件设备的限制。因此,在重建的过程中,其模型的内存占用率也将是需要考量的因素。针对三维重建精度问题和内存消耗矛盾,本文对现有三维重建算法进行充分研究,采用新的OctConv方式和增加特征约束一致性的策略对多视图几何算法进行优化和改进,在低内存消耗的前提下预估更精准的目标视角深度图。同时根据软件工程的开发流程,设计并实现一个在线柑橘特征检测系统。综上所述,本文的主要研究工作包括:(1)针对现有基于深度学习的多视图几何算法存在的图像2D特征提取和成本体积3D正则化时GPU内存占用高的问题,本文提出一种基于OctConv的多视图深度估计算法(简记为OCT-MVSNet)。OCT-MVSNet算法在图像2D特征提取以及对成本体积进行正则化后,将特征的高频和低频信息进行分离,通过压缩低频信息的占比来减小内存的开销。其次,针对现有的颜色一致性歧义问题,OCT-MVSNet 算法引入特征一致性约束,降低颜色一致性带来的误差,提高模型的鲁棒性。并在DTU数据集和Tanks and Temples数据集中验证了 OCT-MVSNet算法在重建精度、重建完成度和GPU内存占用的有效性。(2)基于软件工程的思想设计并实现以OCT-MVSNet模型为基础的柑橘冠层特征检测系统。该系统采用微服务架构实现,采用前后端分离策略,结合Vue前端开发框架完成开发。利用Nest-microservice解决方案的微服务架构将整体系统拆分为多个微服务,可以很好地解决高并发进程和系统迭代带来的问题,降低模块耦合性。融合OCT-MVSNet算法的特征检测系统功能包括果树深度图估计、深度图点云配准、点云网格化、冠层特征检测和辅助决策等,达到辅助研究员和果农进行水肥浇灌和早期果树估产的目的。最后,本文从功能性测试和性能测试的视角对系统进行测试。验证了系统需求分析的准确性以及系统实现的稳定性。
基于图卷积网络的半监督图分类研究
这是一篇关于图卷积网络,图学习,低秩学习,稀疏学习,多视图的论文, 主要内容为图作为一种无处不在的数据结构,因其强大的表示能力,广泛存在于社交网络、推荐系统、生物化学和金融系统等领域中。由于这些图数据中往往存储着很多有价值的信息,不少学者进行图数据研究以探索数据中的重要信息,其中节点分类是图数据研究中的一项热门任务。例如,在蛋白质分子网络中,通过分析蛋白质网络的相互关系进行分类学习,从而得到蛋白质的相关性质。这不仅有利于理解蛋白质的特性,而且对生物制药,农林科技等领域同样具有指导意义。然而,现如今数据以几何速度增长,数据中存在着大量未标记的节点,采用有监督学习较为困难。早期利用专家的先验知识进行人工数据标记,但标记大量数据的代价较大,并且费时费力,因此学者们提出了半监督学习。不同于监督学习和无监督学习,半监督学习在保证模型良好的泛化能力的基础上解决了标记数据大量缺少的问题,同时提升了人工标记的效率和模型学习性能。如何利用现有的半监督分类学习模型对图网络中的未标记节点进行分类预测成为热点话题。随着深度学习的快速发展,图卷积网络成为处理图上不规则结构数据的有力工具,在节点分类等图表示学习任务上取得了令人满意的效果。本文通过对已有的图卷积网络算法和半监督学习算法进行分析发现,在半监督图卷积网络中,图结构用于指导图卷积运算。在图结构不准确甚至是不可用的情况下,可以从数据中推断或学习图结构用于指导后续的卷积操作。但是现有的研究常基于简单距离度量来构造图结构(例如k-近邻图),简单的图结构不一定能充分挖掘节点之间的相似关系导致节点分类任务性能较差。因此,本文将针对现有图卷积网络模型在图结构上存在的问题,基于自适应图学习,低秩学习、稀疏学习和多视图学习提出两种生成高质量图结构的方法,并用于图卷积网络作半监督分类。主要内容如下:(1)基于超图的半监督学习图卷积网络。现有的图卷积网络大多忽略图结构的质量,从而导致分类性能不理想。针对这个问题,本文提出一种新的图学习方法来输出高质量的图结构。首先,采用自适应图学习获取数据内在的低层相关性,并从超图中学习更有价值的高层相关性。然后,将稀疏学习和低秩约束分别与图学习相结合,去除冗余信息。最后得到一个紧凑的图结构以促进图卷积网络的信息聚合。实验结果表明,本文提出的图学习方法能够显著提高图卷积网络的半监督分类性能。(2)基于多视图学习的图卷积网络半监督分类。一般情况下,图卷积网络仅利用单一视图来指导图卷积运算,但单视图只考虑视图内的结构信息,而没有充分利用到不同视图间的相关信息。针对这个问题,本文提出一种基于多视图学习的图卷积网络半监督分类方法。首先,采用多视图学习,同时结合低秩约束降低数据的冗余信息带来的影响,从多视图数据中学习一个共享的高质量图结构,最后将该图结构输入到图卷积网络作半监督分类。实验结果表明,本文提出的多视图学习方法在图卷积网络的半监督分类任务上优于其它对比方法。针对现有的图卷积网络大多忽略图结构质量这个问题,本文对图学习方法进行了改进,并将半监督分类算法作为实验的评估途径。实验结果表明本文提出的图学习方法在图卷积网络的半监督分类性能上优于选取的对比方法。在未来的工作中,将考虑探索如何动态地进行图学习,同时将图卷积集成到一个统一的框架中进行学习,从而获得更优的图结构。此外,还将探索不同多图融合的方法对半监督图卷积网络模型中图结构质量的影响。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设项目助手 ,原文地址:https://bishedaima.com/lunwen/46797.html