基于改进邻域熵的高光谱波段选择算法研究
这是一篇关于波段选择,高光谱图像,邻域熵,近似最近邻搜索,量子樽海鞘群算法的论文, 主要内容为通过遥感技术发送上百个连续波段,采集目标的光谱信息,使得高光谱图像具有纳米级别的光谱分辨率。随着传感器的不断发展,该技术在地质勘探、农业生产以及医疗等领域都有广泛的应用。高维度和极高的空间分辨率带来的空间复杂度、数据冗余等问题,是高光谱图像数据在实际应用中的主要挑战。高光谱图像波段选择算法旨在通过波段选择算法,减少数据集中的冗余波段信息,是提升图像数据后续应用的有效预处理方案。波段选择算法保留了数据集的光谱信息,是一种广泛研究的降维策略。本文研究了一种基于互信息(Mutual Information,MI)理论的波段选择算法,称为邻域熵(Neighborhood Entropy,NE)。之前相关研究中,邻域集合的计算采用暴力搜索,高光谱数据集的高空间分辨率导致搜索效率成为算法的瓶颈。针对上述问题,本文以近似最近邻搜索(Approximate Nearest Neighborhood Searching,ANNS)策略为基础,提出了一种改进的NE波段选择算法。针对樽海鞘群算法(Salp Swarm Algorithm,SSA)的搜索效率以及种群多样性问题,提出了一种基于量子樽海鞘群算法(Quantum Salp Swarm Algorithm,QSSA)的波段选择算法,采用混沌映射提升种群多样性,将算法二进制化并将NE引入适应度函数。最后根据波段选择任务的需求分析,设计并实现了波段选择系统,将本文提出的改进算法应用到该系统。本文的主要内容如下:1.对于高光谱数据集,针对NE计算邻域集合效率较低的问题,采用基于局部敏感哈希(Local Sensitive Hashing,LSH)的ANNS搜索策略。分析了LSH参数选取的可行方案,通过实验数据集验证,确定了参数选取的范围。以往LSH在波段集合改变的情况下,需要重复构建数据集的索引。利用高光谱图像数据集的空间特性,本文设计了一种基于单次索引的LSH。实验采用了两种不同传感器采集的高光谱图像数据集,将提出的算法与其它基于MI的波段选择算法进行对比。实验结果表明,在波段个数较小的集合,本文提出的算法在总体精度和Kappa系数上,优于其它算法。2.针对SSA收敛速度慢,易陷入局部解等问题,本文采用种群编码二进制化、混沌映射以及在适应度函数中引入NE对QSSA算法进行改进,以提升算法的搜索性能、种群多样性以及解的可行性。其中结合NE可以评价选取波段和真实地物之间的相关程度。本文算法与二进制蝙蝠算法、二进制灰狼算法、引力搜索算法、粒子群算法以及鲸鱼优化算法进行了实验对比,从收敛速率以及全局搜索能力上体现了该算法的有效性。3.分析了波段选择算法的系统需求,构建了基于B/S架构的特征选择系统,并将提出的算法嵌入到系统中。该系统包括用户管理模块、波段选择算法模块以及分类实验模块组成的波段选择算法系统。最后对系统的主要功能模块进行了测试和界面展示。
基于可导航小世界图的近似最近邻算法研究及应用
这是一篇关于近似最近邻搜索,分层可导航小世界图,多属性,标量量化的论文, 主要内容为大数据时代,搜索效率对于图像检索、机器学习、推荐系统、语义文档检索等领域具有重要意义。近年来,基于近邻图的近似最近邻搜索方法(ANNS)相对于基于树、哈希、量化的ANNS具有更高的查询效率,引起了业界的特别关注。基于近邻图的近似最近邻搜索方法有可导航小世界图(NSW)、分层可导航小世界图(HNSW)、NSG等,其中分层可导航小世界图(HNSW)通过采用长距离边缩放和类似于跳表的分层结构表现出突出性能,成为该领域的一个主要研究和比较方法。但是HNSW存在以下几方面的不足:(1)不易进行分布式部署,难以实际应用于大规模数据搜索硬件资源;(2)采用的贪婪算法存在陷入局部最优的问题;(3)不支持动态多属性过滤搜索;(4)由于多层图结构以及连边策略存在搜索时内存开销大的问题。本文将针对HNSW存在的上述不足进行如下研究:(1)研究提出一种基于子图划分的分层可导航小世界图方法GP-HNSW,可支持分布式存储和查询,同时也一定程度优化了 HNSW可能陷入局部最优的问题。基于聚类方法将数据集划分为多个子集,每个子集采用HNSW图结构组织数据并可独立存储;(2)提出了基于子图划分的一种多属性NSW方法MA-NSW,解决了 NSW和HNSW搜索时不能进行动态多属性过滤的问题。MA-NSW通过导航树和多个叠加层相结合的方式构建索引,将特定属性过滤的近似最近邻搜索导向到对应的叠加层;(3)针对MA-NSW内存开销过大问题,提出一种量化编码优化方法SQMA-NSW,实验表明有很好的压缩效果。上述研究成果通过实验验证了比HNSW更为优越的查询速度和召回率,同时还支持动态并行增删结点的易维护优点。最后,基于上述研究成果设计和实现了一个大规模科技文档语义搜索平台,实现了根据多属性筛选和文本内容快速搜索相关文档的功能,验证了研究成果的有效性。本文的研究将对近似最近邻搜索方法的研究和应用提供很好的参考意义。
基于IVF-HNSW的适应性最近邻搜索算法研究
这是一篇关于近似最近邻搜索,倒排索引,图索引,适应性搜索的论文, 主要内容为最近邻搜索起源于文档检索领域,用于查找相似的文档。随着信息以及检索需求的发展,最近邻搜索逐渐被应用到更多领域,包括数据库系统、图像搜索,推荐系统等,用于检索与给定数据最相似的结果。然而随着网络时代的迅速发展,数据的规模不断增加,从几百万增加到几千万,甚至增加到十亿级别,无疑为最近邻搜索带来了巨大的挑战。而近似最近邻搜索算法针对海量、高维数据,在牺牲一定准确度的情况下,提高检索效率,并且由于其检索速度快、占用内存小的特点被广泛运用。因此近似最近邻搜索逐渐代替精确最近邻搜索,成为检索信息的必要手段之一。在近似最近邻搜索领域,加快搜索速度的手段包括构建倒排索引和图索引。在利用倒排索引的搜索算法中,查询点仅搜索最接近的一类数据,从而降低需要检索的数据点的数量;图索引利用数据间的近邻关系构建近邻图,在搜索时能够快速找到查询点的最近邻。但是,目前在基于倒排索引和图索引结构的近似最近邻搜索算法中,由于所有查询点使用固定的终止条件,使得某些查询点在搜索路径上访问了不必要的数据点,从而导致平均搜索时间增加,搜索性能下降。因此本文针对公开发布的四个十亿规模数据集,在IVF-HNSW算法的索引结构上,分析了所有数据点的终止条件,提出了基于查询向量特征和k-means特征的适应性搜索算法,根据数据的特征和真实最小访问点个数建立和训练神经网络回归模型,通过模型动态预测每个查询点在IVF中需要搜索的倒排列表的个数,进而降低总体搜索所需要的查询时间。本文的主要贡献如下:(1)通过查询向量特征预测数据点的终止条件。基于查询向量特征的适应性搜索算法首先需要收集训练样本,模型输入数据采用训练数据本身,输出数据为训练数据在索引结构中真实的最小访问点个数;其次利用训练数据训练神经网络回归模型;最后根据神经网络回归模型预测查询向量的终止条件,从而加快搜索速度,实现更高效的查询。(2)通过k-means特征预测数据点的终止条件。基于k-means特征的适应性搜索算法首先通过k-means方法将训练数据进行聚类,并将数据点到其第5、10、15、20个等聚类中心的距离和数据点到其第1个最近聚类中心的距离的比值作为k-means特征;其次分别将k-means特征和最小访问点数量作为输入数据和输出数据训练神经网络回归模型;最后根据查询向量的k-means特征,离线预测其终止条件,并实现适应性搜索,使得每个数据点在相应的终止条件下停止搜索,从而减少了不必要的搜索时间。(3)本文在四个公开的十亿规模数据集上进行了实验,对提出的两种算法进行了充分的验证。实验结果表明,基于查询向量特征和基于k-means特征的适应性搜索算法和基准算法相比,在相同召回率下,平均搜索时间最高分别可降低16.49%和26.9%,充分证明了利用查询向量特征和k-means特征预测终止条件的有效性。
基于IVF-HNSW的适应性最近邻搜索算法研究
这是一篇关于近似最近邻搜索,倒排索引,图索引,适应性搜索的论文, 主要内容为最近邻搜索起源于文档检索领域,用于查找相似的文档。随着信息以及检索需求的发展,最近邻搜索逐渐被应用到更多领域,包括数据库系统、图像搜索,推荐系统等,用于检索与给定数据最相似的结果。然而随着网络时代的迅速发展,数据的规模不断增加,从几百万增加到几千万,甚至增加到十亿级别,无疑为最近邻搜索带来了巨大的挑战。而近似最近邻搜索算法针对海量、高维数据,在牺牲一定准确度的情况下,提高检索效率,并且由于其检索速度快、占用内存小的特点被广泛运用。因此近似最近邻搜索逐渐代替精确最近邻搜索,成为检索信息的必要手段之一。在近似最近邻搜索领域,加快搜索速度的手段包括构建倒排索引和图索引。在利用倒排索引的搜索算法中,查询点仅搜索最接近的一类数据,从而降低需要检索的数据点的数量;图索引利用数据间的近邻关系构建近邻图,在搜索时能够快速找到查询点的最近邻。但是,目前在基于倒排索引和图索引结构的近似最近邻搜索算法中,由于所有查询点使用固定的终止条件,使得某些查询点在搜索路径上访问了不必要的数据点,从而导致平均搜索时间增加,搜索性能下降。因此本文针对公开发布的四个十亿规模数据集,在IVF-HNSW算法的索引结构上,分析了所有数据点的终止条件,提出了基于查询向量特征和k-means特征的适应性搜索算法,根据数据的特征和真实最小访问点个数建立和训练神经网络回归模型,通过模型动态预测每个查询点在IVF中需要搜索的倒排列表的个数,进而降低总体搜索所需要的查询时间。本文的主要贡献如下:(1)通过查询向量特征预测数据点的终止条件。基于查询向量特征的适应性搜索算法首先需要收集训练样本,模型输入数据采用训练数据本身,输出数据为训练数据在索引结构中真实的最小访问点个数;其次利用训练数据训练神经网络回归模型;最后根据神经网络回归模型预测查询向量的终止条件,从而加快搜索速度,实现更高效的查询。(2)通过k-means特征预测数据点的终止条件。基于k-means特征的适应性搜索算法首先通过k-means方法将训练数据进行聚类,并将数据点到其第5、10、15、20个等聚类中心的距离和数据点到其第1个最近聚类中心的距离的比值作为k-means特征;其次分别将k-means特征和最小访问点数量作为输入数据和输出数据训练神经网络回归模型;最后根据查询向量的k-means特征,离线预测其终止条件,并实现适应性搜索,使得每个数据点在相应的终止条件下停止搜索,从而减少了不必要的搜索时间。(3)本文在四个公开的十亿规模数据集上进行了实验,对提出的两种算法进行了充分的验证。实验结果表明,基于查询向量特征和基于k-means特征的适应性搜索算法和基准算法相比,在相同召回率下,平均搜索时间最高分别可降低16.49%和26.9%,充分证明了利用查询向量特征和k-means特征预测终止条件的有效性。
基于可导航小世界图的近似最近邻算法研究及应用
这是一篇关于近似最近邻搜索,分层可导航小世界图,多属性,标量量化的论文, 主要内容为大数据时代,搜索效率对于图像检索、机器学习、推荐系统、语义文档检索等领域具有重要意义。近年来,基于近邻图的近似最近邻搜索方法(ANNS)相对于基于树、哈希、量化的ANNS具有更高的查询效率,引起了业界的特别关注。基于近邻图的近似最近邻搜索方法有可导航小世界图(NSW)、分层可导航小世界图(HNSW)、NSG等,其中分层可导航小世界图(HNSW)通过采用长距离边缩放和类似于跳表的分层结构表现出突出性能,成为该领域的一个主要研究和比较方法。但是HNSW存在以下几方面的不足:(1)不易进行分布式部署,难以实际应用于大规模数据搜索硬件资源;(2)采用的贪婪算法存在陷入局部最优的问题;(3)不支持动态多属性过滤搜索;(4)由于多层图结构以及连边策略存在搜索时内存开销大的问题。本文将针对HNSW存在的上述不足进行如下研究:(1)研究提出一种基于子图划分的分层可导航小世界图方法GP-HNSW,可支持分布式存储和查询,同时也一定程度优化了 HNSW可能陷入局部最优的问题。基于聚类方法将数据集划分为多个子集,每个子集采用HNSW图结构组织数据并可独立存储;(2)提出了基于子图划分的一种多属性NSW方法MA-NSW,解决了 NSW和HNSW搜索时不能进行动态多属性过滤的问题。MA-NSW通过导航树和多个叠加层相结合的方式构建索引,将特定属性过滤的近似最近邻搜索导向到对应的叠加层;(3)针对MA-NSW内存开销过大问题,提出一种量化编码优化方法SQMA-NSW,实验表明有很好的压缩效果。上述研究成果通过实验验证了比HNSW更为优越的查询速度和召回率,同时还支持动态并行增删结点的易维护优点。最后,基于上述研究成果设计和实现了一个大规模科技文档语义搜索平台,实现了根据多属性筛选和文本内容快速搜索相关文档的功能,验证了研究成果的有效性。本文的研究将对近似最近邻搜索方法的研究和应用提供很好的参考意义。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码驿站 ,原文地址:https://bishedaima.com/lunwen/56167.html