面向协同过滤集成的哈希学习方法研究
这是一篇关于推荐系统,协同过滤,哈希学习,自动编码器,边信息,离散优化的论文, 主要内容为随着网络服务的迅速发展,推荐系统在帮助人们高效利用各种信息方面扮演着越来越重要的角色。协同过滤推荐是构建和实现推荐系统的重要技术手段之一,其主要根据用户对物品的历史评分记录完成个性化推荐。但是,与之前相比,如今网络服务中用户和物品数量与日俱增,进而导致效率问题日趋成为阻碍推荐系统进一步发展的技术瓶颈。目前,常见的方法就是在协同过滤推荐中利用哈希算法将用户和物品的特征表示转换为二值编码,据此就可以在海明空间进行快速高效的推荐。然而,现有的一些协同过滤哈希学习算法由于对连续向量空间的数据几何建模过于简化且采用“两阶段”学习模式,这种处理方式通常会产生很大的编码损失,使得此类方法不得不采用较长的编码位数弥补损失,而长编码又会造成额外的开销,这与先前采用哈希算法寻求便捷高效的推荐动机背道而驰。有鉴于此,本文针对如何在协同过滤推荐中学习高质量的二值编码展开了深入的分析和讨论,具体内容如下:(1)针对由于对原空间数据建模过于简化所导致的较大编码损失,本文提出了一个二值协同过滤集成算法,该算法通过在海明空间的矩阵分解模型的基础上加入了基于用户和物品的锚点近似平滑约束项,使原始连续向量空间数据的近邻结构能被更好地存储在海明空间的二值编码中。针对两阶段方法的弊端,本文提出了一个类离散优化方法,将量化阶段集成在优化过程中,尽可能地避免了优化过程中的编码损失。(2)针对仅使用历史评分数据的局限性,为了在二值编码中存储更多原空间中重要的信息,本文利用自动编码器对评分信息及边信息进行联合特征表示学习,用其辅助后续二值编码学习。(3)针对用户和物品特征表示的独特性,本文在二值协同过滤集成框架中融入了个体特征的平滑约束项,使得所学二值表示能够在保持结构特性的基础上不失自身的独特性。针对类离散优化的局限性,本文进一步提出了离散优化的解决方案,使得所提算法能够直接学习更短的二值编码,从根本上避免优化损失。通过在三个公开数据集上进行实验,证明了所提出的多种二值协同过滤集成方法较之于现有的协同过滤哈希算法能够得到质量更高的二值编码,与此同时还能进行更为高效、准确的个性化推荐。
基于哈希学习和时间上下文的推荐算法研究
这是一篇关于推荐算法,哈希学习,电影推荐系统,时间上下文的论文, 主要内容为随着科学技术的不断进步,人们已经开启Web2.0时代,随之而来的“信息过载”和“信息爆炸”问题也越来越严重,并且如电商平台等以盈利为目的的网站,存在着经济学中“长尾理论”的现象,即80%的盈利来源于20%的热门商品,但是剩下的80%商品拥有巨大的商业价值,如何将剩余的80%商品推荐给需要的人是解决这一问题的关键。海量的数据使人们需要花费大量的时间和精力去寻找自己所需要的信息,而推荐系统的出现大大地缓解了这一难题。推荐系统通过收集用户的历史行为或者用户的兴趣偏好经过推荐算法的计算来产生用户可能感兴趣的项目列表,在人们没有明确目的或者目的模糊的情况下,推送给用户可能需要的信息。但是推荐系统仍然存在着新用户或者新项目的冷启动问题、准确率问题以及大数据下实时性的问题。本文作者通过大量阅读、收集整理推荐系统相关知识,较为全面地介绍了推荐系统的基本理论知识,阐述了论文的研究意义和国内外的研究现状,针对现有推荐算法中的某些问题与不足进行了探究。本文的主要研究成果如下:首先,针对现有基于时间上下文的推荐算法仅考虑记忆遗忘曲线对用户兴趣变化的影响,而没有将物品以及用户本身具有的时间属性考虑到对用户兴趣的影响因子中,本文提出了一种改进后的基于时间上下文的推荐算法,主要是将用户的年龄以及物品的背景时间等属性融入到传统的时间衰减函数中,改变用户相似度权重对推荐物品的预测评分的影响,最后在真实的数据集上进行实验验证,对比传统的推荐算法本文算法在准确度等多项指标上有较大提升;其次,针对传统的基于哈希学习的推荐算法在二进制码相似性与用户偏好的等价问题,提出了改进的哈希学习推荐算法,在评分信息的处理方面通过去除评分偏置来更好地求解相似度,并通过加入用户和项目时间属性来缓解算法的冷启动问题,通过实验以及结果分析说明了算法的可行性。最后本文通过基于上述两个算法,设计并实现了结合离线推荐与实时推荐的电影推荐网站,在相似度计算方面,通过第四章提出的改进的哈希学习推荐算法缓解了评分信息与用户偏好不对等的问题,使得计算得到的相似度更好地放映用户的偏好进而提高推荐的准确率;对于冷启动等问题,通过本文第三章的改进的时间上下文推荐算法,将添加用户和项目的时间信息来缓解新用户以及新项目的冷启动问题。然后描述了网站的总体结构设计、具体流程的设计、实现的过程、主要的功能网页和推荐效果的展示。本网站加入了实时推荐部分,以便及时地跟踪用户兴趣偏好的变化,提升推荐结果的准确度。
面向协同过滤集成的哈希学习方法研究
这是一篇关于推荐系统,协同过滤,哈希学习,自动编码器,边信息,离散优化的论文, 主要内容为随着网络服务的迅速发展,推荐系统在帮助人们高效利用各种信息方面扮演着越来越重要的角色。协同过滤推荐是构建和实现推荐系统的重要技术手段之一,其主要根据用户对物品的历史评分记录完成个性化推荐。但是,与之前相比,如今网络服务中用户和物品数量与日俱增,进而导致效率问题日趋成为阻碍推荐系统进一步发展的技术瓶颈。目前,常见的方法就是在协同过滤推荐中利用哈希算法将用户和物品的特征表示转换为二值编码,据此就可以在海明空间进行快速高效的推荐。然而,现有的一些协同过滤哈希学习算法由于对连续向量空间的数据几何建模过于简化且采用“两阶段”学习模式,这种处理方式通常会产生很大的编码损失,使得此类方法不得不采用较长的编码位数弥补损失,而长编码又会造成额外的开销,这与先前采用哈希算法寻求便捷高效的推荐动机背道而驰。有鉴于此,本文针对如何在协同过滤推荐中学习高质量的二值编码展开了深入的分析和讨论,具体内容如下:(1)针对由于对原空间数据建模过于简化所导致的较大编码损失,本文提出了一个二值协同过滤集成算法,该算法通过在海明空间的矩阵分解模型的基础上加入了基于用户和物品的锚点近似平滑约束项,使原始连续向量空间数据的近邻结构能被更好地存储在海明空间的二值编码中。针对两阶段方法的弊端,本文提出了一个类离散优化方法,将量化阶段集成在优化过程中,尽可能地避免了优化过程中的编码损失。(2)针对仅使用历史评分数据的局限性,为了在二值编码中存储更多原空间中重要的信息,本文利用自动编码器对评分信息及边信息进行联合特征表示学习,用其辅助后续二值编码学习。(3)针对用户和物品特征表示的独特性,本文在二值协同过滤集成框架中融入了个体特征的平滑约束项,使得所学二值表示能够在保持结构特性的基础上不失自身的独特性。针对类离散优化的局限性,本文进一步提出了离散优化的解决方案,使得所提算法能够直接学习更短的二值编码,从根本上避免优化损失。通过在三个公开数据集上进行实验,证明了所提出的多种二值协同过滤集成方法较之于现有的协同过滤哈希算法能够得到质量更高的二值编码,与此同时还能进行更为高效、准确的个性化推荐。
基于哈希学习的电子商务推荐系统研究
这是一篇关于推荐系统,协同过滤,哈希学习,隐性反馈的论文, 主要内容为随着信息技术的突飞猛进,互联网已成为人们生活生产不可或缺的一部分,而电子商务以其便捷实惠的优点吸引了全球各行各业各个年龄的人,网络交易已成为大众的交易方式。面对信息膨胀的情况,为用户提供有效的推荐成为用户与商家双赢的重要途径,因此推荐系统在电子商务领域的应用具有重要作用与广阔前景。本文主要研究内容如下:(1)数据是信息时代的重要元素,哈希学习是一种分析和挖掘数据的有效策略。本文将哈希学习与传统的协同过滤算法结合,提出了基于哈希学习的推荐方法。哈希学习通过投影阶段与量化阶段这两步骤处理数据,将原始空间中的数据映射到哈希二进制码空间,能有效地降低数据存储空间。本文通过两步骤哈希学习策略利用主成分分析(PCA)对原数据进行降维,再运用k-means聚类量化;之后运用协同过滤计算推荐项的预测评分,形成一个商品推荐列表,将推荐列表中的前N项作为最终的推荐项呈现给用户。本文以命中率(HR)与平均命中等级倒数(ARHR)作为推荐的评价方式,实验表明该方法能够有效地进行个性化推荐;(2)哈希学习中通常使用Hamming距离度量相似性,考虑到保持数据在原始空间的相似性结构,本文分析对比了 Hamming距离与二进制码对应实值的Manhattan距离dr对量化后的数据进行度量时的差异,说明了采用Manhattan距离的可行性,并通过数据实验证明采用dr比传统推荐系统中采用的余弦相似性及皮尔逊相关系数度量相似性的时间复杂度更低。(3)本文提出了在隐性反馈数据上改进基于哈希推荐算法的方式,实验表明该方法可以提升原算法在隐性反馈数据上的推荐效果。
面向桶查询优化的哈希学习算法与评估指标研究
这是一篇关于哈希学习,哈希桶查询,检索效率的论文, 主要内容为最近邻检索是指从数据库中查找与给定查询点最相似的数据点。最近邻检索是许多领域中的基本问题之一,例如计算机视觉、推荐系统和机器学习。但是当数据库规模大且数据维度高时,准确地找到与给定查询点最相似的数据点,所需要的时间开销会非常大。近似最近邻检索对于该问题的解决起到非常重要的作用。由于哈希学习具有检索速度快以及存储开销低的特点,哈希学习已经成为最为广泛使用的近似最近邻检索方法之一。哈希学习的目的在于通过学习哈希函数将数据点从原始的高维度特征表示映射到能够保持相似性的低维度二值哈希编码。基于二值哈希编码,哈希学习通过使用哈希桶查询,在理想情况下可以实现次线性的查询速度。但是在实际应用中,随着搜索海明半径和二值哈希编码长度的增长,桶查询的复杂度将以几何速度增长。因此在实际应用中,哈希桶查询的优化非常重要。本文围绕哈希桶查询的优化问题,从哈希学习算法和评估指标两方面进行系统的研究。本文取得的创新成果如下:●现有的哈希学习方法大都是单编码的,即这些哈希学习方法仅为每个数据点学习一个二值哈希编码。在单编码的情况下,哈希桶查询无法取得令人满意的检索效率。单编码哈希学习方法难以将具有复杂语义信息的数据点映射到海明距离较小的哈希桶中去,这将会导致在检索相似数据点时需要访问大量的哈希桶,即降低了检索效率。为了解决这个问题,本文从多编码的角度入手,提出了一种多编码哈希方法(Multiple CodeHashing,简称MCH)来为每个数据点学习多个二值哈希编码,以提升检索效率。除此以外。MCH还是一个灵活的框架,它将多个二值哈希编码的学习过程分解为两个步骤:基础哈希模型学习步骤和智能体学习步骤。这种分解简化了学习的过程,并且使得MCH可以很容易地集成不同的哈希模型。本文在具有复杂语义信息的大规模图像检索任务中验证MCH的有效性。实验结果表明,相比较现有的单编码哈希方法,本文提出的MCH可以显著提升哈希桶查询的检索效率。●现有的哈希学习方法大都是单索引的,即这些哈希学习方法使用完整的二值哈希编码仅构建单个索引。在单索引的情况下,哈希桶查询无法取得令人满意的检索效率。在面对难度较大的检索任务时,单索引哈希学习方法为了达到合适的检索精度通常需要学习较长的二值哈希编码,这将会导致在检索相似数据点时需要访问大量的哈希桶,即降低了检索效率。为了解决这个问题,本文从多索引的角度入手,提出一种深度多索引哈希学习方法(Deep Multi-Index Hashing,简称DMIH)。DMIH首次将多索引哈希和深度多分支特征学习网络集成到同一个框架中去,这使得特征学习的过程和哈希学习的过程可以相互促进。除此以外,本文在DMIH中提出一种逐块多索引哈希表构造方法和一种搜索敏感的多索引损失函数来进一步提升检索效率。本文在行人重识别任务中验证DMIH的有效性。实验结果表明,相比较现有的基准方法,本文提出的DMIH可以显著提升哈希桶查询的检索效率和精度。●在哈希桶查询性能评估方面,本文首次指出了现有被广泛使用的评价指标在用于评估哈希桶查询时存在的问题。为了解决这些问题,本文提出一种全新的评价指标,叫做半径敏感的平均查准率均值(Radius Aware Mean Average Precision,简称RAMAP)。RAMAP在计算精度的同时考虑了访问哈希桶数目的影响,提供了一种能够同时考虑检索精度和检索效率的哈希桶查询评估方式。本文在大规模图像检索任务中验证RAMAP的有效性。实验结果表明,相比较现有的评价指标,本文提出的RAMAP可以对哈希桶查询的性能给出更加合理全面的评估。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计驿站 ,原文地址:https://bishedaima.com/lunwen/54537.html