基于标签主题建模的图书推荐系统研究
这是一篇关于数字图书馆,推荐系统,主题模型,多模型集成,概念漂移的论文, 主要内容为我们正身处一个信息爆炸的社会,人们逐渐从信息匮乏的时代走进了信息过载的时代。计算机和网络技术的发展使得人们对知识和信息的获取变得前所未有的便捷,数字图书馆的出现就是一个最佳例证。在过去的数十年里,数字图书馆因为其传播知识所带来的巨大社会效益而受到各国政府的重视,得到了迅速的发展。随着数字图书馆的不断建设,数字资源的不断丰富,读者在面对如此海量的数字资源的时候也显得手足无措,不知道如何寻找自己感兴趣的图书。大量的数字资源因此而未被充分利用。本文针对CADAL数字图书馆中资源具有标签这一特点,结合CADAL用户的阅读行为日志,提出了一种基于标签主题建模的图书推荐方法,提高CADAL平台中资源的利用效率。 本文围绕基于标签主题建模的图书推荐系统的研发,做了以下工作: 第一,提出了一种基于LDA主题建模图书推荐方法。通过利用CADAL图书资源中的标签信息,挖掘隐含主题,使用Gibbs采样方法得到每个主题-标签模型。然后根据用户的阅读行为日志获得已读图书列表,使用LDA-inference算法推算出用户在各个主题上的概率分布。最后根据用户在各个主题分布上的相似性来进行基于用户的图书推荐。 第二,研究了采用多模型集成追踪用户阅读兴趣变化的方法。通过设定时间窗口,对用户的阅读行为日志进行分段,针对每个时间窗口使用前面提到的主题建模方法建立用户-主题模型。然后计算两个相邻时间窗口中生成的模型的差异程度,以检测用户的阅读兴趣是否发生概念漂移。通过保留具有代表性的用户-主题模型,并且使用多模型集成的方式,本文研究的推荐系统在迅速捕捉用户新阅读兴趣的同时不会过快的丢弃之前学习到的知识。 最后,介绍了推荐系统的架构,并通过实验对算法相关参数对推荐效果的影响进行了探讨。
基于概念漂移检测的数据流频繁模式挖掘算法研究
这是一篇关于数据流,频繁模式,可变滑动窗口,概念漂移的论文, 主要内容为电子商务是伴随着数据而生的行业,会产生大量与用户相关的数据,这些数据具有高速、多变等特性,而且各类数据属性都可能会随时间发生变化,从而导致相关决策不佳。而概念漂移也是数据流挖掘中的主要问题之一,这就需要开发能良好适应电子商务数据流概念漂移的挖掘模型。为此,本文提出了基于概念漂移检测的可变滑动窗口频繁模式挖掘算法和基于概念漂移类型检测的双层可变窗口频繁模式挖掘算法。本文的工作主要包含以下三个方面:(1)本文提出一种基于概念漂移检测的可变滑动窗口频繁模式挖掘算法(VSW-CDD,Variable Sliding Window-Concept Drift Detection)。针对固定的滑动窗口不能适应数据流多变的特性,本文基于滑动窗口技术,设计尺寸可变的滑动窗口,在挖掘过程中同时检测关于概念漂移的挖掘结果变量和原因变量来判定数据流是否发生概念漂移。当数据流的概念没有变化时,窗口持续扩大;而当概念漂移发生时,窗口相应地缩小。实验表明,本文提出的VSW-CDD算法能够及时检测到数据流中的概念漂移,并通过调整窗口大小来适应新的概念。此外,算法能够挖掘出数据流中最新的频繁模式,针对电子商务网站中的用户点击数据集有较好的挖掘效果。并且,与其它算法相比,本文提出的这一算法在查全率和自适应方面也有更好的表现。(2)本文提出了一种基于概念漂移类型检测的双层可变窗口频繁模式挖掘算法(DLVSW-CDTD,Double-layer Variable Sliding Window—Concept Drift Type Detection)。目前,处理概念漂移的算法大多数针对单一类型的概念漂移,难以同时适应具有不同类型的漂移数据的应用场景,为此,本文在VSW-CDD算法的基础上,引入了双层的嵌套可变滑动窗口来区分概念漂移的类型,并且结合了衰减模型,在挖掘过程中能够针对不同类型的概念漂移进行漂移适应。实验结果表明,DLVSW-CDTD算法不仅能检测出数据流中不同类型的概念漂移,还能够进行针对性的漂移适应处理,并且在时间复杂度和内存消耗方面都有一定的提升,此外,算法各方面的性能不会因为窗口的大小改变而发生突变,算法整体的运行稳定性较好。(3)本文以VSW-CDD算法和DLVSW-CDTD算法为基础,设计并实现了一个基于概念漂移检测的电子商务数据挖掘原型系统。该系统采用Django框架和Vue前端架构,设计了用户信息管理、数据文件管理、频繁模式挖掘和结果展示四个模块,用户可根据实际需求灵活选择挖掘模型,得到相应的频繁模式结果。通过对系统的使用与初步测试,该系统具有较好的实用性和稳定性,同时也进一步显现了本文提出算法的有效性和实用性。
面向概念漂移问题的推荐系统研究
这是一篇关于推荐系统,概念漂移,协同过滤,时间动态,物品间关系的论文, 主要内容为随着互联网的高速发展,根据用户自身特征个性化地向用户推荐物品的推荐算法在众多领域得到了广泛的使用,并在学术界成为了一个热门研究方向。虽然推荐系统算法的相关研究与应用已经取得了不少成果,但仍然面临着诸如稀疏性、冷启动等问题。针对这些挑战,国内外科研机构和商业公司提出了大量的改进技术和解决方案。本文将主要针对推荐系统中的概念漂移问题展开研究。传统的概念漂移问题通常是指隐含信息的改变会或多或少从根本上导致目标概念的改变。推荐系统中的概念漂移问题是指在系统数据随着时间累积的情况下,系统的推荐模型无法把握用户、物品的变化使得推荐结果偏离用户实际需求。为了减小概念漂移问题对推荐系统的影响,提高推荐系统的性能,本文主要完成了以下具有创新性的工作:(1)提出了一种用于扩充物品内容数据的网络垂直爬虫方法。对比传统技术,本方法在爬全率上较现有结果有了较大提升;(2)提出了一种基于用户-物品关系和物品内容特征的物品聚类方法。相对于传统针对物品的聚类算法,本方法在隐式反馈数据中能较好得将物品中的冷门和热门物品进行一定区分,使聚类结果尽可能平衡,且聚类类别能保留物品长尾分布特征;(3)验证了物品间关系的不平衡性。本文通过实验验证了在时序系统中,物品间关系并不像传统方法中认为的那么平衡,且这一关系与物品自身特征有较大关联关系;(4)结合真实数据,分析了用户行为的概念漂移规律。我们发现用户行为的概念漂移主要表现为:用户在对某些同类别物品有长期持续行为的同时,对这些类别物品的偏好也会随着时间发生缓慢变化。(5)设计了基于前置状态的推荐算法。本算法通过定义用户行为前置状态设计了基于前置状态的转移概率并基于这一转移概率完成了算法流程设计。实验结果表明本算法能较大幅度的提升推荐系统在时序状态中的准确率。本文对推荐系统中的概念漂移问题做了较系统的研究和归纳总结。其中针对该问题的主要研究与分析结果,为我们提出的基于前置状态的推荐算法提供了理论依据。
面向服务的业务过程发现技术研究
这是一篇关于过程挖掘,信息系统,事件日志,概念漂移的论文, 主要内容为随着信息技术的快速发展,大量的服务应用(物联网,云计算,医疗等)如雨后春笋般涌现。这些服务的业务执行过程都会被企业以事件日志的形式记录在各自的信息管理系统中,以便于分析和改善业务模型。过程挖掘技术作为一种从事件日志中提取知识,从而发现、监控和改进业务过程的学科正受到研究者们的关注。但是,目前存在以下两个问题:(1)现有的过程挖掘技术假设使用的事件日志不仅记录了连续的事件执行过程而且包含了完整的事件数据。使用不完整的事件日志会对过程模型的发现和分析产生影响;(2)在检测过程概念漂移时并没有考虑事件日志中的过程模型之间存在行为子集包含问题,这将导致错误的漂移点被计算出来从而影响管理者对业务模型的分析和判断。本课题主要针对在服务应用中产生的事件日志完整性以及其业务过程概念漂移方面进行研究,主要研究内容如下:(1)考虑到信息系统中记录的事件数据存在缺失问题,本文提出了一种基于Profile轨迹聚类的事件日志修复框架。该框架首先使用Profile对事件日志重新表示,并对事件日志中的轨迹进行聚类操作。并使用了一种缺失轨迹与子日志之间相似度计算的策略方法。最终,通过提取和分析事件日志中活动之间的关系,补全缺失的数据。(2)针对修复缺失活动准确度低的问题,本文提出了一种基于活动关系的修复事件日志方法。该方法提取了日志中活动的直接后继关系并考虑了活动的并行和循环关系来重新表示事件日志。并且选择了轨迹中缺失活动的直接前驱与后继活动来预测缺失的活动,从而提高了修复缺失活动的准确度。(3)针对事件日志中过程模型之间的行为子集包含问题,本文使用了一种基于活动关联和过程模型分析相结合的过程概念漂移检测方法。该方法核心是分析日志中的活动关联关系并对每一个活动关系的变化点进行基于密度的空间聚类,再使用活动关系矩阵表示变化点间隔的过程模型,然后计算间隔点之间过程模型的超集列表,根据此列表计算出日志中的过程概念漂移。(4)本文分别从真实和合成的事件日志数据集上进行了实验分析,结果显示本文提出的方法有效的提高了修复不完整事件日志和检测过程概念漂移的精确性。
面向服务的业务过程发现技术研究
这是一篇关于过程挖掘,信息系统,事件日志,概念漂移的论文, 主要内容为随着信息技术的快速发展,大量的服务应用(物联网,云计算,医疗等)如雨后春笋般涌现。这些服务的业务执行过程都会被企业以事件日志的形式记录在各自的信息管理系统中,以便于分析和改善业务模型。过程挖掘技术作为一种从事件日志中提取知识,从而发现、监控和改进业务过程的学科正受到研究者们的关注。但是,目前存在以下两个问题:(1)现有的过程挖掘技术假设使用的事件日志不仅记录了连续的事件执行过程而且包含了完整的事件数据。使用不完整的事件日志会对过程模型的发现和分析产生影响;(2)在检测过程概念漂移时并没有考虑事件日志中的过程模型之间存在行为子集包含问题,这将导致错误的漂移点被计算出来从而影响管理者对业务模型的分析和判断。本课题主要针对在服务应用中产生的事件日志完整性以及其业务过程概念漂移方面进行研究,主要研究内容如下:(1)考虑到信息系统中记录的事件数据存在缺失问题,本文提出了一种基于Profile轨迹聚类的事件日志修复框架。该框架首先使用Profile对事件日志重新表示,并对事件日志中的轨迹进行聚类操作。并使用了一种缺失轨迹与子日志之间相似度计算的策略方法。最终,通过提取和分析事件日志中活动之间的关系,补全缺失的数据。(2)针对修复缺失活动准确度低的问题,本文提出了一种基于活动关系的修复事件日志方法。该方法提取了日志中活动的直接后继关系并考虑了活动的并行和循环关系来重新表示事件日志。并且选择了轨迹中缺失活动的直接前驱与后继活动来预测缺失的活动,从而提高了修复缺失活动的准确度。(3)针对事件日志中过程模型之间的行为子集包含问题,本文使用了一种基于活动关联和过程模型分析相结合的过程概念漂移检测方法。该方法核心是分析日志中的活动关联关系并对每一个活动关系的变化点进行基于密度的空间聚类,再使用活动关系矩阵表示变化点间隔的过程模型,然后计算间隔点之间过程模型的超集列表,根据此列表计算出日志中的过程概念漂移。(4)本文分别从真实和合成的事件日志数据集上进行了实验分析,结果显示本文提出的方法有效的提高了修复不完整事件日志和检测过程概念漂移的精确性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设项目助手 ,原文地址:https://bishedaima.com/lunwen/52282.html