给大家推荐5篇关于数据接入服务的计算机专业论文

今天分享的是关于数据接入服务的5篇计算机毕业论文范文, 如果你的论文涉及到数据接入服务等主题,本文能够帮助到你

游客行为数据接入与智能推荐方法研究

这是一篇关于旅游推荐服务,数据接入服务,序列推荐,流式推荐,分布式机器学习的论文, 主要内容为随着“互联网+”不断为旅游业赋能,并由机器学习、大数据从软件层面为旅游业发展提供动力,对传统的旅游领域带来了深刻的变革,在由旅行社主导的传统的跟团游之外,个性化出游愈加的成为人们的出游选择,同时在线旅游整合旅游景点门票、酒店、餐饮、游玩资源的线上销售模式中,产生了大量的游客行为数据,如何对这些数据进行准确的收集获取,进而对用户偏好进行细粒度的捕获成为亟待解决的问题。由于现有的序列推荐算法大多着眼于从整个交互序列提取单一的向量表征用户偏好,对其他辅助信息难以做到充分利用。本文首先针对在线旅游领域的特殊性,选用自注意力机制和商品分类信息的序列推荐方法实现对旅游电商平台的高性能推荐。同时随着游客行为数据的激增,在构建推荐服务时,推荐模型的训练在单机模式下难以满足数据量和时效的需求。为解决上述问题,引入分布式流式处理模式,将游客行为数据建模为时序数据模型,提出了一种基于Spark生态系统的分布式流式推荐模型,运用变分推断结合隐因子模型进行商品推荐。本文的主要工作和贡献如下:(1)为实现游客行为数据的收集工作,实现了基于Flume+Kafka+Spark Streaming的游客行为数据的接入服务,并构建游客行为大数据云平台,运用可视化技术,实现对旅游行业的大数据分析监控。同时在充分分析、整理和研究的基础上,经过脱敏处理后,提取有效字段,分析游客行为特征,构建了基于游客行为的旅游推荐数据集。(2)提出了面向旅游电商领域的基于自注意力机制和商品分类信息的序列推荐算法(Self-attention based Multi-hop Sequence Recommendation for Tourism E-commerce,SATMSRec),STMSRec充分考虑用户交互序列间的时间间隔和序列的绝对位置对输入序列运用自注意力机制进行特征处理,随后将序列输入GRU网络学习全局偏好,然后结合商品层次性分类信息构建多跳推理模型学习多跳偏好,以达到多层次对用户偏好进行捕获。(3)为解决海量数据的训练任务同时适配旅游流式场景,依托Spark生态,提出了基于时序变分推断的流式推荐模型(Temporal Variational Inference based Distributed Tourism Streaming Recommender,TDTSR),使用Mongo DB和HDFS作为分布式数据存储,通过Spark RDD进行数据的流式输入处理,流式推荐模块在深度贝叶斯学习范式下结合深度因子分解模型,运用GRU神经网络结合变分推断构建预测过程,最后将模型运行于Spark On Tensorflow下实现并行化训练。

支持隐私保护的电商智能推荐及轻量化算法研究

这是一篇关于序列推荐,模型轻量化,数据接入服务,隐私保护,联邦学习的论文, 主要内容为随着电商平台的不断发展,如何让用户从海量物品中快速发现自己感兴趣的物品,成为了电商平台实现更多利润和长久发展的重要因素。在这个过程中,通过收集和分析用户在电商平台上的行为数据,设计高效的序列推荐算法是平台提高用户满意度和粘性的关键手段。然而,目前的序列推荐算法在对用户行为序列进行建模的时候往往只考虑了用户行为的顺序信息,忽略了用户行为的细粒度时间特征,使得算法难以准确捕捉用户在不同时刻的需求和偏好,影响了推荐的效果和质量。另一方面,在用户隐私保护意识逐渐觉醒以及国家通过立法来限制服务提供商收集用户数据的大环境下,推荐系统需要更加注重用户的隐私保护需求。联邦学习的出现为推荐系统隐私保护提供了一种解决方案,但是在联邦学习场景中,参与联邦学习的用户端设备存储和计算能力参差不齐,在资源受限的设备中,可能无法承受推荐模型所需要的计算和存储负载,影响模型在其本地的部署和运行。针对上述问题,本文从推荐系统的隐私保护需求、用户行为序列建模,以及模型的轻量化三个方面展开研究,主要贡献和创新点如下:(1)在推荐系统的隐私保护需求方面,设计了一种支持隐私保护的电商智能推荐服务架构。该架构充分尊重用户的隐私,将数据收集和使用的选择权交给用户,提供了传统的中心化推荐服务和联邦学习推荐服务两种模式。对于同意共享数据的用户,其数据会通过数据接入服务,用于中心化推荐模型的训练和使用;而不同意共享数据的用户则可以通过联邦学习模块,在本地进行轻量化推荐模型的训练和推荐,从而实现用户可控的隐私保护。(2)在用户行为序列建模方面,提出了一种融合自注意力和细粒度时间特征的卷积序列推荐算法。该算法充分利用了用户行为的细粒度时间特征,通过自注意力机制和卷积操作分别捕捉用户在序列中的长期兴趣和短期偏好,提高了序列推荐模型对时间信息的利用效率。在多个数据集上的实验证明了该算法相比于几个基线模型,可以有效提高推荐的准确性。(3)在模型的轻量化方面,提出了一种轻量级混合序列推荐模型。该模型充分利用用户商品评分信息,采用预训练的方式,减少端到端的用户嵌入训练给模型带来的庞大参数量;使用一种经改进后计算效率更高的自注意力机制,并通过自注意力蒸馏操作降低了模型的存储开销。通过实验验证,改进后的轻量化模型相较于原模型,参数量更少,计算复杂度更低,更适合在联邦学习场景下资源受限的用户端部署。