基于用户行为序列的兴趣挖掘算法研究
这是一篇关于序列建模,用户长短期兴趣,召回,排序的论文, 主要内容为随着大数据技术及人工智能的蓬勃发展,人们可以通过各类新型媒体获取海量资源。但太多的内容会造成信息冗余,用户难以在短时间内获取真正感兴趣的信息,个性化推荐系统由此产生,成为联系用户和媒体不可或缺的工具。推荐最关键的是准确地捕捉用户的兴趣,但用户在不同阶段会有不同的兴趣。传统的推荐算法大部分对用户兴趣的挖掘不够深入,没有充分利用用户历史行为,显然丢失了很多信息,最终给用户呈现的内容不够准确。本文针对传统推荐算法挖掘用户兴趣力度不足的问题,设计了通过对用户行为序列建模从而捕获用户长短期兴趣的算法。工业界的推荐系统主要由召回和排序两个阶段组成,召回是从内容库中选出用户可能感兴趣的物品作为排序模型的输入;排序是对召回的内容进行打分,按分值降序选出前top N个内容推荐给用户。本文分别从召回和排序两个部分对用户的行为序列建模。具体地,将本文的研究点定义为两个方面:一是设计了长期用户画像构建及多兴趣挖掘的召回算法模型,二是设计了基于用户长短期兴趣建模及自适应融合的排序算法模型。召回阶段研究用户行为序列建模时,提出了多兴趣召回网络(Multi-Interest Network for Recall,MINR)模型,通过用户长久的历史行为构建长期用户画像学习用户长期稳定的兴趣,通过用户近期交互的物品学习用户短期实时兴趣,实时兴趣也可以动态地反映出用户当前时刻兴趣变化的过程。长期用户画像的构建,主要从用户的基本属性和兴趣偏好两个角度出发。基本属性采用向量嵌入技术学习特征的表征,用户兴趣偏好通过对用户交互的物品序列进行抽象。构建长期用户画像时,设计了门控循环单元及物品向量表征网络(Gated Recurrent Unit and item to vector,GRUitem2vec)模型和基于权重游走的策略建模物品向量。学习用户短期兴趣时,设计了MINR模型,利用改进的胶囊网络将用户行为聚类,表征用户当前的多个兴趣点。通过以上两个方面,得到最终的用户兴趣表达。排序阶段研究用户行为序列建模时,提出了基于序列的长短期兴趣网络(Sequence based short-term and long-term interest networks,SBSLIN)模型,分别对用户长期兴趣和短期兴趣建模,再自适应地融合在一起。短期兴趣是用户在特定环境下产生的且一直处于动态变化中,但对当前的推荐有很大的影响,更能体现出用户当下的倾向,是把用户当前会话中的序列作为模型的输入。长期兴趣是用户长久以来形成的稳定偏好,更能体现用户固有的兴趣爱好,对模型预估起到兜底的作用,是把用户长期的点击序列按照会话划分后作为输入。SBSLIN模型同时兼顾用户的长短期行为,通过短期兴趣和长期兴趣相互结合,对候选物品预估,既考虑到用户固化的兴趣,又能捕获到用户近阶段动态兴趣的漂移。最后通过多组实验分别在快手数据集和电影数据集上验证了MINR和SBSLIN模型的性能,并对实验结果展开分析。本课题是依托在快手社科检索策略模型算法中心的实习工作进行的,设计的模型都应用到了快手生产线上并取得了收益。具体地,在大盘增益上,客户预期花费提升1.76%,消耗提升3.19%。
一种分布式推荐召回引擎的设计与实现
这是一篇关于推荐系统,召回,过滤,分布式引擎,Dubbo的论文, 主要内容为随着信息技术和互联网的发展,互联网中的海量数据造成了严重的信息过载。为了解决信息过载问题,推荐系统应运而生,推荐系统的目的是根据用户意图引导用户发现他们感兴趣的产品或信息。目前,网易考拉的推荐系统架构已经无法应对数百万级别的商品数量增长,要从几百万商品中找到用户感兴趣的商品需要耗费很多时间。随着商品数量的增长,商品信息更新会越来越频繁。信息更新耗费大量系统资源,导致服务发生抖动的频率也越来越高。同时,随着业务的扩张,适用于推荐系统的业务场景也越来越多,开发人员对于每个场景都需要重新编写一套代码以满足业务需求,大量重复代码会降低开发效率。本文总结了推荐系统的相关概念和核心技术,分析了网易考拉推荐系统的业务需求,提出了一种全新的分布式召回引擎解决方案。本文设计的分布式系统包含四大核心模块,分别是分布式并行模块、召回过滤模块、场景配置模块和数据更新模块,使用主流技术解决了多场景推荐、大规模信息更新和服务稳定性问题。系统使用Dubbo和Akka构建了分布式并行模块,分布式模块使用集群解决了海量商品数据的存储和更新问题,提升了服务的稳定性和处理速度。同时,系统在召回过滤模块中使用了 Redis和Ehcache作为缓存中间件,进一步提升了业务流程的执行速度。在场景配置模块中,系统使用配置文件来管理所有业务场景,解决了多场景推荐的问题。在数据更新模块中,系统使用文件更新和Kafka更新两种方式保证了数据的实时性和有效性。目前,系统经过功能测试和性能测试后,在线上运行良好。集群内单台机器每秒能处理2000次请求,推荐系统的接口耗时和垃圾回收时间相比使用本系统前均减小了 50%。本系统能满足存在的几十种业务场景以及日后可能存在的扩展需求,并且随着商品数量的持续增长,系统能提供一套稳定的召回过滤服务。
基于向量化的多场景召回方法研究与实现
这是一篇关于推荐系统,行为建模,召回,图网络,向量匹配的论文, 主要内容为本文主要来自于本人在小红书公司的实习项目。该项目基于用户的行为序列、用户画像、笔记画像以及上下文情景,预估用户感兴趣的笔记并完成召回(推荐系统的一部分,为用户粗选一部分待推荐的物品)。平台出于商业化的考量,会在笔记中嵌入信息流广告,因此召回的笔记既要满足用户的喜好,又要最大化平台的利益。本文的主要工作在于笔记推荐系统中的召回阶段,主要是以向量化召回为方式的研究工作。由于召回阶段面对的候选集庞大且对线上的实时性要求较高,当前的召回方式一般采用多路召回的方法,每一路分别用于特定的召回目的。基于策略型(比如按照热度、地理位置的召回等)和统计型(比如协同过滤、矩阵分解等)的召回方式,优点是易于部署、可解释性强,缺点是使用场景有限、难以满足用户的个性化需求;而现有的图表示学习方法受热门物品的影响较大,会出现严重的马太效应。为了有效解决上述问题,本论文在已有方法的基础上,提出了基于向量化的多场景召回方法。该方法包含两类场景:对特定用户的笔记召回(U2I)以及相似笔记之间的召回(I2I)。首先对多种数据源进行分析和处理,根据特征的重要程度进行特征筛选,并对比了负样本的构造方式进行样本集构造。两个场景下分别使用不同的算法进行建模,其中U2I场景下使用双塔DSSM模型优化用户和笔记之间的交互行为,在输入层将数值型特征按照分布情况进行分桶,然后采用Embedding方式将所有特征向量化,可以有效降低模型参数量、加快模型收敛;同时在模型中引入交叉层,从而提高特征提取效率。在I2I场景下,本文使用图注意力网络GAT对笔记之间的邻接关系进行学习,通过多个注意力层聚合的方式更新节点表示,从而使得笔记可以融合全局特征。在产出向量表示之后,进行向量的检索和召回。本文通过对小红书站内7天的用户笔记交互行为进行采样,分别得到了训练集和评估集。评估采用两种指标,包括离线训练指标AUC(Area Under the Curve)、准确率Accuracy;以及产出向量表示后的检索召回指标Recall@K(预测前K个物品在真实的物品序列上的召回率)。在实验过程中,AUC为0.7619,Accuracy为0.763。通过与其他现有的不同方法对比,本论文提出的方法预测误差更低、召回效果更好,从而验证了本论文方法的有效性。
医疗器械不良事件监测管理系统的研究与设计
这是一篇关于不良事件监测,再评价,召回,风险,风险管理的论文, 主要内容为医疗器械作为诊断、治疗疾病的重要工具,在现代医疗体系中具有不可替代的地位。我国医疗器械产业和科学技术的发展使越来越多的前沿科技运用到医疗器械中。但随之而来的是:我国的医疗器械质量监管工作开始面临新的机遇和挑战。医疗器械不良事件监测作为上市后医疗器械质量监管工作的重要组成部分,关系到器械的质量水平和人民群众的用械安全。近年来,越来越多的政府、产业和科研力量被投入到对不良事件监测的研究中,在国家食品药品监督管理总局的带领下,各级监管部门已经建立了专门负责医疗器械不良事件监测的机构和信息平台,监测工作逐渐规范,监测报告数量逐年递增,相关研究成果持续增加,取得了阶段性的成果,但仍有一些工作尚待改进和完善。本论文着重研究了不良事件监测工作中存在的部分问题,回顾了国内外不良事件监测工作的历史和发展现状,剖析了不良事件监测系统流程,在上市后监管的宏观业务背景下讨论了不良事件监测、再评价和召回的关系,分析当前不良事件监测工作流程在新的上市后监管业务需求下的空白和不足之处。针对上市后监管缺少跨领域工作流融合与协同的问题,作者基于YY/T0316和YY/T1474标准对现有监测流程提出了改进思路,将风险管理和可用性工程融入到监测流程中,使其能够更加全面地适应当下的不良事件监测工作。针对数据结构化、业务和数据编码的标准化、重点风险分析预警等技术需求,作者尝试对现有监测流程进行了扩展,纳入了器械召回和可追溯性的相关要求,采用标准化的不良事件分类编码,建立了特殊类型医疗器械的风险分析模型,建立了一个面向产品全生命周期的通用监测流程,为包括器械使用单位在内的各类监测人员和机构提供了一个可进一步定制的基础流程模型。本文以上述的改进型不良事件监测系统工作流程为目标需求,由作者自行设计、开发了对应的监测信息系统,并完成了对应的测试工作。在开发过程中,使用MYSQL数据库作为后台数据库,使用JSP技术开发该系统的前端部分。系统用户类型包括使用单位、生产企业和监管机构,系统模块包括不良事件报告、不良事件监测、不良事件再评价、召回等。上述成果作为公开的通用工具,或有助于协助各类监测工作参与者进一步提升监测能力,共同提高监测水平。
一种分布式推荐召回引擎的设计与实现
这是一篇关于推荐系统,召回,过滤,分布式引擎,Dubbo的论文, 主要内容为随着信息技术和互联网的发展,互联网中的海量数据造成了严重的信息过载。为了解决信息过载问题,推荐系统应运而生,推荐系统的目的是根据用户意图引导用户发现他们感兴趣的产品或信息。目前,网易考拉的推荐系统架构已经无法应对数百万级别的商品数量增长,要从几百万商品中找到用户感兴趣的商品需要耗费很多时间。随着商品数量的增长,商品信息更新会越来越频繁。信息更新耗费大量系统资源,导致服务发生抖动的频率也越来越高。同时,随着业务的扩张,适用于推荐系统的业务场景也越来越多,开发人员对于每个场景都需要重新编写一套代码以满足业务需求,大量重复代码会降低开发效率。本文总结了推荐系统的相关概念和核心技术,分析了网易考拉推荐系统的业务需求,提出了一种全新的分布式召回引擎解决方案。本文设计的分布式系统包含四大核心模块,分别是分布式并行模块、召回过滤模块、场景配置模块和数据更新模块,使用主流技术解决了多场景推荐、大规模信息更新和服务稳定性问题。系统使用Dubbo和Akka构建了分布式并行模块,分布式模块使用集群解决了海量商品数据的存储和更新问题,提升了服务的稳定性和处理速度。同时,系统在召回过滤模块中使用了 Redis和Ehcache作为缓存中间件,进一步提升了业务流程的执行速度。在场景配置模块中,系统使用配置文件来管理所有业务场景,解决了多场景推荐的问题。在数据更新模块中,系统使用文件更新和Kafka更新两种方式保证了数据的实时性和有效性。目前,系统经过功能测试和性能测试后,在线上运行良好。集群内单台机器每秒能处理2000次请求,推荐系统的接口耗时和垃圾回收时间相比使用本系统前均减小了 50%。本系统能满足存在的几十种业务场景以及日后可能存在的扩展需求,并且随着商品数量的持续增长,系统能提供一套稳定的召回过滤服务。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码向导 ,原文地址:https://bishedaima.com/lunwen/53622.html