基于Spark环境下的机器学习在商品推荐中的应用研究
这是一篇关于推荐系统,Spark,逻辑回归,梯度提升决策树,深度森林,组合模型的论文, 主要内容为随着各大电商平台的产生和在线购物用户数量的不断增长,用户面对种类繁多的商品信息时会出现选择困难的情况,同时各个购物平台面对海量的用户群体也尝试各种营销方法对用户的购买意愿进行正向刺激以此来提升销售额。基于上述需求,推荐系统在当今社会中发挥着不可或缺的作用,它借助算法能够从海量的数据中为用户挑选用户想要的信息或者商品。本文采用阿里巴巴移动电商平台的真实用户行为数据,经选取后得到2014年11月22日至2014年12月5日的用户-商品交互行为数据,时间跨度为两周,该数据包含约1000万条样本数据,第一周的用户行为数据作为训练集,第二周的数据作为测试集,预测目标是用户在每周的周五是否购买用户在上周六至本周四发生过交互行为的商品,购买为正类,未购买为负类。首先训练集和测试集中分别通过用户、商品和商品类别三个角度进行特征提取,由于发生购买行为的样本占总样本的比例很小,数据的不平衡会导致模型性能的失效,因此对未发生购买行为的样本进行基于K均值聚类的下采样处理。采样过后的数据作为本文最终的建模数据。其次考虑到数据量很大,因此本文从Spark分布式环境出发,先分别单独使用逻辑回归(LR)、梯度提升决策树(GBDT)和随机森林(RF)进行建模分析,实验结果表明无论在训练集还是测试集中GBDT的效果最好,为进一步提高模型预测效果,融合Stacking和深度森林的思想,构造GBDT-RF-LR组合模型,使用并联的方式组合GBDT和RF并输出增强特征矩阵,与训练数据合并成新数据集,再使用逻辑回归进行训练,结果表明组合模型的拟合效果和泛化能力都要优于单个模型;在单机模式下,使用Spark环境下相同的模型和深度森林进行建模分析,最后对比两种环境下的结果,Spark分布式环境下的模型预测精度更高。因此,本文认为在商品推荐中应用Spark环境下组合模型的效果最好。
基于MMTD和用户的协同过滤推荐算法
这是一篇关于协同过滤,用户相似度,中介真值程度度量,兴趣偏向系数,深度森林,用户分类的论文, 主要内容为随着互联网的迅猛发展,网络上的信息量大幅度增长。信息的生产和消费产生了新的矛盾:生产者难以让自己生产的信息引人关注;消费者难以寻找到自己感兴趣的信息。为解决这一矛盾,推荐算法应运而生。基于邻域的推荐算法是推荐算法领域中应用最广泛的一种,受到学术界的广泛关注和深入研究。基于用户的协同过滤算法作为基于领域的推荐算法的重要组成部分,近年来取得了众多研究成果,但是这些算法在度量用户间的相似性时,都未能合理利用用户的正反馈数据,导致用户间的相似性度量不够准确。针对这一问题,本文将中介真值程度度量(Measure of Medium Truth Degree,MMTD)和兴趣偏向系数引入到协同过滤推荐算法,有效地利用了用户的正反馈数据,提高了用户间相似性度量的准确性。同时,在用户数据量过大时,基于用户的协同过滤算法开销较高。针对这一问题,本文将深度森林和兴趣偏向向量应用到用户分类上,一定程度上实现了降低开销的目标。实验结果表明,本文提出的方法能够有效提高推荐结果的准确率和召回率,具有很高的实用价值。论文首先对中介数学和中介真值程度度量方法进行了介绍,在此基础上对用户相似性度量,用户对物品兴趣度和用户分类进行了深入研究。主要工作如下:(1)针对目前基于用户的协同过滤算法中,未能充分合理利用用户正反馈数据度量用户间相似性的问题,提出了一种结合用户评分和MMTD的方法,并将其应用于传统的余弦相似性和Jaccard相似系数的改进,有效地提升了用户间相似性度量的准确性。(2)为了减轻用户评分主观性对推荐性能的影响,提出了兴趣偏向系数,并将其和用户评分应用于用户对物品兴趣度的度量,有效地提高了推荐结果的准确率和召回率,并且提高了算法的健壮性。(3)针对用户数据量过大时,协同过滤算法开销较高的问题,提出了一种结合兴趣偏向向量和深度森林的方法,实现了对用户的较准确分类,从而降低用户数据量,有效地提高算法的效率。(4)结合本文改进的推荐算法设计并实现了基于Java和SSM框架的电影管理和推荐系统。该系统能够实现用户数据、电影数据和日志数据管理以及热门物品,分类推荐,猜你喜欢三种电影推荐方式,具有很高的实用价值。
基于深度森林的Java代码漏洞挖掘算法研究
这是一篇关于抽象语法树,代码表示,深度森林,漏洞分类的论文, 主要内容为漏洞挖掘的价值在于显著降低计算机系统的信息安全风险,J2EE技术的快速发展及其在企业、政府机关等行业的广泛应用给漏洞挖掘带来了前所未有的严峻挑战,基于机器学习的漏洞挖掘方法也成为近年来一个重要的研究课题。作为源代码漏洞挖掘的研究热点,当前基于抽象语法树的代码表示方法在将语法树转换为序列时,存在不同结构的语法树被转换为相同序列,导致语义结构信息丢失的问题,而抽象语法树中无关节点的冗余信息则会造成训练时间变长并带来过拟合风险;此外如何使分类器更好地挖掘代码中的深层特征也还有待研究。为解决以上问题,本文提出剪枝语句树的代码表示方法(PST)并在其基础上建立基于剪枝语句树和深度森林的Java源代码漏洞分类模型(PSTDF),主要内容如下:(1)针对语法树转换为序列时不同结构的语法树被转换为相同序列导致语义结构信息丢失、语法树中无关节点的冗余信息带来的训练时间变长及过拟合问题,提出基于剪枝语句树的代码表示(PST方法)。PST方法将Java源代码解析为抽象语法树,接着对抽象语法树进行广度优先遍历生成语句树序列,再对序列中的每一棵语句树使用剪枝算法去除无关节点得到剪枝语句树序列。在公开数据集上进行比较实验的结果表明,PST方法能有效解决语法树转换为序列时的语义结构信息丢失并消除语法树无关节点中冗余信息的负面影响,在分类精度上相比现有方法提升约2.17%,训练时间降低约4.79%。(2)为使分类器更好地挖掘代码中的深层特征,本文以PST方法和深度森林为基础,提出基于剪枝语句树与改进深度森林的漏洞分类模型(PSTDF)。PSTDF的改进深度森林在原始深度森林多粒度扫描的基础上提出一种带预处理阶段的最大池化扫描。最大池化扫描在预处理阶段以宽度固定,高度不等的变长二维向量作为输入,对输入向量转置后对每一行进行最大池化,将变长二维向量转换为定长的一维向量,在扫描阶段以池化的每一行为窗口进行扫描,输出概率向量作为级联森林的输入。与原始多粒度扫描的对比实验结果表明:最大池化扫描能更有效地挖掘代码中的深层特征,相比原始多粒度扫描在精度上提升约1.54%。本文从理论分析和精度、召回率、F1分数、混淆矩阵等实验评价指标在公共数据集上将PSTDF与现有模型进行对比实验。实验结果表明PSTDF取得了比其他模型更显著的效果。
基于Spark环境下的机器学习在商品推荐中的应用研究
这是一篇关于推荐系统,Spark,逻辑回归,梯度提升决策树,深度森林,组合模型的论文, 主要内容为随着各大电商平台的产生和在线购物用户数量的不断增长,用户面对种类繁多的商品信息时会出现选择困难的情况,同时各个购物平台面对海量的用户群体也尝试各种营销方法对用户的购买意愿进行正向刺激以此来提升销售额。基于上述需求,推荐系统在当今社会中发挥着不可或缺的作用,它借助算法能够从海量的数据中为用户挑选用户想要的信息或者商品。本文采用阿里巴巴移动电商平台的真实用户行为数据,经选取后得到2014年11月22日至2014年12月5日的用户-商品交互行为数据,时间跨度为两周,该数据包含约1000万条样本数据,第一周的用户行为数据作为训练集,第二周的数据作为测试集,预测目标是用户在每周的周五是否购买用户在上周六至本周四发生过交互行为的商品,购买为正类,未购买为负类。首先训练集和测试集中分别通过用户、商品和商品类别三个角度进行特征提取,由于发生购买行为的样本占总样本的比例很小,数据的不平衡会导致模型性能的失效,因此对未发生购买行为的样本进行基于K均值聚类的下采样处理。采样过后的数据作为本文最终的建模数据。其次考虑到数据量很大,因此本文从Spark分布式环境出发,先分别单独使用逻辑回归(LR)、梯度提升决策树(GBDT)和随机森林(RF)进行建模分析,实验结果表明无论在训练集还是测试集中GBDT的效果最好,为进一步提高模型预测效果,融合Stacking和深度森林的思想,构造GBDT-RF-LR组合模型,使用并联的方式组合GBDT和RF并输出增强特征矩阵,与训练数据合并成新数据集,再使用逻辑回归进行训练,结果表明组合模型的拟合效果和泛化能力都要优于单个模型;在单机模式下,使用Spark环境下相同的模型和深度森林进行建模分析,最后对比两种环境下的结果,Spark分布式环境下的模型预测精度更高。因此,本文认为在商品推荐中应用Spark环境下组合模型的效果最好。
基于MMTD和用户的协同过滤推荐算法
这是一篇关于协同过滤,用户相似度,中介真值程度度量,兴趣偏向系数,深度森林,用户分类的论文, 主要内容为随着互联网的迅猛发展,网络上的信息量大幅度增长。信息的生产和消费产生了新的矛盾:生产者难以让自己生产的信息引人关注;消费者难以寻找到自己感兴趣的信息。为解决这一矛盾,推荐算法应运而生。基于邻域的推荐算法是推荐算法领域中应用最广泛的一种,受到学术界的广泛关注和深入研究。基于用户的协同过滤算法作为基于领域的推荐算法的重要组成部分,近年来取得了众多研究成果,但是这些算法在度量用户间的相似性时,都未能合理利用用户的正反馈数据,导致用户间的相似性度量不够准确。针对这一问题,本文将中介真值程度度量(Measure of Medium Truth Degree,MMTD)和兴趣偏向系数引入到协同过滤推荐算法,有效地利用了用户的正反馈数据,提高了用户间相似性度量的准确性。同时,在用户数据量过大时,基于用户的协同过滤算法开销较高。针对这一问题,本文将深度森林和兴趣偏向向量应用到用户分类上,一定程度上实现了降低开销的目标。实验结果表明,本文提出的方法能够有效提高推荐结果的准确率和召回率,具有很高的实用价值。论文首先对中介数学和中介真值程度度量方法进行了介绍,在此基础上对用户相似性度量,用户对物品兴趣度和用户分类进行了深入研究。主要工作如下:(1)针对目前基于用户的协同过滤算法中,未能充分合理利用用户正反馈数据度量用户间相似性的问题,提出了一种结合用户评分和MMTD的方法,并将其应用于传统的余弦相似性和Jaccard相似系数的改进,有效地提升了用户间相似性度量的准确性。(2)为了减轻用户评分主观性对推荐性能的影响,提出了兴趣偏向系数,并将其和用户评分应用于用户对物品兴趣度的度量,有效地提高了推荐结果的准确率和召回率,并且提高了算法的健壮性。(3)针对用户数据量过大时,协同过滤算法开销较高的问题,提出了一种结合兴趣偏向向量和深度森林的方法,实现了对用户的较准确分类,从而降低用户数据量,有效地提高算法的效率。(4)结合本文改进的推荐算法设计并实现了基于Java和SSM框架的电影管理和推荐系统。该系统能够实现用户数据、电影数据和日志数据管理以及热门物品,分类推荐,猜你喜欢三种电影推荐方式,具有很高的实用价值。
基于Spark环境下的机器学习在商品推荐中的应用研究
这是一篇关于推荐系统,Spark,逻辑回归,梯度提升决策树,深度森林,组合模型的论文, 主要内容为随着各大电商平台的产生和在线购物用户数量的不断增长,用户面对种类繁多的商品信息时会出现选择困难的情况,同时各个购物平台面对海量的用户群体也尝试各种营销方法对用户的购买意愿进行正向刺激以此来提升销售额。基于上述需求,推荐系统在当今社会中发挥着不可或缺的作用,它借助算法能够从海量的数据中为用户挑选用户想要的信息或者商品。本文采用阿里巴巴移动电商平台的真实用户行为数据,经选取后得到2014年11月22日至2014年12月5日的用户-商品交互行为数据,时间跨度为两周,该数据包含约1000万条样本数据,第一周的用户行为数据作为训练集,第二周的数据作为测试集,预测目标是用户在每周的周五是否购买用户在上周六至本周四发生过交互行为的商品,购买为正类,未购买为负类。首先训练集和测试集中分别通过用户、商品和商品类别三个角度进行特征提取,由于发生购买行为的样本占总样本的比例很小,数据的不平衡会导致模型性能的失效,因此对未发生购买行为的样本进行基于K均值聚类的下采样处理。采样过后的数据作为本文最终的建模数据。其次考虑到数据量很大,因此本文从Spark分布式环境出发,先分别单独使用逻辑回归(LR)、梯度提升决策树(GBDT)和随机森林(RF)进行建模分析,实验结果表明无论在训练集还是测试集中GBDT的效果最好,为进一步提高模型预测效果,融合Stacking和深度森林的思想,构造GBDT-RF-LR组合模型,使用并联的方式组合GBDT和RF并输出增强特征矩阵,与训练数据合并成新数据集,再使用逻辑回归进行训练,结果表明组合模型的拟合效果和泛化能力都要优于单个模型;在单机模式下,使用Spark环境下相同的模型和深度森林进行建模分析,最后对比两种环境下的结果,Spark分布式环境下的模型预测精度更高。因此,本文认为在商品推荐中应用Spark环境下组合模型的效果最好。
基于Spark环境下的机器学习在商品推荐中的应用研究
这是一篇关于推荐系统,Spark,逻辑回归,梯度提升决策树,深度森林,组合模型的论文, 主要内容为随着各大电商平台的产生和在线购物用户数量的不断增长,用户面对种类繁多的商品信息时会出现选择困难的情况,同时各个购物平台面对海量的用户群体也尝试各种营销方法对用户的购买意愿进行正向刺激以此来提升销售额。基于上述需求,推荐系统在当今社会中发挥着不可或缺的作用,它借助算法能够从海量的数据中为用户挑选用户想要的信息或者商品。本文采用阿里巴巴移动电商平台的真实用户行为数据,经选取后得到2014年11月22日至2014年12月5日的用户-商品交互行为数据,时间跨度为两周,该数据包含约1000万条样本数据,第一周的用户行为数据作为训练集,第二周的数据作为测试集,预测目标是用户在每周的周五是否购买用户在上周六至本周四发生过交互行为的商品,购买为正类,未购买为负类。首先训练集和测试集中分别通过用户、商品和商品类别三个角度进行特征提取,由于发生购买行为的样本占总样本的比例很小,数据的不平衡会导致模型性能的失效,因此对未发生购买行为的样本进行基于K均值聚类的下采样处理。采样过后的数据作为本文最终的建模数据。其次考虑到数据量很大,因此本文从Spark分布式环境出发,先分别单独使用逻辑回归(LR)、梯度提升决策树(GBDT)和随机森林(RF)进行建模分析,实验结果表明无论在训练集还是测试集中GBDT的效果最好,为进一步提高模型预测效果,融合Stacking和深度森林的思想,构造GBDT-RF-LR组合模型,使用并联的方式组合GBDT和RF并输出增强特征矩阵,与训练数据合并成新数据集,再使用逻辑回归进行训练,结果表明组合模型的拟合效果和泛化能力都要优于单个模型;在单机模式下,使用Spark环境下相同的模型和深度森林进行建模分析,最后对比两种环境下的结果,Spark分布式环境下的模型预测精度更高。因此,本文认为在商品推荐中应用Spark环境下组合模型的效果最好。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码客栈 ,原文地址:https://bishedaima.com/lunwen/53248.html