在线学习资源个性化推荐技术及其应用研究
这是一篇关于个性化推荐,大数据技术,主题模型,实时推荐,流式处理框架的论文, 主要内容为随着“互联网+”在教育领域的不断渗透,在线学习平台丰富的学习资源为人们获取信息提供了新的契机。但学习资源的多样性和广泛性导致数据呈指数级增长,致使平台用户难以获取满足自身需求的资源。为了追求平台的用户访问量和学习资源点击量,个性化学习资源推荐算法应运而生。它可根据学习者的行为日志挖掘和推送满足自身需求的学习资源,从而达到“个性化推荐”的目的。然而随着在线学习平台数据海量聚集,资源过度膨胀,传统推荐算法仍面临着由数据稀疏性问题导致的算法推荐精度不佳、推荐实时性滞后等问题。本文针对上述问题,对在线学习资源个性化推荐技术进行研究,将传统推荐算法与大数据技术相结合,提出了在线学习资源实时推荐算法,该算法基于混合相似度并行计算方法预测评分。论文的研究工作如下:(1)提出了一种融合LDA主题模型的混合相似度并行计算方法。首先分析Spark LDA和Spark ALS算法源码,证明本文算法并行计算的可行性。然后基于Spark算子,将学习资源特征文件并行分词后,基于Spark LDA建模得到主题-词概率分布RDD,利用KL散度计算基于主题-词概率分布的资源相似度RDD;并将资源评分文件基于Spark ALS并行训练隐语义模型,得到资源隐式特征向量后,利用余弦相似度计算基于资源隐式特征向量的资源相似度RDD。最后基于join算子及最优调参实验结果,计算得到学习资源的混合相似度RDD。实验结果表明,本文混合相似度并行计算方法减少时间消耗的同时提高了算法的推荐精度。(2)提出了一种在线学习资源实时推荐算法。该算法基于Spark Streaming流式处理框架实现。首先利用Flume日志采集工具进行学习者评分数据的采集。然后实时发送给Kafka消息中间件,进行日志的清理与提取。最后将评分数据推送到实时推荐算法。本算法基于混合相似度并行计算方法预测评分,在预测评分的基础上引入增强因子、减弱因子的同时加入评估时间的数据权重,从而使用户在最近几次评分后,可以明显获得推荐结果。实验结果表明,本文在线学习资源实时推荐算法能够有效解决推荐实时性滞后问题。(3)本文综合利用上述融合LDA主题模型的混合相似度并行计算方法和在线学习资源实时推荐算法设计了大数据环境下在线学习资源推荐系统。该系统包含离线推荐和实时推荐体系,具有一定的应用价值。
电商推荐系统关键技术研究
这是一篇关于电子商务,推荐系统,大数据技术,推荐系统架构,矩阵分解,关联规则挖掘的论文, 主要内容为得益于电子商务和移动互联网的快速发展,买家在电商平台中可以随时随地购买任何的商品,同时电商平台中海量的商品为买家带来了“商品过载”的困扰。在买家严格条件筛选下,呈现给买家的商品仍然令买家目不暇接。所以电子商务迫切的需要一个“导购员”,推荐系统通过挖掘买家与商品之间的二元关系,为买家提供个性化推荐服务。电子商务是推荐系统重要应用领域之一,电商推荐系统是一个复杂的系统工程,需要综合考虑运行环境、系统架构和算法模型。本论文的主要贡献以及优化创新工作为如下几点:(1)分析了当前大数据技术下的分布式存储和资源管理,介绍了当前HDFS的主节点单点隐患问题,HDFS的高可用改进方案,并详细介绍了如何对计算资源进行弹性管理。(2)对当前主流推荐系统架构和触发流程进行了研究,分析并指出传统推荐系统架构和触发流程存在的诸多缺陷,并提出一种改进的推荐系统架构和触发流程来提高推荐服务的性能。(3)针对传统的矩阵分解模型忽略负向反馈数据,导致推荐准确率无法继续提高的问题,提出了一种利用负向反馈数据集的矩阵分解模型。该模型通过使用AB Testing方法度量隐式反馈评分构建隐式反馈评分矩阵,并在数据集中加入了负向反馈数据,通过使用新的损失函数使模型与数据集达到最佳拟合。线上对比结果表明,该模型有效提升了电商平台的点击和转化。(4)当前电商推荐系统虽然可以为买家提供个性化推荐服务,但没有考虑推荐的商品是否为质优商品,针对这种情况本文提出了一种基于标签加权的关联规则挖掘算法,为买家提供高质量的个性化推荐。通过离线实验分析得到推荐商品集质量优于传统的关联规则挖掘算法。
电商推荐系统关键技术研究
这是一篇关于电子商务,推荐系统,大数据技术,推荐系统架构,矩阵分解,关联规则挖掘的论文, 主要内容为得益于电子商务和移动互联网的快速发展,买家在电商平台中可以随时随地购买任何的商品,同时电商平台中海量的商品为买家带来了“商品过载”的困扰。在买家严格条件筛选下,呈现给买家的商品仍然令买家目不暇接。所以电子商务迫切的需要一个“导购员”,推荐系统通过挖掘买家与商品之间的二元关系,为买家提供个性化推荐服务。电子商务是推荐系统重要应用领域之一,电商推荐系统是一个复杂的系统工程,需要综合考虑运行环境、系统架构和算法模型。本论文的主要贡献以及优化创新工作为如下几点:(1)分析了当前大数据技术下的分布式存储和资源管理,介绍了当前HDFS的主节点单点隐患问题,HDFS的高可用改进方案,并详细介绍了如何对计算资源进行弹性管理。(2)对当前主流推荐系统架构和触发流程进行了研究,分析并指出传统推荐系统架构和触发流程存在的诸多缺陷,并提出一种改进的推荐系统架构和触发流程来提高推荐服务的性能。(3)针对传统的矩阵分解模型忽略负向反馈数据,导致推荐准确率无法继续提高的问题,提出了一种利用负向反馈数据集的矩阵分解模型。该模型通过使用AB Testing方法度量隐式反馈评分构建隐式反馈评分矩阵,并在数据集中加入了负向反馈数据,通过使用新的损失函数使模型与数据集达到最佳拟合。线上对比结果表明,该模型有效提升了电商平台的点击和转化。(4)当前电商推荐系统虽然可以为买家提供个性化推荐服务,但没有考虑推荐的商品是否为质优商品,针对这种情况本文提出了一种基于标签加权的关联规则挖掘算法,为买家提供高质量的个性化推荐。通过离线实验分析得到推荐商品集质量优于传统的关联规则挖掘算法。
分布式电商商品与专利情报分析平台
这是一篇关于大数据技术,分布式,电商商品,知识产权的论文, 主要内容为随着互联网技术的快速发展,电子商务产业经济也随之增长,网购已成为人们日常生活中司空见惯的场景。然而,在电商行业,由于信息不对称或者大量无用的信息重复,买家总是难以鉴别产品质量,而电商不法商家总是与平台打假部门玩“猫捉老鼠”的游戏,行走在封号与注册的死循环中。同时,一些生产厂家的产品设计总是难以有创新点或创意点早有雷同却未发现,盲目地生产却得不到市场的认可,由此可见,大量的假冒伪劣产品已严重影响了电子商务行业的发展。大数据技术对来自多方面的信息进行处理,充分挖掘商品信息、金融信用、用户个人选择等关联信息,从看似不相关或没联系的数据信息中挖掘出与目标对象有关联的高价值情报。本课题结合本实验室20年来对知识产权的研究和近些年的大数据技术,开发了一个分布式电商商品与专利情报分析平台。将知识产权信息和商品信息进行综合关联,对电商商品进行更加深入挖掘和分析,让生产厂家在事前进行设计分析和行业比对,平台打假部门在事中进行预警分析,买家在购物过程中利用预警结果进行更好地商品分析。本论文的研究工作主要如下:第一:创新性地将电商商品信息和专利信息进行关联,利用大数据算法对商品信息和专利信息关联分析。一方面扩宽了电商商品横向的电商数据的比对,另一方面加深了电商商品和知识产权纵向的数据关联分析,使得数据分析结果更为深入、更为精准。第二:提升了数据处理能力,设计了分布式网络爬虫,设计了高速缓存和搭建了负载均衡数据库集群。在增加平台的数据量同时,保证了数据响应的效率以及利用读写分离和负载均衡技术,拆分数据库表数据,利用双机热备技术,提高了数据库可靠性。第三:设计并实现了对松耦合的不同业务服务进行分布式部署、整合,研究和利用分布式处理技术,把不同业务服务封装成独立业务模块的程序逻辑单元,实现了分布式电商商品与专利情报分析平台。实现系统业务功能的水平伸缩性扩展,提升系统整体的响应速度。本论文按照软件开发生命周期的基本要求了严格进行,开发了分布式电商商品与专利情报分析平台并最终发布上线。该平台实现了电商商品信息和专利信息关联,横向扩展了电商数据对比,纵向加深了电商数据挖掘。同时,利用分布式技术提升系统的运行速度和可靠性,提供了图搜商品、图搜专利、数据分析和预警报告等多项功能,为惠及更多的消费者、生产者和平台打假部门等提供支持,让电商数据发挥更大的商业价值。
基于大数据技术的社会救援力量信息管理系统研究
这是一篇关于社会力量,灾后救援,大数据技术,多标签分类,管理信息系统的论文, 主要内容为目前,我国各类灾害频繁发生,造成了巨大的人员伤亡和财产损失。社会力量作为灾后救援中的重要补充力量,积极地参与各类救灾活动,并在救援过程中发挥出自己独特的优势,如多渠道筹集社会资源、及时了解各类求助群体的需求和提供更加专业化的救助等。但在救援的过程中也存在一定的问题,如渠道不畅通、组织协调不畅、后期热情不高等。近年来,国家也越来越重视社会力量在灾后救援中的作用,并颁布了系列政策加以规范和有序引导社会力量参与灾后救援行动。因此,为了对社会救援力量进行科学管理和救援行动的有序引导,有必要搭建一个社会救援力量信息管理系统,用来收集社会力量的基础信息、救援信息、活动信息等,便于对全国社会力量统一管理和协作行动。按照软件工程的思想,本文完成了系统需求分析、系统概念设计、数据库设计、代码设计、开发框架和开发语言选择、系统测试、软件调试和运行等过程,开发了一套基于大数据技术的、前后端分离的、功能完善的社会救援力量信息管理系统,达到系统开发目标。该系统由六个功能模块组成,分别是门户网站模块、组织信息管理模块、灾情管理模块、需求管理模块、调度响应管理模块以及BBS论坛模块;采用B/S架构,Web端框架采用Django,后台开发语言为Python,数据库包括My SQL和HBASE,其中My SQL用于存储系统中的结构化数据,HBASE存放非结构化数据。该软件系统的开发和运行,可以为有关职能部门及时掌握社会救援力量信息,合理调配,以完成应急救援任务,提高救援效率,最大限度地降低人员伤亡和财产损失。这对应急救援具有重要的实际价值,对减少灾害损失、保护人民生命和财产安全、保障社会稳定具有重大经济效益和社会效益。论文主要创新点如下:(1)针对社会力量在参与救援过程中信息沟通不畅的问题,本文提出基于ALBERT和双向GRU的文本多标签分类模型,实现对站内论坛中的数据进行多标签分类。计算结果表明,该模型预测效果优于其他多标签分类模型,准确率达到95%,汉明损失达到0.05。(2)针对灾区社会救援力量动态变化快和信息模糊等特点,本文利用大数据技术,通过移动终端设备收集社会力量信息以及救灾活动数据,实现了动态数据的快速存取和可视化展示,满足了用户需求。
基于大数据技术的门禁通行数据分析平台设计与实现
这是一篇关于门禁数据,数据仓库,数据分析,大数据技术,可视化的论文, 主要内容为随着信息化、智能化时代的到来,基于3D人脸识别的门禁系统作为高校数字安防的核心应用,已经在高校中得到了广泛使用。这种门禁系统能够降低来自校园外部的威胁,从而保障校园里面人员、财产的安全。但是,现存的门禁系统,在对其海量数据的储存、管理及分析挖掘方面存在很大的不足。如何合理地处理和利用这些数据,成为了学校关心的重要问题。在此背景下,大数据技术应运而生,并在学术界以及工业界得到广泛认可和应用。其中,Hadoop技术以其良好的生态圈,并具有扩展性高、稳定性强、容错性高等优势,成为大数据处理领域的主流平台。基于Hadoop集群上开源数据仓库能够辅助学校管理。因此,越来越多高校构建属于自己的数据仓库系统,从而推动学校信息化建设迈向新台阶。数据仓库拥有面向主题,能够加工、处理、集成随时间变化的数据集。但是,传统的数据仓库只能处理偏结构化的数据,无法处理其他类型的数据。而校园中的数据不仅有结构化数据,还有非结构化数据以及半结构化数据。对其他非结构化的数据,数据仓库并不能做到很好的处理;也不能很好的解决“数据孤岛”。为了解决这些问题,打破“数据孤岛”,发挥数据的潜在价值。结合校园数据的相关业务特点以及业务需求,对3D人脸识别的通行门禁数据的储存、管理、分析统计挖掘,设计实现一个数据分析平台具有较大的现实意义。本文的主要工作如下:1.分析基于大数据技术的门禁数据分析平台的业务需求,具体包括数据备份,使用数据湖进行数据储存、管理,数据脱敏,在数据湖中设计实现数据仓库,使用知识图谱进行数据可视化的展示,自动化任务流程,数据分析挖掘统计,后台管理系统等相关模块。2.将数据湖等大数据技术应用到校园数据的储存、管理、分析。同时在数据湖的基础上,使用Kimball维度建模理论结合数据分层以及业务需求,进行数据仓库的设计,采用Apache Hive完成数据仓库的构建,使数据变得更加可靠,数据结构更加的明确,方便对数据进行血缘追踪,为数据开发提供便利。配合Azkaban任务调度工具,设计实现每日新增加数据的自动化处理。3.设计出一个基于校园门禁通行数据的人员行为异常的检测方法,采用Prefix Span算法对门禁用户及其每日进出地点、时间构建的路径序列以及时间序列进行模式挖掘,生成正常序列库。通过使用相对编辑距离以及相对支持度等方式对前日行为序列进行定量刻画,完成异常行为检测。通过实验分析,在选用的数据集上,采用本文设计的LSTM预测模型,效果要好于ARIMA等传统模型,并将此模型运用到实际的生产环境中进行使用。同时根据设定的规则,统计用户外出未归情况。4.对数据湖中相关结构化数据使用Neo4j进行知识图谱的构建,通过使用点和边的方式,更加直观的展示节点以及节点之间的关系。5.设计和实现后台管理系统,对平台进行管理。将SSM+Spring Boot+VUE等技术作为系统的框架,对平台用户、用户权限进行管理。最后对整个平台进行测试,验证平台的可用性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码项目助手 ,原文地址:https://bishedaima.com/lunwen/45463.html