分布式电商数据动态检测及查重系统设计与实现
这是一篇关于电商数据,动态检测,分布式查重系统的论文, 主要内容为随着网民增长和电子商务的蓬勃发展,电商网站的规模越来越大,电商网站上的数据呈现爆炸式增长。由于电子购物也成越来越成为了人们日常生活的一部分,电商网站的数据也就成为研究人员最为研究人们日常经济活动的重要研究对象,因此高效率的搜集电商网站信息显得非常重要。但电商网站上不仅存在大量数据,也存在着大量的冗余数据,而大量的冗余数据会严重影响电商数据收集的时间效率以及数据的准确度,因此为了保证电商数据的高效动态抓取,在抓取过程中必须对数据进行动态检测。目前存在着许多数据查重算法,但这些算法都是相对普世性质的,没有充分利用电商网站数据的特点。因此本文先调研和总结国内各大主流电商网站的特点,然后通过电商网站的特点提出了基于网址特征的布隆过滤器和基于网址指纹的网页查重算法,最后利用提出的新算法设计并实现了分布式电商数据查重系统。(一)基于网址特征的布隆过滤器算法。本章节针对电商网站网页实时分析过程对效率的特殊要求,分析了基于传统布隆过滤器查重的原理,指出其网址查重中忽略了网址信息冗余的缺陷,提出了一种改进的网址查重的方法——基于网址特征提取的布隆过滤方法。该方法首先定义网址特征;并通过改进后的相应算法对其进行量化、提取;根据网址特征训练网址过滤规则;最后根据规则去除网址的冗余信息后对网址进行布隆查重。通过对200多万条数据实验发现改进后的布隆过滤器的时间效率有了很大的提升,并随着数据量的增加时间效率提升更明显,证明了所提方法有效,并能很好满足应用需求。(二)基于网址指纹的网页查重算法。通过对电商网站的分析可知,当多个网址对应于同一个页面时,两个网址的相似度非常大;同时通过对传统网页查重么算法分析可知,传统的网页查重算法必须先将网页下载后再进行查重,这样无法改善网页收集的效率。基于这两点考虑,本课题提出了基于网址指纹的网页查重算法,该算法通过对网址的属性提取、量化,指纹提取训练出网址指纹,最后通过相似度比较判断网址与其它网址的相似度。最后通过220万条数据实验发现:基于网址指纹的网页查重算法能够保证较小的误差率(1%)的前提下查重的时间效率的提高11%,而且随着数据量的增大效果更明显。(三)基于主题的分布式查重系统的设计与实现。首先分析传统布隆过滤器的原理和缺陷,设计了一种基于主题的分布式查重系统,为了保证分布式查重系统的高效性、可靠性以及可维护性,本章节使用了第三章和第四章所研究的查重方法,并通过zookeeper和thrift框架实现了该系统,最后通过分析可知基于主题的分布式查重系统具有良好的维护性、可靠性,比较传统分布式查重系统其时间效率更高。
考虑配送时效敏感需求的供应链库存配置研究
这是一篇关于承诺配送时效,多级供应链,库存策略,电商数据的论文, 主要内容为随着电子商务的迅猛发展,如何配置库存以快速满足用户订单成为一个重要的运营问题。从需求侧看,电商的承诺配送时间影响消费者购买决策;从供给侧看,物流网络结构日趋复杂,商品库存存放在“中心仓”或“前置仓”显著影响配送时效。因此,在典型的多级供应网络下,平台企业如何规划物流网络供应关系以及库存存放位置和数量,以满足消费者需求,维持较高的服务水平的同时,实现降本增效?这是平台电商的运营痛点问题,也是本文拟研究的问题。本文以JD电商平台为代表的供应链作为研究对象,基于JD电商平台销量数据,通过数据预处理和偏相关性分析,发现承诺配送时间大于3天后需求明显降低甚至负相关。将承诺配送时间作为特征,采用以小时为级别的数据,利用长短期记忆网络方法进行需求预测,构建由库存成本和运输成本组成的物流成本最小化为目标函数,将非线性目标规划函数转化为线性规划,并通过CPLEX求解,得到供应关系和中心仓、前置仓的库存决策。考虑前置仓库存满足配送时效为1天、1天和2天以及所有配送时效的需求共3种前置仓库存满足策略,中心仓和前置仓具有提前期和分别持有简单或复杂安全库存水平时,比较服务水平和物流成本的关系,发现(1)用户需求关于配送时效敏感,且对承诺送达时间为1天的敏感性最强。(2)相同的前置仓最大库存容量下,随着前置仓可满足的不同承诺配送时间的需求增加,前置仓的用户需求平均满足率增加,平均配送时间缩短,物流成本增加。相同的前置仓满足策略下,随着前置仓的最大库存容量增加,前置仓的用户需求平均满足率提高,用户需求满足率下降,平均配送时间缩短,物流成本基本持平。(3)电商平台企业应权衡物流成本和服务水平的关系,根据企业发展战略采取不同的前置仓库存满足策略和安全库存策略。研究结果为电商平台企业物流网络规划和库存配置提供借鉴。
分布式电商数据动态检测及查重系统设计与实现
这是一篇关于电商数据,动态检测,分布式查重系统的论文, 主要内容为随着网民增长和电子商务的蓬勃发展,电商网站的规模越来越大,电商网站上的数据呈现爆炸式增长。由于电子购物也成越来越成为了人们日常生活的一部分,电商网站的数据也就成为研究人员最为研究人们日常经济活动的重要研究对象,因此高效率的搜集电商网站信息显得非常重要。但电商网站上不仅存在大量数据,也存在着大量的冗余数据,而大量的冗余数据会严重影响电商数据收集的时间效率以及数据的准确度,因此为了保证电商数据的高效动态抓取,在抓取过程中必须对数据进行动态检测。目前存在着许多数据查重算法,但这些算法都是相对普世性质的,没有充分利用电商网站数据的特点。因此本文先调研和总结国内各大主流电商网站的特点,然后通过电商网站的特点提出了基于网址特征的布隆过滤器和基于网址指纹的网页查重算法,最后利用提出的新算法设计并实现了分布式电商数据查重系统。(一)基于网址特征的布隆过滤器算法。本章节针对电商网站网页实时分析过程对效率的特殊要求,分析了基于传统布隆过滤器查重的原理,指出其网址查重中忽略了网址信息冗余的缺陷,提出了一种改进的网址查重的方法——基于网址特征提取的布隆过滤方法。该方法首先定义网址特征;并通过改进后的相应算法对其进行量化、提取;根据网址特征训练网址过滤规则;最后根据规则去除网址的冗余信息后对网址进行布隆查重。通过对200多万条数据实验发现改进后的布隆过滤器的时间效率有了很大的提升,并随着数据量的增加时间效率提升更明显,证明了所提方法有效,并能很好满足应用需求。(二)基于网址指纹的网页查重算法。通过对电商网站的分析可知,当多个网址对应于同一个页面时,两个网址的相似度非常大;同时通过对传统网页查重么算法分析可知,传统的网页查重算法必须先将网页下载后再进行查重,这样无法改善网页收集的效率。基于这两点考虑,本课题提出了基于网址指纹的网页查重算法,该算法通过对网址的属性提取、量化,指纹提取训练出网址指纹,最后通过相似度比较判断网址与其它网址的相似度。最后通过220万条数据实验发现:基于网址指纹的网页查重算法能够保证较小的误差率(1%)的前提下查重的时间效率的提高11%,而且随着数据量的增大效果更明显。(三)基于主题的分布式查重系统的设计与实现。首先分析传统布隆过滤器的原理和缺陷,设计了一种基于主题的分布式查重系统,为了保证分布式查重系统的高效性、可靠性以及可维护性,本章节使用了第三章和第四章所研究的查重方法,并通过zookeeper和thrift框架实现了该系统,最后通过分析可知基于主题的分布式查重系统具有良好的维护性、可靠性,比较传统分布式查重系统其时间效率更高。
基于语义的电商网页内容查重研究及系统设计与实现
这是一篇关于电商数据,语义树,相似度比较,查重的论文, 主要内容为随着网民增长和电子商务的蓬勃发展,电商网站的规模越来越大,电商网站上的数据呈现爆炸式增长。由于电子购物也成越来越成为了人们日常生活的一部分,电商网站的数据也就成为研究人员日常经济活动的重要研究对象。但电商网站的海量数据中存在大量冗余数据,而大量的冗余数据会严重影响电商数据收集的时间效率以及数据的准确度,并且对于各大电商争相竞争的大环境下,如何从多源电商的数据中构建统一的商品查重的规则,也变得十分必要。因此为了使用户能够更好的对比这些信息,就必须对这些重复的数据进行查重检测。本文首先介绍了整篇文章所需要使用的技术。利用自动化测试框架Selenium,来进行数据的抓取,这是整个系统的基础。接着介绍了 wordnet语义标准,本文会利用它的标准来建立表述电商语义树模型的各个节点。利用构造好的标准语义树来进行商品之间相似度的计算。(一)利用selenium框架爬取电商网站的信息。自动化测试框架一般用于web服务的测试,但是本文利用它对于页面js的解析和基于标签和xpath提取页面元素的能力,配合phantomjs无界面浏览器内核,将其用于电商数据的爬取,减少前端页面的渲染时间,提升爬取速度。(二)语义树模型的构建表征电商网站。本文对于各大主流的电商网站的结构进行了调研,比较他们在层级分类上的相似性,将其统一映射到相同结构的语义树上。并且利用wordnet标准语义去统一每一层节点对于不同电商网站商品的描述,将不同的电商网站的商品信息完全统一到同一棵语义树上。(三)利用语义树进行商品查重。因为语义树已经定义好了标准的商品的表述,所以可以通过比较商品在这棵语义树上映射的路径是否相同来判断他们是否属于相同或者相似的商品。(四)电商数据爬取系统的设计与商品相似度比较系统的设计。因为采用树型的结构来描述电商数据,所以数据库的存储结构的设计采用了层级关系模型,这样可以大大减少数据冗余存储。整个服务的设计采用多线程处理方式,能够同时对于多个电商网站同时进行数据的爬取,因为最后他们使用同一个模型表征,存储在同一个数据库中,所以不用担心数据的混淆。商品相似度的比较就是利用这种树型的语义模型来实现每个节点的比较。
分布式电商数据动态检测及查重系统设计与实现
这是一篇关于电商数据,动态检测,分布式查重系统的论文, 主要内容为随着网民增长和电子商务的蓬勃发展,电商网站的规模越来越大,电商网站上的数据呈现爆炸式增长。由于电子购物也成越来越成为了人们日常生活的一部分,电商网站的数据也就成为研究人员最为研究人们日常经济活动的重要研究对象,因此高效率的搜集电商网站信息显得非常重要。但电商网站上不仅存在大量数据,也存在着大量的冗余数据,而大量的冗余数据会严重影响电商数据收集的时间效率以及数据的准确度,因此为了保证电商数据的高效动态抓取,在抓取过程中必须对数据进行动态检测。目前存在着许多数据查重算法,但这些算法都是相对普世性质的,没有充分利用电商网站数据的特点。因此本文先调研和总结国内各大主流电商网站的特点,然后通过电商网站的特点提出了基于网址特征的布隆过滤器和基于网址指纹的网页查重算法,最后利用提出的新算法设计并实现了分布式电商数据查重系统。(一)基于网址特征的布隆过滤器算法。本章节针对电商网站网页实时分析过程对效率的特殊要求,分析了基于传统布隆过滤器查重的原理,指出其网址查重中忽略了网址信息冗余的缺陷,提出了一种改进的网址查重的方法——基于网址特征提取的布隆过滤方法。该方法首先定义网址特征;并通过改进后的相应算法对其进行量化、提取;根据网址特征训练网址过滤规则;最后根据规则去除网址的冗余信息后对网址进行布隆查重。通过对200多万条数据实验发现改进后的布隆过滤器的时间效率有了很大的提升,并随着数据量的增加时间效率提升更明显,证明了所提方法有效,并能很好满足应用需求。(二)基于网址指纹的网页查重算法。通过对电商网站的分析可知,当多个网址对应于同一个页面时,两个网址的相似度非常大;同时通过对传统网页查重么算法分析可知,传统的网页查重算法必须先将网页下载后再进行查重,这样无法改善网页收集的效率。基于这两点考虑,本课题提出了基于网址指纹的网页查重算法,该算法通过对网址的属性提取、量化,指纹提取训练出网址指纹,最后通过相似度比较判断网址与其它网址的相似度。最后通过220万条数据实验发现:基于网址指纹的网页查重算法能够保证较小的误差率(1%)的前提下查重的时间效率的提高11%,而且随着数据量的增大效果更明显。(三)基于主题的分布式查重系统的设计与实现。首先分析传统布隆过滤器的原理和缺陷,设计了一种基于主题的分布式查重系统,为了保证分布式查重系统的高效性、可靠性以及可维护性,本章节使用了第三章和第四章所研究的查重方法,并通过zookeeper和thrift框架实现了该系统,最后通过分析可知基于主题的分布式查重系统具有良好的维护性、可靠性,比较传统分布式查重系统其时间效率更高。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设港湾 ,原文地址:https://bishedaima.com/lunwen/55944.html