面向移动应用商店的分布式爬虫系统设计与实现
这是一篇关于分布式爬虫,移动应用商店,URL 分类,信息提取的论文, 主要内容为近年来,随着移动互联网的不断发展和市场需求的不断拉动,移动应用软件的数量以爆炸性的速度增长,移动应用商店也成为推广应用软件的最主要平台之一。由于缺乏有效的监管,移动应用商店中的应用软件良莠不齐,存在严重安全隐患,针对移动应用软件进行安全检测的需求与日俱增。基于此,本文设计并实现了面向移动应用商店的分布式爬虫系统,用以采集移动应用商店中的应用软件信息与样本,为移动应用软件的安全检测提供数据支持。本文首先介绍了系统的研究背景,概述了前人在网络爬虫方面的研究成果,并对本系统所用到的关键技术进行了深入研究,包括移动应用商店网站结构的分析、网络爬虫设计原理和爬行策略的研究、Scrapy框架的介绍以及分布式网络爬虫架构的研究。基于相关关键技术的研究,本文提出了一种基于URL分类的抓取策略,并且对爬虫系统的整体架构和各功能模块作出了详细设计,包括控制管理服务器、爬虫服务器等关键模块设计的详细阐述。最后,本文论述了面向移动应用商店的分布式爬虫系统的具体实现,并设计了几组与传统爬虫系统的对照实验,通过实验数据证明了本文所提出的抓取策略的可行性与有效性,以及本文所使用的分布式爬虫系统的高效性。本文主要完成了以下工作:1.为了提高系统的采集效率,同时使系统具有良好的可扩展性,本文设计并实现了混合模式的分布式爬虫系统架构,克服了主从模式下由于爬行数量增加而导致系统性能下降的困难,能够方便的进行爬行节点的添加与删除,并制定了适用于移动应用商店网络爬虫系统的分布式任务下发策略。2.围绕如何提高爬虫系统的采集效率展开深入研究,结合移动应用商店网站结构的特点,在传统的广度优先抓取策略基础上提出了一种基于URL分类的抓取策略,详细介绍了该策略的算法,并做了设计与实现。3.为了提高软件信息采集的可靠性,对动态网页数据的采集做了详细研究,使用了 selenium+phantomjs组合模拟浏览器、网络抓包分析URL规律等方法来实现动态网页数据的抓取。4.为了提高数据样本的覆盖率,本系统实现了对目前市场上主流的50多家第三方移动应用商店的应用软件信息采集。
房地产信息垂直搜索引擎技术研究
这是一篇关于聚焦网络爬虫,隐马尔可夫,隧道技术,倒排索引,信息提取的论文, 主要内容为由于计算机及网络的飞速发展,因特网上的信息量呈指数级增长。当使用通用搜索引擎来搜索相关的信息时,准确率越来越令人难以接受,有时候甚至访问了几十个页面都无法找到所需的内容,这对于一般人是无法接受的。面对这个问题,垂直搜索引擎应运而生。垂直搜索引擎的出现能够解决通用搜索引擎的领域性不足问题,对特定领域的搜索能够做到更加专注、更加深入、更加精确。 本文课题是针对近年来房地产的现状,设计并实现了房地产垂直搜索引擎。其中重点研究垂直搜索引擎中的两个关键技术:网络爬虫和中文分词。本文的主要内容如下: (1)介绍了研究背景和意义、搜索引擎的概述以及垂直搜索引擎的国内外现状和发展。 (2)介绍了垂直搜索引擎所涉及的相关技术,包括网络爬虫技术、网页信息提取技术、中文分词技术、信息索引技术和搜索结果排序技术。 (3)深入研究了Shark-Search算法,分析其存在的两个不足之处:锚文本上下文不足和局部最优不足。针对这两个不足之处提出了改进,分别加入了链接聚类和隧道技术。链接聚类能够解决Shark-Search算法的锚文本上下文不足之处,而隧道技术则能够解决主题孤岛效应,从而避免局部最优问题。实验表明改进后的算法相比原来算法在抓取主题相关的页面上有显著提高。 (4)研究了概率统计模型的一种——隐马尔可夫模型,并且将其和词性标注相结合,加入自定义状态和自定义标注,经过计算来确立最大概率的状态序列,从而能够有效地识别房地产命名实体。 (5)结合前几章提出的理论,实现了房地产垂直搜索引擎系统,其中包括五大部分:网络爬虫、页面处理、中文分词、信息索引、信息搜索。 (6)对论文做了全面的总结,并对未来的研究工作进行了展望。
基于互联网信息挖掘的经营监管系统的设计与实现
这是一篇关于数据采集,电子商务,信息提取的论文, 主要内容为随着现代计算机技术的发展,特别是计算机网络的普及,各种网络应用技术逐渐发展并成熟起来,包括新闻浏览、实时通讯、电子邮件、网上交易等。电子商务虽然起步比较晚,但其交易环节少、交易成本低,因而得到了迅速的发展,与此同时,一些经营者利用互联网进行不正当竞争行为的问题也逐渐显露了出来,严重干扰了网上交易的秩序,对我国电子商务的开展产生了不可忽视的负面影响。因此目前我国急需一种既能够对企业的电子商务活动进行有效监管,又能够对消费者的银行账号等个人信息和合法权益妥善保护的系统来为我国的电子商务保驾护航,使之能够沿着正确的途径快递发展。本文运用软件工程原理,通过系统需求获分析、软件设计思想与体系架构、系统功能设计与实现,描述了应用于工商管理对互联网经营监管的系统的设计与实现过程。本文通过用例分析与业务流程分析方式描述了系统功能性需求,通过技术架构设计和功能架构设计描述了系统总体设计,通过展示系统功能实现效果图和功能实现活动图描述了系统实现功能以及系统具体功能实现过程。系统的设计基于J2EE+JAVA技术路线、B/A/S技术架构和WEB多层体系开发框架,实现了工商互联网上经营经济户口的主体备案、互联网巡查管理功能、举报与申诉排查功能以及与其它执法网站系统对接的功能。
行政区划地名知识图谱的构建方法研究
这是一篇关于行政区划地名,知识图谱,信息提取,Bi-LSTM模型,CRF模型的论文, 主要内容为行政区划是行政区域划分的简称,是国家为了更好对各地的经济、政治、文化进行分级管理的一种有效手段。行政区划地名信息记载着城市的前世今生,特别是建国70年以来,行政区划地名是中国经济、历史和文化的真实反映,同时也是我国政治、政策和管理的目标体现,具有十分重要的价值和研究意义。自1949年以来,我国行政区划变更信息量十分巨大,但是对这些信息深层次利用较少,特别是对于各个省市的经济、社会、文化发展和研究亟需行政区划地名变更信息和空间数据的支持。随着当前信息时代人工智能技术的飞速发展,特别是知识图谱技术对于多源、异构等海量数据分析和表达的有效性,使得知识图谱技术为行政区划地名信息的处理和时空演变研究提供了一种新的思路和方法。本文开展基于多源数据的行政区划地名知识图谱的构建方法研究,通过多源异构的行政区划地名信息提取、融合、可视化表达等,系统的梳理1949年之后的行政区划地名变更信息,展现建国70年以来行政区划地名演变过程和规律。本文具体的研究内容和取得的成果如下:(1)基于多源数据的行政区划地名特征分析:收集《中华人民共和国行政区划简册》、各省市区地方志、行政区划网和博雅地名网等多源行政区划地名数据,分析各种来源的行政区划地名数据的优势和不足,采集权威、全面和互补的行政区划地名数据,形成行政区划地名演变信息,并分析行政区划地名及其演变信息的时间特征、空间特征和属性特征。(2)行政区划地名演变信息提取方法:研究基于规则模型的时间信息提取方法、基于Bi-LSTM和CRF集成的行政区划地名提取方法、基于Bi-LSTM和双层Attention集成的行政区划地名沿革关系提取方法、基于百科知识库和词向量的行政区划地名语义消歧方法和基于属性知识库的行政区划地名属性填充方法对行政区划地名演变信息进行信息提取。实验结果表明,基于规则模型的时间信息提取方法在行政区划地名演变信息中提取准确率为99.12%,召回率为98.14%,F值为98.63%;基于Bi-LSTM和CRF集成的行政区划地名提取方法在混合语料上的提取准确率为95.09%,召回率为93.17%,F值为94.12%;基于Bi-LSTM和双层Attention集成的行政区划地名沿革关系提取方法在行政区划地名演变信息中提取准确率为97.61%,召回率为93.76%,F值95.65%。(3)行政区划地名知识图谱的构建及应用:研究基于图数据库Neo4j的行政区划地名存储和可视化表达,以及行政区划地名统计分析和时空演变模式分析,挖掘行政区划地名的演变规律和特征。基于行政区划地名知识图谱开展行政区划地名属性信息和沿革关系查询应用;基于2015年安徽省乡镇区划矢量图和行政区划地名沿革关系信息,进行安徽省区县级以上行政区划地名1949年以来的空间范围推演,构建行政区划地名时空数据库,开发基于知识图谱的行政区划地名时空信息可视化联动平台,实现行政区划地名知识图谱和行政区划地名时空范围的关联和表达。
基于在线用户需求挖掘与可拓学的老年代步车设计研究
这是一篇关于用户在线评论,数据挖掘,信息提取,可拓学,老年代步车的论文, 主要内容为近年来,随着中国电商平台的强势崛起,电商产业已成为我国重要的商品销售渠道,越来越多的用户使用电商平台完成购物,并通过开放的产品评论区发表对该产品的情感表达以及消费体验,而产品评论板块也成为了用户与用户之间交流的平台、企业了解用户需求的重要途经。产品在线评论为企业和设计师提供了有价值的信息,同时也方便企业和设计师更好地了解用户需求和偏好,以及市场上现有产品的不足。针对用户在线需求挖掘在工业设计前端任务中,出现的数据应用效率与转化效率不足的问题,本文基于在线用户体验数据挖掘和可拓分析,提出一种用于有效设计信息提取、分析与策略推理的可拓设计信息分析方法,并结合老年代步车用户在线数据的挖掘与设计实践,系统分析和验证了该方法的可行性和有效性研究。本文主要从以下研究内容展开研究:(1)设计信息提取与分析方法研究。通过数据挖掘实验完成用户在线评论的数据采集、数据预处理、分类算法训练以及数据分类,从而获得用户正面与负面体验数据集。根据数据实验结果结合,可拓学理论,以定性与定量相结合的研究方法研究负面数据中的设计有效信息,通过提取、建模、分析、关联、变换等五步构建可拓设计信息分析方法。针对用户负面数据集中的设计有效信息进行信息提取,根据可拓学类基元理论构建设计特征分析模型与产品信息分析模型,对用户特征数据、产品特征数据与产品信息数据进行相关分析,并依据可拓学共轭分析方法梳理数据中的相互关系,建立特征关系准则;根据可拓复合元理论构建设计信息关联变换模型,结合特征关系准则将用户信息与产品信息进行关联变换分析,从而推导出最终产品设计策略。(2)老年代步车造型设计研究。首先通过爬虫技术获取产品图像数据,筛选得到老年代步车代表性产品样本,再结合产品类目分析方法建立产品类目,得到老年代步车代表性造型设计风格;然后根据造型设计风格提取产品图片样本中共性造型要素作为造型设计元素,并结合形状文法对设计元素进行元素推演,进而得出产品造型设计元素集;最终根据元素集结合产品设计策略,确定老年代步车的造型设计策略,并用于造型设计实践,得到并评价最终设计方案。
行政区划地名知识图谱的构建方法研究
这是一篇关于行政区划地名,知识图谱,信息提取,Bi-LSTM模型,CRF模型的论文, 主要内容为行政区划是行政区域划分的简称,是国家为了更好对各地的经济、政治、文化进行分级管理的一种有效手段。行政区划地名信息记载着城市的前世今生,特别是建国70年以来,行政区划地名是中国经济、历史和文化的真实反映,同时也是我国政治、政策和管理的目标体现,具有十分重要的价值和研究意义。自1949年以来,我国行政区划变更信息量十分巨大,但是对这些信息深层次利用较少,特别是对于各个省市的经济、社会、文化发展和研究亟需行政区划地名变更信息和空间数据的支持。随着当前信息时代人工智能技术的飞速发展,特别是知识图谱技术对于多源、异构等海量数据分析和表达的有效性,使得知识图谱技术为行政区划地名信息的处理和时空演变研究提供了一种新的思路和方法。本文开展基于多源数据的行政区划地名知识图谱的构建方法研究,通过多源异构的行政区划地名信息提取、融合、可视化表达等,系统的梳理1949年之后的行政区划地名变更信息,展现建国70年以来行政区划地名演变过程和规律。本文具体的研究内容和取得的成果如下:(1)基于多源数据的行政区划地名特征分析:收集《中华人民共和国行政区划简册》、各省市区地方志、行政区划网和博雅地名网等多源行政区划地名数据,分析各种来源的行政区划地名数据的优势和不足,采集权威、全面和互补的行政区划地名数据,形成行政区划地名演变信息,并分析行政区划地名及其演变信息的时间特征、空间特征和属性特征。(2)行政区划地名演变信息提取方法:研究基于规则模型的时间信息提取方法、基于Bi-LSTM和CRF集成的行政区划地名提取方法、基于Bi-LSTM和双层Attention集成的行政区划地名沿革关系提取方法、基于百科知识库和词向量的行政区划地名语义消歧方法和基于属性知识库的行政区划地名属性填充方法对行政区划地名演变信息进行信息提取。实验结果表明,基于规则模型的时间信息提取方法在行政区划地名演变信息中提取准确率为99.12%,召回率为98.14%,F值为98.63%;基于Bi-LSTM和CRF集成的行政区划地名提取方法在混合语料上的提取准确率为95.09%,召回率为93.17%,F值为94.12%;基于Bi-LSTM和双层Attention集成的行政区划地名沿革关系提取方法在行政区划地名演变信息中提取准确率为97.61%,召回率为93.76%,F值95.65%。(3)行政区划地名知识图谱的构建及应用:研究基于图数据库Neo4j的行政区划地名存储和可视化表达,以及行政区划地名统计分析和时空演变模式分析,挖掘行政区划地名的演变规律和特征。基于行政区划地名知识图谱开展行政区划地名属性信息和沿革关系查询应用;基于2015年安徽省乡镇区划矢量图和行政区划地名沿革关系信息,进行安徽省区县级以上行政区划地名1949年以来的空间范围推演,构建行政区划地名时空数据库,开发基于知识图谱的行政区划地名时空信息可视化联动平台,实现行政区划地名知识图谱和行政区划地名时空范围的关联和表达。
基于在线用户需求挖掘与可拓学的老年代步车设计研究
这是一篇关于用户在线评论,数据挖掘,信息提取,可拓学,老年代步车的论文, 主要内容为近年来,随着中国电商平台的强势崛起,电商产业已成为我国重要的商品销售渠道,越来越多的用户使用电商平台完成购物,并通过开放的产品评论区发表对该产品的情感表达以及消费体验,而产品评论板块也成为了用户与用户之间交流的平台、企业了解用户需求的重要途经。产品在线评论为企业和设计师提供了有价值的信息,同时也方便企业和设计师更好地了解用户需求和偏好,以及市场上现有产品的不足。针对用户在线需求挖掘在工业设计前端任务中,出现的数据应用效率与转化效率不足的问题,本文基于在线用户体验数据挖掘和可拓分析,提出一种用于有效设计信息提取、分析与策略推理的可拓设计信息分析方法,并结合老年代步车用户在线数据的挖掘与设计实践,系统分析和验证了该方法的可行性和有效性研究。本文主要从以下研究内容展开研究:(1)设计信息提取与分析方法研究。通过数据挖掘实验完成用户在线评论的数据采集、数据预处理、分类算法训练以及数据分类,从而获得用户正面与负面体验数据集。根据数据实验结果结合,可拓学理论,以定性与定量相结合的研究方法研究负面数据中的设计有效信息,通过提取、建模、分析、关联、变换等五步构建可拓设计信息分析方法。针对用户负面数据集中的设计有效信息进行信息提取,根据可拓学类基元理论构建设计特征分析模型与产品信息分析模型,对用户特征数据、产品特征数据与产品信息数据进行相关分析,并依据可拓学共轭分析方法梳理数据中的相互关系,建立特征关系准则;根据可拓复合元理论构建设计信息关联变换模型,结合特征关系准则将用户信息与产品信息进行关联变换分析,从而推导出最终产品设计策略。(2)老年代步车造型设计研究。首先通过爬虫技术获取产品图像数据,筛选得到老年代步车代表性产品样本,再结合产品类目分析方法建立产品类目,得到老年代步车代表性造型设计风格;然后根据造型设计风格提取产品图片样本中共性造型要素作为造型设计元素,并结合形状文法对设计元素进行元素推演,进而得出产品造型设计元素集;最终根据元素集结合产品设计策略,确定老年代步车的造型设计策略,并用于造型设计实践,得到并评价最终设计方案。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计工坊 ,原文地址:https://bishedaima.com/lunwen/46867.html