面向APT攻击检测的网络知识图谱构建
这是一篇关于APT攻击,编辑距离,行为归约,马尔科夫模型,知识图谱的论文, 主要内容为高级持续性威胁(APT)具有针对性强、隐蔽性好、破坏性大等特点,其攻击检测面临严峻挑战。传统攻击检测方法均是针对APT攻击生命周期中某一个或部分阶段因而对APT攻击检测效果差。基于网络行为特征的异常检测方法覆盖APT攻击全生命周期数据,但因网络自相似性导致其误报率高;因需处理大规模网络原始数据导致高资源消耗;同时需要建立支撑APT攻击检测的网络行为知识库。因此本文在现有网络行为异常检测技术的基础上,结合网络行为时间步阶,提出了一种基于网络行为多维特征编辑距离的网络行为归约方法;从网络行为间逻辑关系角度入手,提出了一种基于马尔科夫模型的网络行为逻辑链构建方法;基于知识图谱技术,构建了面向APT攻击检测的网络知识图谱。针对当前异常检测方法需处理大规模网络原始数据而引发的高功耗、低检测效率等问题,提出了基于网络行为多维特征编辑距离的网络行为归约方法,通过网络行为多维特征将网络行为量化表征,计算待检测网络行为与预设网络行为各字段编辑距离,通过对不同字段采取不同匹配策略,结合网络行为时间步阶,实现网络行为归约;实验结果表明,在不降低网络行为有效信息量的情况下,本文提出的方法将数据量降低到原有数据规模的10%以下,为低功耗的APT攻击检测提供了支撑。针对当前异常检测方法依赖于网络自相似性而导致的高误报率问题,提出了一种基于马尔科夫模型的网络行为逻辑链构建方法,通过马尔科夫模型提取网络行为间状态移概率、状态转移分布等特征,挖掘网络行为间逻辑关系,构建网络行为逻辑链,并结合随机游走策略去除关系性较弱的链。针对当前APT检测研究中缺乏支撑APT攻击检测的网络知识库的问题,基于知识图谱技术,依据构建的网络行为逻辑链,以网络行为为节点、网络行为转移关系为边,网络行为状态转移概率等特征为边属性,构建网络知识图谱,为未知APT攻击检测提供支撑。实验表明,本文构建的知识图谱用于APT攻击检测,在基于NS-3构建的仿真数据集上,漏报率为6.27%,误报率为5.64%,检测效果均高于同类APT攻击检测方法。基于上述研究的技术和方法,设计并实现了面向APT攻击的仿真验证平台,实现了网络流量采集、网络数据预处理、网络知识图谱管理、APT攻击检测等模块。通过APT模拟工具攻击测试表明,本平台在进行APT攻击检测时,数据预处理时间更短,误报率更低,验证了所提出方法的可行性和有效性。
面向APT攻击检测的网络知识图谱构建
这是一篇关于APT攻击,编辑距离,行为归约,马尔科夫模型,知识图谱的论文, 主要内容为高级持续性威胁(APT)具有针对性强、隐蔽性好、破坏性大等特点,其攻击检测面临严峻挑战。传统攻击检测方法均是针对APT攻击生命周期中某一个或部分阶段因而对APT攻击检测效果差。基于网络行为特征的异常检测方法覆盖APT攻击全生命周期数据,但因网络自相似性导致其误报率高;因需处理大规模网络原始数据导致高资源消耗;同时需要建立支撑APT攻击检测的网络行为知识库。因此本文在现有网络行为异常检测技术的基础上,结合网络行为时间步阶,提出了一种基于网络行为多维特征编辑距离的网络行为归约方法;从网络行为间逻辑关系角度入手,提出了一种基于马尔科夫模型的网络行为逻辑链构建方法;基于知识图谱技术,构建了面向APT攻击检测的网络知识图谱。针对当前异常检测方法需处理大规模网络原始数据而引发的高功耗、低检测效率等问题,提出了基于网络行为多维特征编辑距离的网络行为归约方法,通过网络行为多维特征将网络行为量化表征,计算待检测网络行为与预设网络行为各字段编辑距离,通过对不同字段采取不同匹配策略,结合网络行为时间步阶,实现网络行为归约;实验结果表明,在不降低网络行为有效信息量的情况下,本文提出的方法将数据量降低到原有数据规模的10%以下,为低功耗的APT攻击检测提供了支撑。针对当前异常检测方法依赖于网络自相似性而导致的高误报率问题,提出了一种基于马尔科夫模型的网络行为逻辑链构建方法,通过马尔科夫模型提取网络行为间状态移概率、状态转移分布等特征,挖掘网络行为间逻辑关系,构建网络行为逻辑链,并结合随机游走策略去除关系性较弱的链。针对当前APT检测研究中缺乏支撑APT攻击检测的网络知识库的问题,基于知识图谱技术,依据构建的网络行为逻辑链,以网络行为为节点、网络行为转移关系为边,网络行为状态转移概率等特征为边属性,构建网络知识图谱,为未知APT攻击检测提供支撑。实验表明,本文构建的知识图谱用于APT攻击检测,在基于NS-3构建的仿真数据集上,漏报率为6.27%,误报率为5.64%,检测效果均高于同类APT攻击检测方法。基于上述研究的技术和方法,设计并实现了面向APT攻击的仿真验证平台,实现了网络流量采集、网络数据预处理、网络知识图谱管理、APT攻击检测等模块。通过APT模拟工具攻击测试表明,本平台在进行APT攻击检测时,数据预处理时间更短,误报率更低,验证了所提出方法的可行性和有效性。
水务知识图谱构建的技术研究与系统实现
这是一篇关于水务知识图谱,编辑距离,LDA,信息推荐,语义距离的论文, 主要内容为随着水利信息的发展,水务数据存在的多源异构性和数据量庞大等问题越来越严重。北京市水务局内部拥有大量结构化监测数据和非结构化文本数据,且数据存储位置多样化,除此之外网络上也存在大量水务相关数据。需要从对象分类层面以及数据类型层面对这些数据进行整合,从而进一步实现数据的共享以便于水务相关人员查询数据。基于当前水务数据的分布和用户对综合数据的需求,有必要开发一种能够集成大量多源异构数据并进行应用的模型。利用知识图谱,可以进行数据的整合以及知识的可视化和信息推荐。因此,面对上述这些情况,本文需要寻找针对于水务数据的知识图谱的构建方法,从而建立一个水务知识图谱构建系统,实现知识图谱在水务业务中的应用。本文全面介绍了水务知识图谱构建和应用过程的相关技术,主要包含以下几方面工作:首先,需要更深入地了解知识图谱的构建背景以及现状,现有的数据特点和知识图谱的应用现状等问题。本文选择自顶向下和自底向上相结合的综合性方法来构建水务顶层知识图谱,借鉴了Wordnet词库、Dbpedia词典、水行业标准文档及水务专家知识经验。其中结构化数据使用的是D2RQ工具执行的RDF文本的数据转换,非结构化数据运用Jieba进行文本分词,连接CN-Dbpedia网络词典扩展词汇信息,并使用Jena工具实现RDF文本的转换。转换后的RDF文件与先前构建好的水务顶层知识图谱进行实体对齐,以实现结构化数据与非结构化文本数据的挂接。最后基于构建的水务知识图谱完成水务信息的推荐。在实体对齐的过程中,分别尝试使用编辑距离算法、Jaccard算法和欧式距离算法对结构化数据进行分类挂接。同时,分别使用LDA算法、LSI算法和TF-IDF算法对非结构化数据进行分类挂接。经过对比实验与结果的分析,发现编辑距离算法和LDA算法的评价结果均优于其它几种算法的评价结果,从而验证了水务知识图谱构建的有效性和准确性。基于构建好的水务知识图谱,制定相关查询规则并使用语义距离算法进行水务信息推荐。推荐结果不但实现了水务信息的共享,而且验证了所构建的水务知识图谱的准确性。本文在开发层面采用Xitrum框架,建立了水务知识图谱的构建系统,并详细的说明了每个系统的主要功能以及各个子模块的功能,最后对主要页面进行了展示。水务知识图谱的构建系统依托于《水体污染控制与治理科技重大专项》这一国家级项目,对水务行业的数据进行全方位的整合,能够在未来的决策等事件中发挥重大作用,具有实际的意义。
搜索引擎中网络爬虫及结果聚类的研究与实现
这是一篇关于搜索引擎,网络爬虫,短文本在线聚类,编辑距离,语义相似性度量的论文, 主要内容为随着网络科技和搜索技术的快速发展,人们生活中越来越多地通过互联网和搜索引擎来获取各种信息。搜索引擎通过网络爬虫定期地从互联网上抓取新的网页,并为网页内容建立索引数据库,以方便后续的信息检索。网络爬虫的爬行效率直接影响着搜索引擎的检索效果,爬行的规模越大,周期越短,查全率就越高。另一方面,近年来随着搜索引擎提供服务的多样性,网络成为人们获取新闻资讯的主要媒介之一,新闻热点搜索等方面的中文短文本在线聚类和语词间语义层面的聚类需求越来越多。 本文主要针对搜索引擎中的网络爬虫和搜索结果的短文本聚类进行了研究。在网络爬虫方面,为了提高爬虫性能,主要是对爬虫的核心模块——页面解析模块和去重模块分别给出了相应的改进方法。 (1)对于爬虫的页面解析方法,本文改变了Weblech等开源爬虫中所使用的利用HTML tag标签匹配抽取的方式,而是将半结构化的文档转化为XML,进而表示成DOM文档对象模型来抽取内容,这种方式充分利用了结构化信息容易抽取的优势,同时也方便使用很多优秀的读写XML的开源程序比如DOM4J,JDOM来改进程序的效率。 (2)爬虫系统中如何高效去重是个较复杂的议题,传统的概率算法Bloom Filter在URLs去重上表现出了非常好的空间效率,但也伴随着一定的误判率,且误判率会随着爬行规模的增大而提高。本文提出一种基于Bloom Filter的分段哈希算法对爬虫的URLs去重模块进行了改进,在减小误判率的基础上提高爬虫性能。 通过对上述页面解析和URLs去重改进方法的实现,本文改进的爬虫相比原有的Weblech系统和开源爬虫Larbin而言不仅能解析出更多的有效链接,而且有效的提高了爬虫的性能。 在搜索结果的短文本聚类方面,由于已有的文本在线聚类算法当处理中文短文本时,聚类特性没有得到最理想的发挥,同时为了满足语词间语义或者概念层面的聚类,本文提出一种中文短文本在线聚类算法,并分别给出改进的编辑距离来进行中文短文本的相似性度量,以及利用搜索引擎的检索结果来进行语词间的语义相似性度量。在抽取的热点搜索词数据集上将本文给出的方法与开源Carrot2框架中的搜索结果聚类算法Lingo进行了对比分析,结果表明本文聚类算法的评价指标F-Measure值高于Lingo算法,验证了本文方法的有效性。 上述研究已应用于国家863项目“结合语义的视频服务网站自动发现与分析评估”中,较好地解决了项目中爬虫和热点新闻搜索聚类的问题。
Web漏洞扫描系统中的智能爬虫技术研究
这是一篇关于Web安全,网络爬虫,数据挖掘,重复模式,编辑距离的论文, 主要内容为针对Web安全问题,目前最常用的技术是采用Web漏洞扫描系统进行检测。网络爬虫是Web漏洞扫描器重要组成部分,负责抓取站点的页面信息,为Web漏洞扫描器提供数据源及扫描入口。网络爬虫是一个智能抓取网页的程序,论文主要研究网络爬虫技术。 所做的主要工作包括以下几部分: 1)介绍了网络爬虫及其采用的爬行策略,论述了通用爬虫、聚集爬虫、深层爬虫三种典型网络爬虫技术,详述了聚集爬虫使用的几个重要网页分析算法,分析了已有的基于爬虫技术的Web漏洞扫描系统。 2)通过对扫描对象特点的分析,提出了一种基于属性标签的Web数据挖掘的算法。即利用网页的所有标签,构造带有属性标签的DOM树;通过属性标签对子树做比较,发现标签序列的重复模式;制定了三个规则排出干扰模式,找到数据区域,用向量记录包含有用数据的重复模式;通过向量提取出数据记录。验证该方法有效性的实验对象是卓越网各类目,从实验的数据可以发现,该方法可以卓越网页中提取出大约90%的数据,正确率与覆盖率都很高。 3)基于属性标签的Web数据挖掘的方法可以挖掘很多网页的重复数据,但对重复模式只具备相似性不具备一致性的网页不起作用。针对这个问题,提出了一种基于编辑距离的Web数据挖掘算法。把树编辑距离转化为字符串编辑距离的计算,利用字符串编辑距离评价树的相似度,进而找到网页中的重复模式,提取数据。通过针对不同重复模式特征的网页的实验说明,该算法不仅能挖掘具有特征一的网页的数据,也能挖掘具有特征二的网页的数据,能把20个百度贴吧网页包含的1000个数据都提取出来。 4)最后设计并实现了一个智能爬虫程序。详述了各个模块功能,绘制了各个模块的流程图。根据流程图用Java编程实现,并用实验证明模块达到预定的功能。该爬虫将论文提出的新算法运用于爬虫策略制定,能很好地从交互性强的站点如电子商务、贴吧、论坛等抓取出网页。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设小屋 ,原文地址:https://bishedaima.com/lunwen/56149.html