基于知识图谱的恶意代码分类方法研究
这是一篇关于恶意代码,软件逆向,应用程序接口,知识图谱,神经网络的论文, 主要内容为当前互联网中恶意代码数量庞大,对网络安全产生严重威胁。国家互联网应急中心发布的《互联网安全威胁报告》指出,38%的网络安全事件由恶意代码引发。因此,如何分类识别庞大的恶意代码,不仅有助于企事业单位人员针对性的开展安全防御,同时对保障数据安全和个人信息安全具有重要指导意义。然而,当前恶意代码分类方法存在样本特征抽取不全面、特征间内在的关联关系缺失、恶意代码行为描述能力弱等不足,导致现有方案分类准确率偏低。在上述背景下,本文利用知识图谱关系描述清晰,可推理和可解释性的特性,抽取恶意代码实体和关系构建恶意代码知识图谱,展开恶意代码分类方法研究,本文的主要工作内容和研究成果如下:1.针对恶意代码行为特征抽取不全面、特征间的关联关系难以描述的问题,本文采取动静结合的方式抽取恶意代码的知识,并将其构建为知识图谱。首先,将恶意代码在沙箱中动态运行,得到链接库、注册表操作记录等运行结果报告;接着,对恶意代码进行静态的逆向分析,提取其中的API序列、API调用关系图等静态特征;然后,将静态分析和动态分析的结果进行融合,定义恶意代码本体和关系,生成恶意代码知识图谱中三元组;最后,将这些三元组存储到Neo4j图数据库中,完成了恶意代码知识图谱的构建。动静结合的互补分析方式,可以更加全面的抽取恶意代码实体知识和关系知识。2.针对恶意代码分类任务中特征不全面、无法表示特征间的关联关系的问题,提出一种基于API特征矩阵的恶意代码分类方法。首先逆向抽取恶意代码数的API序列;然后将API序列中的API视为单词,使用Word2Vec技术进行词嵌入,得到融合上下文语义的API词向量;接着使用Trans E技术对恶意代码知识图谱进行表示学习,得到API实体向量;再将同一个API的词向量和实体向量融合,得到知识图谱增强的恶意代码API特征矩阵;最后以该特征矩阵作为输入,使用TextCNN训练分类模型。实验结果表明,本方法在恶意代码家族分类任务上准确率达到93.8%,高于其他基于API序列的恶意代码分类方法。3.针对恶意代码分类任务中难以表达API之间调用关系、API语义表示能力弱的问题,提出一种基于API调用关系图的恶意代码分类方法。首先将恶意代码进行逆向分析,提取出API函数及API间的调用关系;然后使用知识图谱表示学习和BERT两种技术对API进行嵌入;再将API的语义向量作为图的节点,将API间的调用关系作为图的边传入GCN来学习恶意代码样本的特征,最后进行恶意代码的分类。经实验证明,提出的方法在恶意代码分类任务中,准确率达到86.2%,高于其他基于API调用关系的恶意代码分类方法。
Android平台恶意代码静态检测技术的研究与实现
这是一篇关于Android,恶意代码,API,相似度的论文, 主要内容为随着科技生产的不断进步与人们日常生活水平的不断提高,智能手机得到了越来越广泛的普及。在智能手机操作系统中,Android系统由于开源性、可移植性等优点,逐渐超越了Symbian、iOS、BlackBerry等成为市场占有率最高的智能操作系统。Android系统的普及,一方面给人们的生活带来了诸多便利,如发送邮件、聊天、购物等,另一方面,由于Android系统的开源性,导致越来越多的Android平台恶意应用程序不断出现,通过隐私窃取、隐蔽下载等方式,对人们的日常生活造成了严重的经济损失。Android平台恶意应用程序数量不断增长,类型不断变化,通过蓝牙、Wifi等各种方式进行传播。因此加强Android平台恶意代码的检测已经成为一个越来越重要的研究课题,而传统的检测技术都有一定的不足,基于这样的背景,本文提出了一种新的Android平台恶意代码静态检测框架--AndroidSec。本文首先研究了当前Android系统的普及以及国内外Android平台安全性的研究现状,从宏观的角度分析了Android平台的架构、组件、交互机制以及应用程序的文件结构。其次对Android平台的安全性以及Android平台恶意代码的类型、危害进行了深入的研究,并分析了针对Android平台恶意代码,当前主要的检测技术有哪些优势与不足,并选取了一个恶意样本进行了深入细致的代码级分析,研究了Android平台恶意代码的特征以及恶意行为的实现原理,对Android平台恶意代码有了微观上深层次的认识。基于当前主要检测手段的不足以及Android平台恶意代码的特征,在云计算技术迅速发展的背景下,本文提出了基于静态检测的Android平台恶意代码检测框架AndroidSec,以dex文件为研究对象,以危险性API的调用为特征,利用数据挖掘中TF-IDF算法,将恶意样本抽象为文本,通过相似度计算并辅以后台监听、黑名单匹配等手段,对Android平台恶意代码进行了检测。通过本文的研究工作,最大限度的降低了恶意代码检测对智能手机终端的硬件消耗,通过相似度检测,较好的弥补了传统Android平台恶意代码静态检测技术中对于恶意应用程序变种检测方面的不足。
网页木马检测系统的设计与实现
这是一篇关于网页木马,恶意代码,漏洞,检测的论文, 主要内容为随着计算机和网络通信技术日新月异的高速发展,网络已经深入到社会的各个角落,人们充分享受到网络给其工作和生活带来的巨大便利。在得到便利的同时,网络也给病毒、木马的泛滥提供了温床,尤其是给国防、政府、公安、教育、金融和商业等部门带来了不可估量的损失。计算机病毒传播与网页木马程序是当前互联网面临的最主要挑战,其中网页木马所占比重较大。网页木马中最常见的情况是网站被挂马,在困扰网站管理员的同时,对网站用户产生了很多潜在的威胁。如果用户在浏览企业或组织网站信息时,遇到网页木马的侵害,将会造成不可避免的损失,同时也给该企业声誉造成不利的影响。 本文首先对网页木马进行了综述,然后系统地阐述了网页木马的挂马方式、攻击原理、防御措施等。在对网页木马做了全方位研究分析后,设计了一个网页木马检测系统并对其进行了概要设计和详细设计,将常见网页木马恶意代码做了正则表达式提取,分门别类的将网页木马的各种类型有效的进行检测。最后设计界面输出检测日志并编码实现。本系统分为以下几个模块:1.URL搜集和下载模块;2.JS解析模块;3.HTML解析模块;4.界而设计模块,每个模块都在论文中做了详细分析。 本文的主要工作如下: 1.对网页木马检测系统进行了需求分析。网页木马严重威胁着互联网用户的信息安全,对于前人工作分析后发现目前网页木马检测技术很难达到检出率和系统复杂度的统一,在此基础上设计了一个网页木马检测系统,旨在以高检出率和低复杂度对网页木马进行检测; 2.对网页木马检测系统进行了概要设计。在对网页木马做了全方位研究分析后,设计了一个网页木马检测系统,本系统使用特征码匹配和正则表达式提取的方式对网页木马进行检测; 3.对网页木马检测系统进行了详细设计。本系统首先使用BM算法使用特征库对网页内容进行恶意代码匹配,如果匹配失败则继续使用正则表达式进行恶意代码的提取,并同时丰富特征库。在判断恶意链接时深入到链接文件源代码中继续检测,大大提升了检出率; 4.对网页木马检测系统进行了编码实现。本系统全部使用Python实现,包括URL的搜集下载、JS解析和HTML提取,界面部分使用PyQt4设计并编码实现,直观地输出检测结果; 5.对网页木马检测系统进行了测试和验证。最后对本系统设计了测试用例,进行功能测试,然后分别验证了本系统的扫描时间、检出率和误报率,根据测试结果得出满足预期要求。 通过测试和验证得出,本系统对网页木马有着很高的检出率和较低的误报率,界面实现简洁实用,验证了本系统的有效性,满足了最初的设计需求。
基于文本神经网络的恶意代码功能分类研究与应用
这是一篇关于恶意代码,分类,词嵌入,文本神经网络,可视化的论文, 主要内容为近年来,恶意代码分析一直都是中国网络安全领域研究的重要课题之一。其中高级可持续威胁攻击(Advanced Persistent Threat,APT)是一种特定的恶意代码入侵方式,它通过扫描探测系统漏洞,对靶机投放恶意漏洞利用脚本,再植入二进制恶意程序,达到感染主机的目的。研究恶意代码功能分类模型能进一步分析出恶意代码的功能行为信息,从而有效地提升APT防御技术,保护网络安全。但近年来分类恶意代码的特征选取缺乏自动化工具,且提取的数据特征无法全面描述恶意代码的语义行为,导致分类准确率低,代码可解释性差等问题。因此本文利用文本神经网络技术,从静态语义和动态行为两方面入手,针对漏洞利用源码与二进制恶意代码分别提出高效准确、功能级粒度的自动化分类方案。本文针对两种类型的恶意代码进行分析,主要研究工作与创新如下:(1)针对恶意漏洞利用源代码的研究中存在缺少自动化分析工具和代码难阅读的两个问题,提出了将代码词或词组看作单词和词组的概念,对其进行空间向量建模,构建了一种基于源代码语义的神经网络模型MSC-textCNN。实现源码的词义识别,做到无人工提取特征的预前过程,端到端分类恶意漏洞利用源代码的攻击功能。同时运用机器学习方法建立了恶意代码特征词库,能帮助源码分析者更快对源码做出行为解释。与几种机器学习方法相比,基于MSC-textCNN的方案在分类准确率上有3.08%到6.54%的提升。(2)考虑到静态特征无法表征恶意代码深层行为信息且容易出现信息错误,提出利用Windows系统调用(Application Programming Interface,API)序列监听二进制恶意代码的行为信息,组合卷积神经网络(Convolutional Neural Networks,CNN)与双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)结构,构建分类模型MB-textRCNN。该模型不仅捕获系统调用序列中N-Gram词组间的联系,还能保留动态行为在时序上的前后依赖关系,模型最终取得了98.66%的分类精度。经验证整体方案在公开数据集上依旧有良好分类表现,与其他组合方案相比,平均准确率模提高了5.49%至7.03%,分类性能更出色。综合两类型恶意代码语义特征的提取,实现了基于B/S架构的恶意代码分析可视化原型系统。该系统在提供文件管理功能的基础上,使用Echarts技术帮助分析人员直观高效地进行可视化信息获取,采用图表联动等多种响应式交互技术辅助分析人员挖掘二进制恶意代码动态行为信息。
基于特征图像的恶意代码家族识别算法研究
这是一篇关于恶意代码,家族识别,静态特征,特征图像,迁移学习的论文, 主要内容为近年来,恶意代码呈现快速发展的趋势,恶意代码识别算法也遇到了各种新问题和挑战。一方面其变种数量多、生成速度快、影响范围广,传统的恶意代码检测方法已无法满足快速高效检测的要求,另一方面,利用传统机器学习分析和检测恶意代码存在速度和效率低,以及分类器准确率不高等问题。如何有效快速地识别恶意代码家族,已成为当下的研究热点。本文算法从图像角度出发,提取恶意代码特征信息,基于签名矩阵将特征融合为特征图像,并在此基础上结合深度学习设计了一种恶意代码家族识别模型。本文的研究内容具体如下:(1)针对当前恶意代码家族识别算法效率低和特征图像缩放可能带来特征信息丢失的问题,本文提出了一种新的恶意代码可视化方法。首先,在数据预处理中对恶意代码样本进行分析并提取出三种不同的静态特征:局部特征信息、汇编指令集信息和可见字符信息。其次,基于局部敏感哈希算法,通过挖掘并映射形成恶意代码特征的签名矩阵,进而将签名矩阵变换为对应的多通道映射特征图像。最后,每一个恶意代码样本映射为一幅特征图像。该方法在恶意样本数据集BIG 2015和基于Res Net,Dense Net和Inception三种不同的深度学习模型上进行了测试,实验结果表明,恶意代码家族识别准确率提升了约6.83%,并相比于使用单一特征显现出了独特的优势。(2)针对现有数据集缺陷、网络参数调整以及网络训练耗时的问题,本文基于迁移学习微调技术和正则化方法,设计了一个具有较高识别准确率和较强泛化能力的识别模型。首先,本文在Rep VGG结构的基础上微调,从而适应本文的识别任务,随后冻结网络部分低层权重,对较高层进行训练以大大缩短训练时长。接着,使用微调后的网络模型通过执行多个非线性变换,为每个恶意代码特征图像生成抽象表示。最后,使用Cutout正则化技术仅在网络模型训练过程中的每个Epoch中随机地遮掩恶意代码特征图像的某部分正方形区域。该方法在恶意样本数据集BIG 2015上进行了测试。实验结果表明,该方法具有很好的识别效果且时间消耗低。同时,能精确地识别出恶意代码家族,在不需要复杂的特征工程情况下可达到约99.68%的准确率,即使采用非常少的训练集进行训练,在测试集上也达到了约98.25%的准确率。本文对基于特征图像的恶意代码家族识别方法进行了深入研究,既保留了相同恶意代码家族之间的相似性和不同家族之间的差异性,又避免了特征信息丢失,在恶意代码家族识别上具有较高的准确率和速度,这为进行恶意代码家族的有效识别提供了一种可行的解决途径。
基于文本神经网络的恶意代码功能分类研究与应用
这是一篇关于恶意代码,分类,词嵌入,文本神经网络,可视化的论文, 主要内容为近年来,恶意代码分析一直都是中国网络安全领域研究的重要课题之一。其中高级可持续威胁攻击(Advanced Persistent Threat,APT)是一种特定的恶意代码入侵方式,它通过扫描探测系统漏洞,对靶机投放恶意漏洞利用脚本,再植入二进制恶意程序,达到感染主机的目的。研究恶意代码功能分类模型能进一步分析出恶意代码的功能行为信息,从而有效地提升APT防御技术,保护网络安全。但近年来分类恶意代码的特征选取缺乏自动化工具,且提取的数据特征无法全面描述恶意代码的语义行为,导致分类准确率低,代码可解释性差等问题。因此本文利用文本神经网络技术,从静态语义和动态行为两方面入手,针对漏洞利用源码与二进制恶意代码分别提出高效准确、功能级粒度的自动化分类方案。本文针对两种类型的恶意代码进行分析,主要研究工作与创新如下:(1)针对恶意漏洞利用源代码的研究中存在缺少自动化分析工具和代码难阅读的两个问题,提出了将代码词或词组看作单词和词组的概念,对其进行空间向量建模,构建了一种基于源代码语义的神经网络模型MSC-textCNN。实现源码的词义识别,做到无人工提取特征的预前过程,端到端分类恶意漏洞利用源代码的攻击功能。同时运用机器学习方法建立了恶意代码特征词库,能帮助源码分析者更快对源码做出行为解释。与几种机器学习方法相比,基于MSC-textCNN的方案在分类准确率上有3.08%到6.54%的提升。(2)考虑到静态特征无法表征恶意代码深层行为信息且容易出现信息错误,提出利用Windows系统调用(Application Programming Interface,API)序列监听二进制恶意代码的行为信息,组合卷积神经网络(Convolutional Neural Networks,CNN)与双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)结构,构建分类模型MB-textRCNN。该模型不仅捕获系统调用序列中N-Gram词组间的联系,还能保留动态行为在时序上的前后依赖关系,模型最终取得了98.66%的分类精度。经验证整体方案在公开数据集上依旧有良好分类表现,与其他组合方案相比,平均准确率模提高了5.49%至7.03%,分类性能更出色。综合两类型恶意代码语义特征的提取,实现了基于B/S架构的恶意代码分析可视化原型系统。该系统在提供文件管理功能的基础上,使用Echarts技术帮助分析人员直观高效地进行可视化信息获取,采用图表联动等多种响应式交互技术辅助分析人员挖掘二进制恶意代码动态行为信息。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码导航 ,原文地址:https://bishedaima.com/lunwen/50625.html