分享8篇关于非结构化数据的计算机专业论文

今天分享的是关于非结构化数据的8篇计算机毕业论文范文, 如果你的论文涉及到非结构化数据等主题,本文能够帮助到你 非结构化数据统一存储平台的设计与实现 这是一篇关于非结构化数据

今天分享的是关于非结构化数据的8篇计算机毕业论文范文, 如果你的论文涉及到非结构化数据等主题,本文能够帮助到你

非结构化数据统一存储平台的设计与实现

这是一篇关于非结构化数据,统一存储,批处理的论文, 主要内容为当今互联网上的数据正在呈现出迅速增长的发展趋势,这种趋势不仅仅体现在数据的数量上,同时也体现在数据的种类上。从传统的文本数据到如今的网络文档、图片、音频以及视频,互联网数据的主流逐渐从结构化数据转变为非结构数据,而这些日益增长并种类繁多的非结构化数据,为互联网数据的存储管理带来了新的挑战。 本文首先研究了针对各类海量非结构化数据的存储问题所提出的解决方案,分析出各存储系统所存在的问题,从而总结出实现非结构化数据统一存储的关键问题。 然后,针对具有海量、异构、关联等特征的非结构化数据的存储问题,提出了非结构化数据统一存储管理平台D-Ocean Repository,通过解决元数据管理、统一数据接口、异构存储以及数据的高可用性与一致性等关键问题,融合了HDFS, HBase, MySQL, XMLDB等各类存储设施,并通过异构存储设施的选择机制,解决各类数据的高效混合存储问题。 同时,基于统一存储平台,本文设计并实现了一个非结构数据的批处理框架,利用数据统一存储的特性,解决了各类非结构化数据的统一处理问题,并基于MapReduce架构实现了数据的高效并行处理,使得计算资源与数据存储得到有机结合。 最后,本文还实现了一个使用D-Ocean系统作为后台数据管理的互联网应用——互联网跨媒体新闻检索系统,用以证明非结构化数据统一存储平台的实用性,有助于未来面向更多非结构化数据的互联网应用实现。

电力设备非结构化数据挖掘的应用研究

这是一篇关于电力设备,非结构化数据,文本挖掘,图像挖掘,卷积神经网络,知识图谱,目标检测,图像扩充的论文, 主要内容为随着我国电网智能化、信息化的建设与发展,电网中的电力设备通过长期的运维、检修和试验,积累了大量的各种形式的电力数据。其中,相比于主要以数值形式存储的结构化数据而言,非结构化数据主要以文本、图像、音频、视频等形式存在,具有更广泛的应用场景和更高的价值密度,但由于不能被计算机直接识别和处理,其挖掘过程也存在更多的难点。为此,本文以电力设备的两类典型的非结构化数据——文本数据和图像数据为例,针对这两类数据在电力设备的缺陷评估、缺陷处理、状态识别等方面的挖掘应用进行研究,并取得如下成果:1.针对目前大量电力设备缺陷需要人工进行缺陷等级分类的情况,提出了基于卷积神经网络的电力设备缺陷记录文本自动分类方法。采用基于词向量的文本表示技术和基于卷积神经网络的文本分类技术构建分类模型,并针对电力设备文本数据的特点对模型结构进行适应性改进,提高了模型的分类准确率和效率,保证缺陷能被及时处理和上报;2.由于电力设备缺陷的复杂性和多变性,很多缺陷处理决策往往缺乏参考依据,针对这一问题提出了基于知识图谱技术的电力设备缺陷记录文本检索方法。基于电力设备缺陷知识图谱的自动构建和图搜索技术,实现了通过当前缺陷记录文本对相似历史缺陷记录文本的准确检索,从而可将历史缺陷的处理方式作为当前缺陷处理的有效参考,为知识和经验相对不足的缺陷处理人员提供缺陷处理的有效指导;3.针对电力设备巡检图像中各种电力部件的类别和位置识别问题,提出了基于改进Faster R-CNN模型的电力设备图像目标检测方法。以主变压器的巡检图像为例,考虑了主变压器各个部件的尺寸差异较大以及部件位置之间存在关联性的特点,对Faster R-CNN模型的结构进行了改进,有效提高了主变压器多部件类别和位置识别的准确率,为识别不同部件的缺陷和故障现象奠定了基础;4.为解决电力设备状态的自动识别算法效果受到图像训练样本限制的问题,提出了结合三维空间信息的电力设备图像数据扩充方法。以隔离开关的巡检图像为例,结合隔离开关三维形状的先验知识,采用透视投影变换、三维旋转变换等方法,扩充了不同拍摄角度下的隔离开关图像训练样本,相比于传统的图像数据扩充方法,对隔离开关位置和分合状态的识别效果有更显著的提升。

基于知识图谱的联锁系统故障诊断研究

这是一篇关于联锁系统,知识图谱,非结构化数据,知识抽取,故障诊断的论文, 主要内容为铁路联锁系统是保证列车安全运行的关键系统之一,系统结构复杂,工作环境的复杂多变,发生故障是不可避免的,属于故障的高频区域。由于故障原因复杂,当联锁系统出现故障时,如果不能够及时处理,会危及到行车安全,造成严重后果。知识图谱是在语义网络的研究热潮中应运而生的,是人工智能领域近几年的发展热门,将知识图谱与联锁系统故障诊断相结合有利于提高故障处理效率,缩短故障诊断周期。目前,大部分故障知识数据都是以非结构化的自然语言形式记录的,其中蕴含丰富信息,但是由于这些数据存储格式的限制,很多有效信息都不能得到很好地应用。针对以上问题,本文利用知识抽取等技术手段,将非结构化文本数据中的故障知识提取出来,以此来构建联锁系统故障知识图谱,挖掘出故障知识间的内在联系,实现基于知识图谱的联锁系统故障诊断,并且利用Django框架设计实现基于知识图谱的故障知识查询应用系统,探索了知识图谱在联锁故障诊断中的应用。本文的主要研究内容包括:(1)收集联锁系统故障处理相关的非结构化文本知识数据,利用收集的数据制作了一个用于实体关系抽取的联锁系统故障知识数据集。(2)联锁系统故障知识图谱构建,包括基于七步法的知识图谱的本体框架构建,知识图谱模式层的设计;基于 BiLSTM-CRF(Bi-directional Long Short Term Memory Network Conditional Random Field)的联锁系统故障知识的实体抽取;在实体抽取成果的基础上,基于CNN(Convolutional Neural Network)的联锁系统故障知识的关系抽取;基于Birch聚类算法的联锁系统故障知识融合。(3)基于构建好的知识图谱,对图谱及图谱中的节点进行分析评价;设计实现了一种基于知识图谱数据的联锁系统故障原因统计计算方法,实现了故障诊断,并利用图数据库对故障诊断的结果进行了可视化展示。(4)基于构建好的联锁故障知识图谱,设计实现了基于知识图谱的故障知识查询系统,整个过程包括系统的需求分析、方案设计、实现方法及测试等工作。实现了故障诊断、知识问答、知识图谱的可视化展示、知识图谱更新等功能。

基于非结构化文本的网络威胁情报分析技术研究

这是一篇关于网络安全,非结构化数据,威胁情报,本体的论文, 主要内容为在如今这个时代,网络技术的发展已经影响到了多个领域,网络的普及使人类社会迈向了一个新的台阶。网络在很多方面促进了人们的生活,但从安全角度出现网络也带在了很多问题,如:在数据传输过程中机密的信息容易被劫持、攻击者可能会探索网络安全漏洞并对网络设备展开攻击。因此,网络安全防护也变得越来越重要。目前对网络攻击进行防御的方法有很多,如:防火墙、系统补丁、身份验证、信息加密和入侵检测等。但现今网络攻击变幻莫测,这些传统的安全保护策略很难起到有效的防护。主要原因如下:漏洞是不可预测的,传统方法难以有效的应对网络攻击;对于持续的网络攻击,功能检测等防护技术已经失去效用,传统手段无法应付。因此,必须增强组织和企业的脆弱性分析和网络威胁情报信息提取能力,从而提高网络的主动安全防御能力。威胁情报能够描述攻击行为和对攻击者进行攻击画像,指导组织和企业有效的进行防御,这使得威胁情报在网络安全保护中起着至关重要的作用。对此,本文针对非结构化的网络威胁情报进行分析,首先根据威胁情报数据的特点构建了网络安全本体,为威胁情报知识库的构建奠定了基础,然后提出了一种针对非结构化威胁情报的量化方法,通过该方法可以帮助组织和企业筛选出高质量的威胁情报,从而更好的进行防御,最后设计了一个威胁情报分析平台。本文的主要内容如下所述:(1)分析了网络威胁情报的形式。目前,威胁情报包含的种类繁多,本文对于网络威胁情报展开研究,分析了威胁情报的类别及应用,然后对目前统一的威胁情报标准进行了介绍,汇总了国内外知名的网络安全知识库,并对于数据整合工具进行了分析,为后续安全领域本体的构建和威胁情报的量化分析提供了理论和数据基础。(2)针对安全数据来源广,格式不固定的问题,本文提出一个全新的网络安全本体,定义了多个安全顶级类,并对类之间的关系进行了详细的举例描述,最终将构建的本体应用于知识图谱的构建过程中,通过构建的知识图谱为威胁情报的量化提供了技术支持。(3)针对目前的威胁情报存在质量参差不一,且难以筛选出优质情报的问题,提出了一种威胁情报量化评估方法。首先对威胁情报进行简单的分类,然后提取其中包含的威胁指标和CVE等信息,最后从多个维度对威胁情报进行分析,根据评估函数实现威胁情报的量化,通过该方法可以筛选出高质量的威胁情报。(4)针对目前用户对于威胁情报分析的需求,本文基于已有的研究,设计并实现了一个威胁情报分析平台。主要包含数据收集、知识构建、数据存储、威胁情报量化及可视化模块。

非结构化数据的资产管理系统构建与实现

这是一篇关于数据库,非结构化数据,企业资产管理系统的论文, 主要内容为办公office文本,PDF文件,图片,网页,影音等正逐渐成为商业流程中非结构化数据不断快速增长的重要来源,传统上把数据进行结构化的数据库管理方式已经不能满足企业信息管理的需要,企业要求将大量信息的管理与业务流程充分整合,直接针对各种非结构化数据类型,提供高效的收集、整理、归档、安全存储、快速查询、知识化管理等应用集成。 本系统的实现是通过3年时间对企业各个部门需求进行了广泛调研,结合计算机软件工程技术、网络技术和数据库技术,采用编程理念,以三层架构为系统模式,在.NET Framework的开发环境下,C#为开发语言,使用SQL server2008为后台数据库,设计和构建了非结构化数据的资产管理系统。系统采用三层的架构,包括采购订单、资产管理、信息管理、人员管理、系统设置和系统帮助共6个模块,其中办公用品采购申请模块和资产管理模块是系统的核心部分,前者负责新购置的资产申请、审批和采购,后者负责从企业原有的各类文档中提取元数据,构建统一的资产信息库,并实现部门间调拨,更新等操作。 该系统自2011年11月投入实际运行,对大量的非结构化数据处理方式多样,高效,同时安全性有所保障,基本满足了公司业务发展需求,在生产中发挥了很好的作用。

企业非结构化数据管理系统的设计与实现

这是一篇关于非结构化数据,数据管理,全生命周期管理,数据孤岛的论文, 主要内容为随着多媒体技术的普及和推广,例如网页、文档、图片等非结构化数据在数据量级上呈爆发式增长。不同类型的非结构化数据,目前尚未出现通解式的数据存储和管理方案。针对数据特点选取不同存储策略,虽是一种解决方式,然而却更容易产生数据孤岛问题。而消除数据孤岛、将非结构化数据进行统一管理,是一种能够挖掘数据潜在财富价值、打通业务间数据壁垒的重要手段。针对上述问题,本文首先介绍了课题背景,明确了企业面临的两类数据孤岛情况,分析了能够从软件层面解决的问题,并挑选了两类典型非结构化数据作为例子进行非结构化数据管理系统的设计与实现工作。两类数据分别为具有时序特征、体量较大的日志数据以及具有高信息密度、体量较小的合同文档数据。接着根据企业实际业务需求和使用人群进行系统的需求分析工作,通过模块化思想将系统划分为数据导入、数据检索、全生命周期管理以及后台管理四个模块。在数据导入模块的实现中,本文提出了一种针对企业Java系统对内部代码不具有侵入性的日志收集方式,在数据检索模块的实现中,本文设计了一种方便用户检索的方式,在全生命周期化管理模块的实现中,本文对两类数据根据其特征设计了不同的策略,并利用Elastalert框架进行二次开发,完成对数据的监控告警功能。在后台管理模块的实现中,利用RBAC策略使系统权限控制变得更加方便。系统的开发过程中使用了前后端分离的架构,利用Vue.js搭建用户交互页面,后端则使用Tornado框架进行搭建。该系统已通过相关测试,在某企业进行实际应用。系统在一定程度上消除数据孤岛并解决两类非结构化数据访问难、描述难、检索难的问题之后,能够为后续对数据强依赖的研究打下数据基础。

企业非结构化数据管理系统的设计与实现

这是一篇关于非结构化数据,数据管理,全生命周期管理,数据孤岛的论文, 主要内容为随着多媒体技术的普及和推广,例如网页、文档、图片等非结构化数据在数据量级上呈爆发式增长。不同类型的非结构化数据,目前尚未出现通解式的数据存储和管理方案。针对数据特点选取不同存储策略,虽是一种解决方式,然而却更容易产生数据孤岛问题。而消除数据孤岛、将非结构化数据进行统一管理,是一种能够挖掘数据潜在财富价值、打通业务间数据壁垒的重要手段。针对上述问题,本文首先介绍了课题背景,明确了企业面临的两类数据孤岛情况,分析了能够从软件层面解决的问题,并挑选了两类典型非结构化数据作为例子进行非结构化数据管理系统的设计与实现工作。两类数据分别为具有时序特征、体量较大的日志数据以及具有高信息密度、体量较小的合同文档数据。接着根据企业实际业务需求和使用人群进行系统的需求分析工作,通过模块化思想将系统划分为数据导入、数据检索、全生命周期管理以及后台管理四个模块。在数据导入模块的实现中,本文提出了一种针对企业Java系统对内部代码不具有侵入性的日志收集方式,在数据检索模块的实现中,本文设计了一种方便用户检索的方式,在全生命周期化管理模块的实现中,本文对两类数据根据其特征设计了不同的策略,并利用Elastalert框架进行二次开发,完成对数据的监控告警功能。在后台管理模块的实现中,利用RBAC策略使系统权限控制变得更加方便。系统的开发过程中使用了前后端分离的架构,利用Vue.js搭建用户交互页面,后端则使用Tornado框架进行搭建。该系统已通过相关测试,在某企业进行实际应用。系统在一定程度上消除数据孤岛并解决两类非结构化数据访问难、描述难、检索难的问题之后,能够为后续对数据强依赖的研究打下数据基础。

企业非结构化数据管理系统的设计与实现

这是一篇关于非结构化数据,数据管理,全生命周期管理,数据孤岛的论文, 主要内容为随着多媒体技术的普及和推广,例如网页、文档、图片等非结构化数据在数据量级上呈爆发式增长。不同类型的非结构化数据,目前尚未出现通解式的数据存储和管理方案。针对数据特点选取不同存储策略,虽是一种解决方式,然而却更容易产生数据孤岛问题。而消除数据孤岛、将非结构化数据进行统一管理,是一种能够挖掘数据潜在财富价值、打通业务间数据壁垒的重要手段。针对上述问题,本文首先介绍了课题背景,明确了企业面临的两类数据孤岛情况,分析了能够从软件层面解决的问题,并挑选了两类典型非结构化数据作为例子进行非结构化数据管理系统的设计与实现工作。两类数据分别为具有时序特征、体量较大的日志数据以及具有高信息密度、体量较小的合同文档数据。接着根据企业实际业务需求和使用人群进行系统的需求分析工作,通过模块化思想将系统划分为数据导入、数据检索、全生命周期管理以及后台管理四个模块。在数据导入模块的实现中,本文提出了一种针对企业Java系统对内部代码不具有侵入性的日志收集方式,在数据检索模块的实现中,本文设计了一种方便用户检索的方式,在全生命周期化管理模块的实现中,本文对两类数据根据其特征设计了不同的策略,并利用Elastalert框架进行二次开发,完成对数据的监控告警功能。在后台管理模块的实现中,利用RBAC策略使系统权限控制变得更加方便。系统的开发过程中使用了前后端分离的架构,利用Vue.js搭建用户交互页面,后端则使用Tornado框架进行搭建。该系统已通过相关测试,在某企业进行实际应用。系统在一定程度上消除数据孤岛并解决两类非结构化数据访问难、描述难、检索难的问题之后,能够为后续对数据强依赖的研究打下数据基础。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设海岸 ,原文地址:https://bishedaima.com/lunwen/52582.html

相关推荐

发表回复

登录后才能评论