变电站告警信息数据挖掘及故障诊断应用研究
这是一篇关于告警信息,文本挖掘,语义解析,故障知识的论文, 主要内容为随着智能变电站的建设和发展,众多智能电子设备广泛投入使用,各类设备监测信息的广度和量级大幅提升,变电站也逐步转向少人或无人值守、集中监控的运维管理模式。多座变电站的各类监控告警信息会同时发送至集控中心,由中心监控人员对这些信息进行分析处理并进一步完成控制和决策。变电站告警信息包含大量蕴含电网运行和设备状态的潜在重要信息,具有数量庞大、含义丰富、出现频率高的特点。但在现有情况下,变电站告警信息经采集上传后,仅按照时间顺序简单排列直接显示在监控窗口中,并未对其进行有效梳理、分析和利用,很多的重要信息隐藏在大量刷屏信号中无法被及时发现。因此本文以变电站告警信息为研究对象,对告警信息进行数据挖掘,通过智能算法梳理、解析并挖掘告警信息内部包含的故障知识与规则,并在此基础上进一步探究故障诊断应用,帮助监控人员提升工作效率的同时也为他们及时地提供故障后决策辅助,具有很好的现场应用价值。本文具体的工作及成果如下:针对现有变电站告警信息的无规律显示问题,本文首先分析并设定告警信息的三种类别,采用深度学习中的深层网络模型进行告警信息分类。通过分词和文本向量化方法将信号语句转化为词汇组合并进一步将词汇转化为分布式词向量。随后分析了长短期记忆网络的基本原理和双向长短期记忆网络的模型结构,利用MATLAB构建BiLSTM模型并进行告警信号分类,通过实验结果分析证明分类模型的准确性。为能够获取变电站告警信息文本中的各类关键信息,实现对变电站告警信号文本的解读,本文分析了告警信息中包含的关键内容属性,进而形成解析内容的规范化框架。随后设计基于字符串匹配算法的告警信息语义解析方法,完成信号文本中包含的设备、部件、行为等实际含义的词语获取。为了使信号解析内容可供计算机识别和后续智能应用,建立告警信号解析内容XML模板并分析了基于DOM的XML文档操作方式。为了实现从告警信息数据到有效知识的提升,在告警信号分类和语义解析的基础上,本文利用知识图谱技术挖掘告警信息中隐含的可用于故障诊断的故障知识。“实体-关系-实体”三元组是知识图谱的基本单元,本文定义了适合告警信号的实体与关系,之后设计描述两两告警信号对的特征向量,并基于分类算法实现关系抽取。根据告警信息分类结果,由事故动作告警信号集构建事故类告警信号行为图谱,由设备异常告警信号集构建异常类告警信号设备行为图谱,并实现图谱可视化。最后结合知识推理方法进行故障诊断应用,案例分析表明了利用构建完成的知识图谱进行发生事故后的信号行为判别和故障诊断的可行性,为故障诊断提供决策支持。
面向军事知识问答的问题语义解析关键技术研究
这是一篇关于语义解析,问题解析,知识库问答,知识图谱问答的论文, 主要内容为知识图谱提出以来,凭借其在知识密度、表达能力、推理效率等方面的优势,在金融、安全、医药、农业等领域取得了长足发展。然而,知识图谱在军事领域的应用还主要停留在构建阶段,其深入应用仍需进一步探索。与此同时,问答系统以更直观、更友好的方式展示目标信息,能够实现对军事信息需求的高质量应对。为此,本文研究内容聚焦于面向军事知识问答的问题语义解析技术。问题语义解析旨在通过分析自然语言问题语义,将问题转换为可在知识库上执行的逻辑形式。然而,实现上述问题语义解析需要两个重要的前提即:1)一定规模的中文军事领域知识库及问答语料;2)表现优异的问题语义解析模型。因此,本文的主要工作实际上围绕准备该两项前提展开。然而,该过程面临着以下挑战:(1)针对知识库及问答语料。现有知识库和问答语料通常针对通用领域,需要面向军事领域构建新的知识库和问答语料。然而军事领域事实往往涉及时间、空间、数量、状态等要素,现有的以三元组形式表示知识的方法难以充分表达这些事实,同时对知识存储和更新造成障碍。此外,对这些事实的问答引入了新的复杂维度,而现有语料集难以支持该复杂维度。(2)针对问题语义解析模型。主流的问题语义解析模型大多基于序列到动作框架,这些模型取得了显著效果,但仍存在一定缺陷,如基于管道架构的动作序列生成和实例序列生成面临着错误累积问题;需要定义复杂的动作语法并为问题标注动作序列,开销较大;需要设计复杂模板将动作序列和实例序列转化为查询语句;解码过程难以充分融入序列类型信息;解码过程目标词表过大。为应对上述挑战,本文开展以下工作:(1)针对三元组知识表示方式的上述缺陷,本文提出通过向关系添加属性将三元组拓展为多元组,使用多元组表示知识。并定义使用传统三元组表示的知识为实体知识,定义由多元组表示的知识为广义上的事件知识。基于上述设定,本文构建了同时覆盖实体知识和事件知识的中文军事领域知识库Mil KB。基于Mil KB,本文构建了中文军事领域知识问答语料集Mil KBQA,该语料集问题类型丰富,涉及逻辑、数量、计算、概率等多种推理方式。重要地,Mil KBQA为知识问答引入了新的复杂维度,即面向事件知识的问答。本文采用近来表现最优的三个自然语言理解模型作为基准模型,采用另外两个自然语言理解数据集作为对比数据集,开展问题语义解析实验。实验表明Mil KBQA尤其是面向事件知识的问题具有更高的语义解析复杂度。(2)针对序列到动作模型的上述缺陷,本文提出一种面向逻辑结构特征的问题语义解析模型Form Cypher。Form Cypher基于Encoder-Decoder架构,使用问题格式代替语义图(树)表示问题逻辑结构,将问题语义解析任务分解为并行的两个子任务,即可看作分类任务的逻辑结构匹配和可看作生成任务的槽位序列生成,以解决错误累积、标注开销大以及不能直接得到查询语句等问题。在解码器部分,本文提出一种类型引导的序列解码器Type-guided GRU,使用序列类型引导解码过程,以在解码过程进一步融入序列类型信息;提出一种统一空间编码机制,将知识库本体元素以及问题语义提及编码在同一空间,以限制目标词表规模。本文采用序列到动作模型作为对比基准,在Mil KBQA上对Form Cypher的性能进行验证。实验表明,Form Cypher在Mil KBQA上的性能优于基准模型。同时,本文还通过实验证明了Form Cypher特定技术细节的有效性和必要性。本文基于问题语义解析路线,通过开展以上工作,构建了能够回答常见问题的军事领域问答模型。
基于UCL国家标准的智能化搜索引擎研究
这是一篇关于搜索引擎,统一内容标签,知识图谱,话题挖掘,语义解析的论文, 主要内容为随着互联网的迅速普及和数字信息的爆炸式增长,各种海量化、碎片化的内容不断涌现,如何从这些异构驳杂的数据中检索有效信息对于搜索引擎挑战巨大。以网页链接为中心的传统搜索引擎通过关键字匹配的方式从互联网中检索信息,然后返回给用户相关链接。这种方式不能准确理解用户搜索意图,且返回的结果过于单一,包含的语义信息不够丰富,需要用户做多次检索。为了改善这种搜索模式的弊端,基于知识的搜索引擎已引起了业界的广泛关注。基于知识的搜索引擎技术核心是构建知识图谱,目前知识图谱相关研究已取得一定进展。但其对知识表示的方式主要是以较为简单的三元组形式将结构化数据组织,富含的语义信息不够丰富。而统一内容标签(Uniform Content Label,UCL)可以将互联网上杂乱无序的异构内容进行有效聚合,能够对互联网内容中的丰富语义信息进行统一格式编码。因此如何充分利用UCL对互联网信息进行富语义矢量编码的优势,构建以知识为中心的智能化搜索引擎极具研究价值。为此,本文结合UCL的优势,构建UCL知识图谱(UCL Knowlegde Graph,UCLKG),并对智能化搜索相关技术进行研究。提出了基于语义环境相似度的实体消歧算法与基于表示学习和UCL语义感知的关系推理算法,实现UCL知识图谱(UCL Knowlegde Graph,UCLKG)的构建和更新。提出了针对搜索环境的动态主题挖掘算法DLDASE(Dynamic Latent Dirichlet Allocation for Search Environment)和基于SDP(Semantic Depency Parsing)依赖分析的查询式生成算法,提高搜索引擎对用户搜索意图识别和对知识语义解析的能力。本文的主要研究工作如下:(1)结合智能化搜索引擎的需求,针对如何将互联网中异构驳杂的数据进行语义关联的问题,提出了一种基于语义融合的UCL知识图谱构建方法。该方法首先解析Wikidata和百度百科离线语料库,并结合信息抽取工具抽取实体信息,完成基础知识库的构建;然后计算UCL中内容实体的语义权重,并借助实体消歧算法将UCL与基础实体库融合;最后提出基于表示学习和UCL语义感知的关系推理算法,实现UCL知识图谱的自动化更新。(2)针对传统搜索引擎不能有效识别用户意图且缺乏对内容的语义解析能力的问题,实现基于UCL的智能化搜索引擎,对其中涉及的关键技术进行研究。基于UCL的智能化搜索引擎主要从两方面对用户搜索信息进行处理。一是以用户兴趣为中心提供个性化搜索,提出了针对搜索环境的动态主题挖掘算法DLDASE,识别用户搜索意图,并结合用户意图和UCL文档的主题关联对搜索结果进行排序。二是以知识为中心提供内容语义解析服务,提出了基于SDP依赖分析的查询式生成算法将用户搜索的自然语言问句翻译为数据库查询语句,直接获取知识。(3)实现了智能化搜索引擎原型系统,并通过实验对其中涉及的相关算法进行验证。实验结果表明,相比于传统实体消歧算法,基于语义环境相似度的实体消歧算法消歧效果更好;相比于传统关系推理算法,基于表示学习和UCL语义感知的关系推理算法对“一对多”和“多对多”类型关系有更好的区分能力;相比于传统LDA算法,DLDASE算法更适合对在线语料进行动态主题挖掘;基于SDP分析的查询式生成算法对本文定义的四类基本问题的转换能力较好。
基于知识图谱的领域问答系统构建技术的研究与应用
这是一篇关于知识图谱,领域问答系统,知识抽取,语义解析的论文, 主要内容为近年来,随着互联网技术的迅猛发展,大量的专业领域知识通过各种方式涌入到互联网中,用户如何从中获取有效信息也变得越来越具有挑战性。问答系统通过语义信息分析用户问题,做出更简洁的回答,渐渐变成信息检索的新方式。本文以医疗领域为例,分析构建领域问答系统的相关技术,并且深入研究知识抽取和语义解析方面的技术,对模型和算法进行了改良,最终构建出基于知识图谱的医疗问答系统。本文主要研究工作包括以下几个方面:(1)提出了基于Ro BERTa-wwm和全局指针的联合抽取模型RBLGP,目的是把领域数据中的有效信息提炼成知识。模型采用了实体关系联合抽取的方式取代传统管道式的抽取方式,减少了误差累积并提高了信息利用率;引入Ro BERTawwm预训练模型和Bi LSTM来提取文本特征,提高了模型整体的语言理解能力;采用全局指针完成三元组标记任务,有效避免了实体重叠和三元组重叠的影响。(2)对智能问答方法中所使用的语义解析模型进行了改进,针对实体识别,提出了基于Ro BERTa-wwm-Bi GRU-Global Pointer模型RBGGP;针对文本分类,提出了基于Ro BERTa-wwm-Text RCNN-Text CNN模型RTT;同时,基于改进后的语义解析模型,设计并实现了基于语义解析的智能问答方法。(3)构建了基于知识图谱的领域问答系统。采用爬虫技术从互联网络信息网站中抽取知识构建知识图谱,利用联合抽取模型获取领域文献中的知识来对图谱进行补充,再通过文本相似度和语义相似度相结合的计算方法来进行知识融合,再通过Neo4j数据库完成知识存储,构建出领域知识图谱;在知识图谱的支撑下,使用改进的基于语义解析的智能问答方法构建领域问答服务;最后,采用前后端分离与微服务相结合的架构,基于Vue和Spring Boot分别构建前后端,搭建出医疗领域问答系统。
面向司法领域中复杂语义的知识库问答方法研究
这是一篇关于司法领域,知识库问答,复杂问题,语义解析,检索排序的论文, 主要内容为随着“智慧法院”的建设和不断推进,司法智能问答系统为满足用户的法律咨询需求提供了高效便捷的专业平台,不仅减轻了司法从业人员的事务负担,还为社会民众提供了法律援助,拓宽了普法渠道。随着知识图谱的不断发展,知识库问答技术较传统的文本检索方法显示出巨大的优势,并为司法智能问答任务带来了巨大的突破。但由于其领域属性和应用场景的特殊性,面向司法领域的知识库问答系统仍面临两大难点问题:一是目前缺乏司法领域的知识图谱和问答数据集,知识库智能问答技术对法律行业的渗透不够深入;二是用户的提问大多包含复杂语义,本文将其分为组合类和多跳类两种类型的复杂问题,而知识库问答技术对这两种复杂问题的处理能力都有不足。基于此,本文面向司法领域中的复杂语义进行知识库问答方法的研究。论文主要完成了以下研究工作:(1)构建司法领域的知识图谱和复杂问答数据集由于目前缺乏司法领域的知识图谱,本文选取司法裁判文书作为数据基础来构建司法知识图谱。首先获取司法裁判文书的数据并进行分析,其次对司法知识进行建模,定义了实体类别、实体属性以及类别和属性之间的关系,然后通过人工设计规则抽取知识,并通过知识融合的方式将信息表示为知识图谱中的三元组,最后用Neo4j图数据库存储构建的司法知识图谱。此外,本文还在该知识图谱的基础上通过人工设计模版构建了一个复杂问答数据集,为后续章节中知识库问答方法的研究工作提供了有力的数据支撑。(2)基于组合问句分解的语义解析式知识库问答方法目前在司法智能问答平台中,为数众多的一类法律问题通常是组合类型的复杂问题,由若干个简单问题组成,因此分解与合成策略是解决此类复杂问题的有效途径。但在分解时,知识库问答模型应该如何充分理解问题的复杂语义,如何确定分解的方式以及如何保障分解后子问题的质量都是该任务面临的一些关键问题。因此,针对上述问题,本文介绍了一种融合事实文本的问句分解式语义解析模型,对复杂问题的处理分为分解-抽取-解析三个阶段,首先把复杂问题分解成简单子问题,然后抽取问句中的关键信息,最后生成结构化查询语句。同时,又构造了一个事实文本库,将知识库中的三元组转化成用自然语言描述的句子,采用注意力机制获取更丰富的知识表示。实验表明,该模型在解决组合类的复杂问题时达到了较好的性能,证明了问句分解方法的有效性。(3)基于多跳关系推理的检索排序式知识库问答方法另一类大量存在的法律问题则是涉及多个知识信息的多跳类复杂问题,这类问题通常需要模型基于现有知识进行推理判断。但是,多跳过程中产生的长路径会带来巨大的计算成本,而模型不具备长期记忆会出现遗忘路径的现象,并且如何在不完备的知识库上提升模型的推理能力,都是制约问答效果的关键因素。因此,针对上述问题,本文介绍了一种基于样例检索的多跳推理式检索排序模型,主要采用了检索相似样例的方式和键值记忆网络在不完备的知识库上进行长路径推理。首先输入问句的语义表示向量,根据主题实体从训练集中检索相似样例。其次在每一跳的推理过程,模型利用注意力机制来更新问句的语义表示向量和相似样例集合。最后利用键值记忆网络的存储和推理能力,判断下一跳的路径,以此过程进行迭代。实验表明,该模型在回答多跳类的复杂问题时取得了较好的效果,验证了检索和推理技术的有效性。(4)面向司法领域的知识库问答原型系统本文首先对司法领域中智能问答业务进行了需求分析,将已构建的司法知识图谱作为数据基础,把上述知识库问答算法封装成接口,搭建了面向司法领域的知识库问答原型系统,实现了检索历史卷宗、关键信息问答、检索相似案件和法律法规问答等功能,为法律从业人员和社会民众提供了高效便捷的问答服务。
面向司法领域中复杂语义的知识库问答方法研究
这是一篇关于司法领域,知识库问答,复杂问题,语义解析,检索排序的论文, 主要内容为随着“智慧法院”的建设和不断推进,司法智能问答系统为满足用户的法律咨询需求提供了高效便捷的专业平台,不仅减轻了司法从业人员的事务负担,还为社会民众提供了法律援助,拓宽了普法渠道。随着知识图谱的不断发展,知识库问答技术较传统的文本检索方法显示出巨大的优势,并为司法智能问答任务带来了巨大的突破。但由于其领域属性和应用场景的特殊性,面向司法领域的知识库问答系统仍面临两大难点问题:一是目前缺乏司法领域的知识图谱和问答数据集,知识库智能问答技术对法律行业的渗透不够深入;二是用户的提问大多包含复杂语义,本文将其分为组合类和多跳类两种类型的复杂问题,而知识库问答技术对这两种复杂问题的处理能力都有不足。基于此,本文面向司法领域中的复杂语义进行知识库问答方法的研究。论文主要完成了以下研究工作:(1)构建司法领域的知识图谱和复杂问答数据集由于目前缺乏司法领域的知识图谱,本文选取司法裁判文书作为数据基础来构建司法知识图谱。首先获取司法裁判文书的数据并进行分析,其次对司法知识进行建模,定义了实体类别、实体属性以及类别和属性之间的关系,然后通过人工设计规则抽取知识,并通过知识融合的方式将信息表示为知识图谱中的三元组,最后用Neo4j图数据库存储构建的司法知识图谱。此外,本文还在该知识图谱的基础上通过人工设计模版构建了一个复杂问答数据集,为后续章节中知识库问答方法的研究工作提供了有力的数据支撑。(2)基于组合问句分解的语义解析式知识库问答方法目前在司法智能问答平台中,为数众多的一类法律问题通常是组合类型的复杂问题,由若干个简单问题组成,因此分解与合成策略是解决此类复杂问题的有效途径。但在分解时,知识库问答模型应该如何充分理解问题的复杂语义,如何确定分解的方式以及如何保障分解后子问题的质量都是该任务面临的一些关键问题。因此,针对上述问题,本文介绍了一种融合事实文本的问句分解式语义解析模型,对复杂问题的处理分为分解-抽取-解析三个阶段,首先把复杂问题分解成简单子问题,然后抽取问句中的关键信息,最后生成结构化查询语句。同时,又构造了一个事实文本库,将知识库中的三元组转化成用自然语言描述的句子,采用注意力机制获取更丰富的知识表示。实验表明,该模型在解决组合类的复杂问题时达到了较好的性能,证明了问句分解方法的有效性。(3)基于多跳关系推理的检索排序式知识库问答方法另一类大量存在的法律问题则是涉及多个知识信息的多跳类复杂问题,这类问题通常需要模型基于现有知识进行推理判断。但是,多跳过程中产生的长路径会带来巨大的计算成本,而模型不具备长期记忆会出现遗忘路径的现象,并且如何在不完备的知识库上提升模型的推理能力,都是制约问答效果的关键因素。因此,针对上述问题,本文介绍了一种基于样例检索的多跳推理式检索排序模型,主要采用了检索相似样例的方式和键值记忆网络在不完备的知识库上进行长路径推理。首先输入问句的语义表示向量,根据主题实体从训练集中检索相似样例。其次在每一跳的推理过程,模型利用注意力机制来更新问句的语义表示向量和相似样例集合。最后利用键值记忆网络的存储和推理能力,判断下一跳的路径,以此过程进行迭代。实验表明,该模型在回答多跳类的复杂问题时取得了较好的效果,验证了检索和推理技术的有效性。(4)面向司法领域的知识库问答原型系统本文首先对司法领域中智能问答业务进行了需求分析,将已构建的司法知识图谱作为数据基础,把上述知识库问答算法封装成接口,搭建了面向司法领域的知识库问答原型系统,实现了检索历史卷宗、关键信息问答、检索相似案件和法律法规问答等功能,为法律从业人员和社会民众提供了高效便捷的问答服务。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码工坊 ,原文地址:https://bishedaima.com/lunwen/47823.html