基于煤矿科学知识图谱的智能问答技术研究
这是一篇关于煤矿科学,知识图谱,智能问答,宽度随机森林,XGBoost,序列模型,自然语句答案的论文, 主要内容为目前煤矿科学数据总量巨大,但大都离散存放,具有利用率低、高冗余、低结构化、难以挖掘等问题。近年来随着知识图谱的发展,知识图谱不仅能够将复杂的数据组织成为一个有机的体系,还能为各种计算机应用提供底层数据支持。本文首先研究了如何利用机器学习算法半自动化构建煤矿科学知识图谱,将同质网络聚类以及异质网络聚类等方法引入知识图谱构建,使得知识图谱构建工作量得到大大缩减。在煤矿科学知识图谱构建基础上,本文对基于知识图谱的智能问答技术进行了研究。本文将知识图谱的智能问答研究划分为自然问句解析、实体及关系成分提取、实体及关系链接、搜索语句生成、答案生成,其中重点研究了以下三个部分:在自然问句解析方面,目前的方法主要集中于基于统计式的句法依存分析方法以及基于深度学习的句法依存分析方法。其中基于统计式的句法依存分析方法需要依赖于大量的标注数据,而基于深度学习的方法对数据标注要求极高,而且模型训练效率低下,可解释性也不强。因此本文提出一个全新的集成模型——宽度随机森林,并将该模型应用于句法依存分析,实验表明,与其他方法相比,本文所提模型在准确率方面极具竞争力的同时训练效率更高,可解释性也更强,并且能够自适应训练模型大小。在实体及关系链接方面,目前的研究工作大多将其分为实体链接和关系链接两个独立的任务,这使得二者之间无法进行信息互补,错失了将模型性能进一步挖潜提升的可能性。本文力图将二者作为一个统一的任务去完成,首先基于Generalized Traveling Salesman Problem(GTSP)模型将实体及关系联合链接,由于GTSP模型时间复杂度高而且只能返回最优的结果,本文进一步对链接密度进行建模,并基于XGBoost模型进行实体及关系排序,使得模型最终能够返回一个结果排序。实验证明,基于GTSP的实体及关系联合链接在准确率方面明显优于将二者独立进行链接,而基于XGBoost的实体及关系联合链接使得模型能够返回最优的多个结果,并且准确率也进一步得到提升。在答案生成方面,本文借助目前研究工作中存在的注意力机制以及复制机制,将序列模型与知识图谱检索相结合,得到一个自然语句答案生成器。实验证明,本文所构建的自然语句答案生成器在公开数据集上和煤矿科学数据集上,均取得令人满意的效果。
基于煤矿科学知识图谱的智能问答技术研究
这是一篇关于煤矿科学,知识图谱,智能问答,宽度随机森林,XGBoost,序列模型,自然语句答案的论文, 主要内容为目前煤矿科学数据总量巨大,但大都离散存放,具有利用率低、高冗余、低结构化、难以挖掘等问题。近年来随着知识图谱的发展,知识图谱不仅能够将复杂的数据组织成为一个有机的体系,还能为各种计算机应用提供底层数据支持。本文首先研究了如何利用机器学习算法半自动化构建煤矿科学知识图谱,将同质网络聚类以及异质网络聚类等方法引入知识图谱构建,使得知识图谱构建工作量得到大大缩减。在煤矿科学知识图谱构建基础上,本文对基于知识图谱的智能问答技术进行了研究。本文将知识图谱的智能问答研究划分为自然问句解析、实体及关系成分提取、实体及关系链接、搜索语句生成、答案生成,其中重点研究了以下三个部分:在自然问句解析方面,目前的方法主要集中于基于统计式的句法依存分析方法以及基于深度学习的句法依存分析方法。其中基于统计式的句法依存分析方法需要依赖于大量的标注数据,而基于深度学习的方法对数据标注要求极高,而且模型训练效率低下,可解释性也不强。因此本文提出一个全新的集成模型——宽度随机森林,并将该模型应用于句法依存分析,实验表明,与其他方法相比,本文所提模型在准确率方面极具竞争力的同时训练效率更高,可解释性也更强,并且能够自适应训练模型大小。在实体及关系链接方面,目前的研究工作大多将其分为实体链接和关系链接两个独立的任务,这使得二者之间无法进行信息互补,错失了将模型性能进一步挖潜提升的可能性。本文力图将二者作为一个统一的任务去完成,首先基于Generalized Traveling Salesman Problem(GTSP)模型将实体及关系联合链接,由于GTSP模型时间复杂度高而且只能返回最优的结果,本文进一步对链接密度进行建模,并基于XGBoost模型进行实体及关系排序,使得模型最终能够返回一个结果排序。实验证明,基于GTSP的实体及关系联合链接在准确率方面明显优于将二者独立进行链接,而基于XGBoost的实体及关系联合链接使得模型能够返回最优的多个结果,并且准确率也进一步得到提升。在答案生成方面,本文借助目前研究工作中存在的注意力机制以及复制机制,将序列模型与知识图谱检索相结合,得到一个自然语句答案生成器。实验证明,本文所构建的自然语句答案生成器在公开数据集上和煤矿科学数据集上,均取得令人满意的效果。
时空多模态下的网络交易异常检测
这是一篇关于网络交易异常检测,序列模型,图神经网络,多模态融合的论文, 主要内容为近年来,我国互联网产业的不断发展,网民规模与互联网普及率不断增加,电子商务迅猛发展.网络交易成为人们日常生活的一个重要部分.随着网络购物交易量的持续扩大,许多商家通过非正常方式为自家商品进行刷单,来提高成交量或商品评分,获取消费者的选择,为店铺带来更多收益.这些刷单行为严重影响了平台正常交易环境,导致用户购物体验下降,进而给平台信誉造成极大的不良影响.因此,识别这些恶意刷单行为,即网络交易行为异常检测,是维护电商平台正常秩序,保护消费者权益的一项重要任务.同时,随着机器学习与深度学习的不断发展,基于深度学习的异常检测方法也成为当前异常检测领域的研究热点.序列模型是目前应用在工业界很多场景中的一类深度学习模型.这些模型将传统应用在时序数据上的模型迁移到点击率预估等二分类问题中,通过构造用户行为序列,并基于序列进行特征交叉,实现目标预测.图结构数据是非欧式空间上的一种非结构化数据,相比一般时序数据,从空间上扩展了特征维度.图神经网络能够针对这一非结构化数据进行训练,学习到传统基于序列的神经网络无法捕获的非欧式空间特征.如何将这两个空间的特征很好地结合,同时利用序列和图结构中的特征进行目标预测,成为目前的热门研究方向.本文将时序模型与图神经网络结合,构建一个端到端的时空融合多模态模型,对网络交易订单进行异常检测,识别这些刷单行为.本文主要做了以下几项创新性工作:(1)本文基于京东商城交易订单数据,构造了时空融合的多模态数据,融合时间序列与图数据结构:分别固定当前订单的下单用户、下单商品等,按照下单时间向前回溯其历史订单信息,构造序列数据.同时,以商品作为节点,下单行为作为关联关系构建图数据结构.由于订单交易数据量大,因此本文采用预先对图中每个节点进行二阶邻居采样的方式,得到图数据,并将序列数据与图数据进行拼接.最终得到的多模态数据以订单为粒度,包含每个订单的时序特征与空间特征.(2)在模型方面,本文首先构建了基于Transformer和LSTM的序列模型,并对序列数据进行实验.结果表明,序列模型在交叉熵损失以及多个评价指标上都远超不包含序列模型的基础深度神经网络DNN,其中训练进入收敛后,验证集损失降低到0.1以下,F1值由0.55提升到0.8,模型展现出良好的收敛效果与泛化性.(3)在模型融合方面,本文将时序模型与GraphSAGE模型结合,建立了一个端到端的时序与图神经网络融合模型,捕捉多模态数据在时间和空间上的特征信息,并对时序模型和融合模型在相同数据下进行对比实验.分别将Transformer模型LSTM模型与GraphSAGE模型融合,探索融合模型在真实数据上的应用效果.在训练阶段,时空融合模型的收敛速度更快,在最后一轮循环中,验证集平均损失值降低到0.09左右,相比单一时序模型下降20%以上,显示出更好的收敛性能和泛化能力.另外,本文基于已训练好的各个模型,对相同的测试数据进行了预测.由实验结果可以看出,基于LSTM的融合模型最终预测召回率提升了 8%,漏识别率下降22%.异常订单的漏识别数量得到有效下降.由此可见,本文所建立的多模态融合模型,在这一网络交易异常检测问题中显示出了良好的应用效果.
时空多模态下的网络交易异常检测
这是一篇关于网络交易异常检测,序列模型,图神经网络,多模态融合的论文, 主要内容为近年来,我国互联网产业的不断发展,网民规模与互联网普及率不断增加,电子商务迅猛发展.网络交易成为人们日常生活的一个重要部分.随着网络购物交易量的持续扩大,许多商家通过非正常方式为自家商品进行刷单,来提高成交量或商品评分,获取消费者的选择,为店铺带来更多收益.这些刷单行为严重影响了平台正常交易环境,导致用户购物体验下降,进而给平台信誉造成极大的不良影响.因此,识别这些恶意刷单行为,即网络交易行为异常检测,是维护电商平台正常秩序,保护消费者权益的一项重要任务.同时,随着机器学习与深度学习的不断发展,基于深度学习的异常检测方法也成为当前异常检测领域的研究热点.序列模型是目前应用在工业界很多场景中的一类深度学习模型.这些模型将传统应用在时序数据上的模型迁移到点击率预估等二分类问题中,通过构造用户行为序列,并基于序列进行特征交叉,实现目标预测.图结构数据是非欧式空间上的一种非结构化数据,相比一般时序数据,从空间上扩展了特征维度.图神经网络能够针对这一非结构化数据进行训练,学习到传统基于序列的神经网络无法捕获的非欧式空间特征.如何将这两个空间的特征很好地结合,同时利用序列和图结构中的特征进行目标预测,成为目前的热门研究方向.本文将时序模型与图神经网络结合,构建一个端到端的时空融合多模态模型,对网络交易订单进行异常检测,识别这些刷单行为.本文主要做了以下几项创新性工作:(1)本文基于京东商城交易订单数据,构造了时空融合的多模态数据,融合时间序列与图数据结构:分别固定当前订单的下单用户、下单商品等,按照下单时间向前回溯其历史订单信息,构造序列数据.同时,以商品作为节点,下单行为作为关联关系构建图数据结构.由于订单交易数据量大,因此本文采用预先对图中每个节点进行二阶邻居采样的方式,得到图数据,并将序列数据与图数据进行拼接.最终得到的多模态数据以订单为粒度,包含每个订单的时序特征与空间特征.(2)在模型方面,本文首先构建了基于Transformer和LSTM的序列模型,并对序列数据进行实验.结果表明,序列模型在交叉熵损失以及多个评价指标上都远超不包含序列模型的基础深度神经网络DNN,其中训练进入收敛后,验证集损失降低到0.1以下,F1值由0.55提升到0.8,模型展现出良好的收敛效果与泛化性.(3)在模型融合方面,本文将时序模型与GraphSAGE模型结合,建立了一个端到端的时序与图神经网络融合模型,捕捉多模态数据在时间和空间上的特征信息,并对时序模型和融合模型在相同数据下进行对比实验.分别将Transformer模型LSTM模型与GraphSAGE模型融合,探索融合模型在真实数据上的应用效果.在训练阶段,时空融合模型的收敛速度更快,在最后一轮循环中,验证集平均损失值降低到0.09左右,相比单一时序模型下降20%以上,显示出更好的收敛性能和泛化能力.另外,本文基于已训练好的各个模型,对相同的测试数据进行了预测.由实验结果可以看出,基于LSTM的融合模型最终预测召回率提升了 8%,漏识别率下降22%.异常订单的漏识别数量得到有效下降.由此可见,本文所建立的多模态融合模型,在这一网络交易异常检测问题中显示出了良好的应用效果.
基于煤矿科学知识图谱的智能问答技术研究
这是一篇关于煤矿科学,知识图谱,智能问答,宽度随机森林,XGBoost,序列模型,自然语句答案的论文, 主要内容为目前煤矿科学数据总量巨大,但大都离散存放,具有利用率低、高冗余、低结构化、难以挖掘等问题。近年来随着知识图谱的发展,知识图谱不仅能够将复杂的数据组织成为一个有机的体系,还能为各种计算机应用提供底层数据支持。本文首先研究了如何利用机器学习算法半自动化构建煤矿科学知识图谱,将同质网络聚类以及异质网络聚类等方法引入知识图谱构建,使得知识图谱构建工作量得到大大缩减。在煤矿科学知识图谱构建基础上,本文对基于知识图谱的智能问答技术进行了研究。本文将知识图谱的智能问答研究划分为自然问句解析、实体及关系成分提取、实体及关系链接、搜索语句生成、答案生成,其中重点研究了以下三个部分:在自然问句解析方面,目前的方法主要集中于基于统计式的句法依存分析方法以及基于深度学习的句法依存分析方法。其中基于统计式的句法依存分析方法需要依赖于大量的标注数据,而基于深度学习的方法对数据标注要求极高,而且模型训练效率低下,可解释性也不强。因此本文提出一个全新的集成模型——宽度随机森林,并将该模型应用于句法依存分析,实验表明,与其他方法相比,本文所提模型在准确率方面极具竞争力的同时训练效率更高,可解释性也更强,并且能够自适应训练模型大小。在实体及关系链接方面,目前的研究工作大多将其分为实体链接和关系链接两个独立的任务,这使得二者之间无法进行信息互补,错失了将模型性能进一步挖潜提升的可能性。本文力图将二者作为一个统一的任务去完成,首先基于Generalized Traveling Salesman Problem(GTSP)模型将实体及关系联合链接,由于GTSP模型时间复杂度高而且只能返回最优的结果,本文进一步对链接密度进行建模,并基于XGBoost模型进行实体及关系排序,使得模型最终能够返回一个结果排序。实验证明,基于GTSP的实体及关系联合链接在准确率方面明显优于将二者独立进行链接,而基于XGBoost的实体及关系联合链接使得模型能够返回最优的多个结果,并且准确率也进一步得到提升。在答案生成方面,本文借助目前研究工作中存在的注意力机制以及复制机制,将序列模型与知识图谱检索相结合,得到一个自然语句答案生成器。实验证明,本文所构建的自然语句答案生成器在公开数据集上和煤矿科学数据集上,均取得令人满意的效果。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设货栈 ,原文地址:https://bishedaima.com/lunwen/54630.html