特定领域实体属性关系抽取方法研究
这是一篇关于实体关系抽取,Distant Supervision,卷积神经网络,实体属性,多特征的论文, 主要内容为实体关系抽取是信息抽取的重要部分,它能够识别出实体之间的语义关系,作为语义网的基础,实体关系抽取被广泛应用在自动问答系统,信息检索,机器翻译等领域。关系抽取还是构建知识图谱的重要基础,随着万维网转变成语义网,知识图谱的构建变得尤为重要。领域实体间的属性关系是构建知识图谱的重要组成部分之一。对特定领域而言,领域实体属性关系对表达实体之间的语义关系有着重要的意义。本文主要针对中文领域的实体属性关系抽取,作了以下工作:(1)基于Distant Supervision(距离监督)的领域实体属性关系抽取方法,基于领域知识库和相关文本集来获取实体属性关系。关系类型为:景点-实例-属性值。针对旅游领域中的“景点”这个类型,抽取出与“景点”这个类型相关属性,如门票价格、面积等等。距离监督就是通过将知识库映射到文本集中实现关系抽取的过程,即如果一个实体对出现在知识库中,则将文本集中包含这两个实体的句子全部抽取出来,从这些句子中提取特征,训练分类器。本文首先构建一个小型的中文旅游领域知识库,在知识库中预先定义好属性关系和关系实例,并用这个知识库对应地从百度百科或维基百科网页上爬取得到的文本集。本文使用多种特征以提高分类器的性能,提高分类的性能。(2)基于卷积神经网络的领域实体属性关系抽取方法研究。本文提出基于卷积神经网络对领域实体属性关系进行抽取,其中属性关系类型为实例-属性、属性-属性值、实例-属性值。利用卷积神经网络的自动学习表征领域实体属性关系的句法特征、层级特征以及实体所在句子的文本特征,形成特征向量,加入到卷积神经网络中,训练实体属性关系分类模型。实验结果表明,所提出的方法能有效提高实体属性关系抽取性能。
基于EEMD-LSTM水质预测方法的研究与应用
这是一篇关于水质预测,多特征,集成经验模态分解,长短期记忆网络的论文, 主要内容为水是人类赖以生存的重要资源,在人类各项生产活动起着重要的作用,同时作为生态环境的基本有机组成部分,是任何其它资源都无法替代的。近些年随着中国经济获得巨大成功,我国工业化水平显著提升,但与此同时地表水所受工业污染也日益严重。水质预测是保护地表水资源的基础性工作,是解决水资源危机的重要手段。水质预测准确反映未来地表水体质量的变化趋势,对于加强水资源保护利用,改善水污染防治现状,推进生态环境修复具有重要的意义。近几年随着深度学习的迅猛发展,基于深度学习的数据建模和预测方法为水质预测提供了一种新的思路。本文为提高水质预测模型的准确度和泛化性,基于太湖流域的实测历史水质数据及气象数据,研究并提出了集成经验模态分解法与长短期记忆神经网络相结合的方法,构建了 EEMD-LSTM水质预测模型。本文主要研究工作分为以下两个方面:研究实现基于EEMD-LSTM多特征水质预测模型。考虑多重因素,本文提出一种基于水质特征和气象特征的多特征水质预测模型,与只考虑单一水质特征的单特征模型相比,提高了水质预测的准确性。同时本文使用EEMD算法将时间序列分解为若干子序列,放大了时间序列数据中的细节,使得子序列的波动程度相比于原序列更加平稳,解决了 LSTM网络存在的预测滞后性问题。设计实现智能水质预测系统。将本文提出的EEMD-LSTM预测模型应用于水质预测系统。系统采用B/S分布式架构设计,使用HTTP协议完成前后端数据通信交互,基于Django框架完成水质预测模型部署工作。最后对系统进行性能测试,测试结果表明水质预测系统的稳定性。
基于深度学习的中文信息抽取的研究与实现
这是一篇关于信息抽取,多特征,神经网络,命名实体,联合抽取的论文, 主要内容为伴随着互联网的快速发展,人们生活在一个信息爆炸的时代,传统的检索系统逐渐不能满足人们对重点信息更细粒度的检索需求,如何有效地识别并利用这些海量文本成为当下的研究热点。知识图谱的出现为这个难题寻找到了突破点,它利用这些结构化的信息将知识整合起来,为智能问答等上层应用提供了有力支持。信息抽取作为知识图谱的关键技术,其发展受到了届内广泛关注,抽取精度也会直接影响到上层应用的效果。因此,一个好的信息抽取模型具有深远的意义和重要的研究价值。信息抽取通常分为实体、关系、事件三个任务。经过对信息抽取各类方法的总结和对比,本文主要围绕实体和关系两个任务进行研究,以深度学习为主,特征规则为辅。命名实体识别为自然语言处理的基础任务,本文针对中文字符的结构复杂性,提出了基于多特征的命名实体识别模型(WCP-RNN),在文本编码部分选择了词向量、字向量、词性特征相融合的复杂特征。词向量使用传统的Skip-gram模型进行训练,并在后续实验中与随机初始化方式进行对比,以此来证明预训练向量能更好地表示文本语义。另外,深度学习在自然语言处理领域中逐渐体现出它的优势,目前的研究方法大多基于深度学习来完成。因此,为验证多特征表示的性能,本文下游模型选择了加入注意力层的双向循环网络结构,通过消融实验分析各部分特征对模型的影响以及注意力机制的加权作用,最终验证基于多特征的文本表示的有效性。关系抽取作为命名实体任务的拓展实验,与实体识别任务具有一定的内在联系。本文在实体研究基础上,改进了模型结构,并在数据预处理标注阶段增加了实体关系信息,提出了实体关系联合抽取模型(WCPD-CNN-RNN)。为了充分利用中文语句中包含的信息,本文在文本特征表示部分补充了依存句法特征,生成更精确的语义编码。考虑到CNN网络具有提取局部特征的能力以及RNN网络处理长序列文本存在有偏性,本文使用空洞卷积来捕获更远范围的信息,最后把CNN提取的局部特征作为注意力加权过的RNN编码的补充特征,一同输入进解码层,完成序列标注任务。本文最后设计了相关对比实验,通过调整实体标签权重来降低训练过程中非实体标签带来的误差。实验表明,依存句法特征的加入对WCPD-CNN-RNN模型有着正面作用,CNN无偏网络的参与能够提升关系分类的性能。最后,本文将信息抽取技术应用于互联网热点资讯领域,设计并实现了一个面向热点资讯领域的中文信息抽取系统,并使用本文提出的两个算法模型,实现对自然文本的实体及关系抽取功能。
基于超图和多特征融合的视频推荐方法研究
这是一篇关于视频推荐,多特征,注意力机制,超图,语义挖掘,信息茧房的论文, 主要内容为随着互联网和通信技术的快速发展,越来越多的用户更倾向于在互联网上观看在线视频。然而,随着各网站视频数量的飞速增长,信息过载的危害也随之而来。用户在面对互联网上海量的视频资源时,往往会难以快速寻找到自己感兴趣的视频。为了从这些视频中筛选出符合用户兴趣的视频,推荐系统必不可少,视频推荐也因此越来越受到学术界和工业界的关注。与其它商品往往具有明确的属性和关键词不同,在线视频难以通过明确的属性和关键词来直接确定其特征。传统的视频推荐方法往往忽略了用户之间的高阶关系,也没有对不同粒度的特征进行很好的结合,这会导致信息丢失或信息茧房问题,从而使推荐性能不够理想。针对以上问题,本文主要进行了基于超图和多特征融合的视频推荐方法的研究,主要工作如下:首先,在视频推荐的召回阶段,提出了基于用户视频交互的多特征融合候选集召回方法。该方法通过对视频类别、标签等进行粗粒度的建模以减少信息茧房问题,并将其类别、标签视为关键词提取词级语义以获得词向量来表示视频信息。根据注意力机制,将用户历史交互记录中的不同视频分配不同的重要性,并且通过用户特征向量与目标视频特征向量的相似度对比获得视频候选集,以实现视频推荐的召回。然后,在视频推荐的排序阶段,提出了基于超图卷积的多特征融合视频推荐方法。该方法根据用户-视频-标签的关系进行特征表示,并用多层感知机将高维稀疏向量降维,再将用户视为结点进行超图构造,根据得到的超图结构基于谱方法进行超图卷积,通过将结点上的信息聚合到超边上再聚合到结点上来传递以进行特征的更新。根据注意力机制,对用户的历史交互记录建模,以提取用户侧项目表示特征,并将用户侧特征进行融合表示,由此在之前得到的视频候选集中进行排序以得到视频推荐列表。最后,根据前文提到的基于用户视频交互的多特征融合候选集召回方法和基于超图卷积的多特征融合视频推荐方法,本文在真实数据集上进行了仿真实验和分析论证了其可行性和有效性。并且,为了实现理论方法和实际应用的结合,本文设计并实现了基于超图的多特征融合视频推荐方法的原型系统,包括了需求分析、整体设计、具体设计和操作流程等,进一步论证了该方法的性能。
基于深度学习的中文信息抽取的研究与实现
这是一篇关于信息抽取,多特征,神经网络,命名实体,联合抽取的论文, 主要内容为伴随着互联网的快速发展,人们生活在一个信息爆炸的时代,传统的检索系统逐渐不能满足人们对重点信息更细粒度的检索需求,如何有效地识别并利用这些海量文本成为当下的研究热点。知识图谱的出现为这个难题寻找到了突破点,它利用这些结构化的信息将知识整合起来,为智能问答等上层应用提供了有力支持。信息抽取作为知识图谱的关键技术,其发展受到了届内广泛关注,抽取精度也会直接影响到上层应用的效果。因此,一个好的信息抽取模型具有深远的意义和重要的研究价值。信息抽取通常分为实体、关系、事件三个任务。经过对信息抽取各类方法的总结和对比,本文主要围绕实体和关系两个任务进行研究,以深度学习为主,特征规则为辅。命名实体识别为自然语言处理的基础任务,本文针对中文字符的结构复杂性,提出了基于多特征的命名实体识别模型(WCP-RNN),在文本编码部分选择了词向量、字向量、词性特征相融合的复杂特征。词向量使用传统的Skip-gram模型进行训练,并在后续实验中与随机初始化方式进行对比,以此来证明预训练向量能更好地表示文本语义。另外,深度学习在自然语言处理领域中逐渐体现出它的优势,目前的研究方法大多基于深度学习来完成。因此,为验证多特征表示的性能,本文下游模型选择了加入注意力层的双向循环网络结构,通过消融实验分析各部分特征对模型的影响以及注意力机制的加权作用,最终验证基于多特征的文本表示的有效性。关系抽取作为命名实体任务的拓展实验,与实体识别任务具有一定的内在联系。本文在实体研究基础上,改进了模型结构,并在数据预处理标注阶段增加了实体关系信息,提出了实体关系联合抽取模型(WCPD-CNN-RNN)。为了充分利用中文语句中包含的信息,本文在文本特征表示部分补充了依存句法特征,生成更精确的语义编码。考虑到CNN网络具有提取局部特征的能力以及RNN网络处理长序列文本存在有偏性,本文使用空洞卷积来捕获更远范围的信息,最后把CNN提取的局部特征作为注意力加权过的RNN编码的补充特征,一同输入进解码层,完成序列标注任务。本文最后设计了相关对比实验,通过调整实体标签权重来降低训练过程中非实体标签带来的误差。实验表明,依存句法特征的加入对WCPD-CNN-RNN模型有着正面作用,CNN无偏网络的参与能够提升关系分类的性能。最后,本文将信息抽取技术应用于互联网热点资讯领域,设计并实现了一个面向热点资讯领域的中文信息抽取系统,并使用本文提出的两个算法模型,实现对自然文本的实体及关系抽取功能。
基于多特征融合的藏语语音情感识别方法研究
这是一篇关于藏语语音情感识别,Transformer,多头注意力机制,多特征的论文, 主要内容为语音在人际交往中包含、传递了很多信息,随着计算机硬件和深度学习算法的不断更新迭代,智能语音产品不断涌现出来,但目前大多数产品对人类情感的认知能力不足。语音作为人机交互的重要媒介,让机器识别出说话人包含的情感信息并做出积极反馈,这会让智能语音产品更具亲和性,同时也能增强用户的体验感。虽然基于普通话、英语等的语音情感识别研究时间超过20年,但是目前相关研究成果很少被真正地应用到实际生活中,主要原因是识别率不高、模型泛化性能较差。如何提高模型的性能,一直以来都是一项极具挑战性的任务。藏语是我国必不可少的民族语言之一,在全国有超700万人使用,迄今为止,基于藏语语音开展的情感识别研究工作屈指可数,随着人机交互技术的不断应用,开展基于藏语的语音情感识别研究非常有必要。本文首先介绍了研究藏语语音情感识别的意义和价值,其次介绍国内外的相关研究现状,分析近几年来藏语语音相关的情感识别研究情况,并介绍论文的创新点和章节安排情况。然后再从语音的情感描述模型、情感数据库、预处理、特征提取、识别模型等方面介绍语音情感识别相关基础知识,并给出了本文使用的语音情感识别模型的大致框架,接着分章节介绍了本文的主要研究内容,具体如下:(1)构建了藏语语音情感数据集TSED。首先通过从发音、拼读、音调等方面分析、对比了藏语与普通话和英语的一些异同证明构建藏语语音情感数据集的必要性和可行性;然后介绍了构建藏语语音情感数据集TSED的具体过程,TSED由12人参与录制、包含5种情感的6000条藏语语音组成;最后基于TSED分析、介绍了后期实验所需的各种特征的提取原理和波形图。后文的所有实验均基于TSED开展。(2)搭建了基于1-2DCNN-Bi GRU-MHAT的藏语语音情感识别模型。首先介绍1-2DCNN-Bi GRU-MHAT的整体结构;其次介绍每个子模块的结构和作用;然后介绍了本文在实验时的相关设置;最后实验室部分,共做了三组实验,实验一基于VGGNet、Res Net等卷积神经网络实现藏语语音情感识别,在VGG13上获得最高识别率79.19%,不到80%,这证明设计藏语语音情感识别网络的必要性;实验二验证1-2DCNN-Bi GRU-MHAT网络里各个子模块都能提高模型性能:实验三证明了1-2DCNN-Bi GRU-MHAT网络的有效性:在Bi GRU网络的基础上增加1DCNN、2DCNN和MHAT模块后,获得84.50%的识别率提高21.67个百分点。(3)搭建了基于多特征融合的藏语语音情感识别网络1-2DCNNTransformer Encoder。首先介绍Transformer编码器模块主要组成结构,其次介绍由1维卷积层和由二维卷积层改进的Transformer编码器模块构成的1-2DCNN-Transformer Encoder网络;然后是介绍了特征融合的一些方法;最后为实验部分,共做了四组实验,验证提出的1-2DCNN-Transformer Encoder网络的有效性,实验二选出分类性能较好的特征,实验三通过多次实验得到在融合特征MFCC260上可以获得最好识别率为87.5%,比使用单一特征提高了2.33个百分点,实验四通过两组子实验证明提出的融合特征MFCC260的有效性:(1)与经典融合特征Inter Sp09和e Ge MAPs进行的性能对比,发现MFCC260在1-2DCNN-Transformer Encoder网络上性能更好;(2)将MFCC260特征应用于1-2DCNN-Bi GRU-MHAT网络,识别率提高了1.67个百分点,这证明了融合特征MFCC260可以用于其他网络,且能提高,通过(1)、(2)两组子实验证明融合特征MFCC260的有效性。最后得出1-2DCNN-Transformer Encoder网络在TSED上基于融合特征MFCC260可获得87.50%的识别率。
多特征融合的汉语跟读评分系统的设计与实现
这是一篇关于多特征,卷积神经网络,语音评分,汉语学习平台,Java Web的论文, 主要内容为近年来,随着中国国际地位的提升,全球范围内渐渐兴起了一股“汉语热”。对外汉语言教学,一方面通过以孔子学院为代表的传统线下汉语教学机构进行传播,另一方面也需要汉语学习工具和平台的支持。但目前市面上大部分学习工具和平台是针对国人的,鲜有结合中国文化针对外国人进行口语训练和汉语跟读评分的学习平台。因此,针对传统线下汉语教学的不足与外国学习者缺乏口语训练的问题,本文分析了现存语音特征参数评分的局限性,设计并实现了一种多特征融合的汉语跟读评分系统,通过研究取得了以下成绩:首先,阐述了汉语跟读评分系统的总体设计方案。基于对汉语跟读评分系统的需求分析,确定了系统的整体架构;设计了学员子系统和管理员子系统的各功能模块;根据系统的功能需求完成了系统数据库的设计。其次,在提取了基音轨迹、共振峰轨迹和梅尔频率倒谱系数(MFCC)三种传统声学特征的基础上,通过小波卷积核神经网络提取了深度学习特征,构建了一种多特征融合的汉语跟读评分模型。结合提取的四种语音特征,通过动态时间规整算法进行模式匹配,采用差分进化算法确定各特征分数的权重比,设计了一种多特征融合的汉语跟读评分算法。然后,基于Thymeleaf模板引擎、SpringBoot框架和MySQL数据库等前后端技术,实现了多特征融合的汉语跟读评分系统,此系统分为学员子系统和管理员子系统两个部分。其中,学员子系统的功能模块包括注册登录模块、个人中心模块、课程检索与选择模块、跟读学习模块和跟读评分模块等,管理员子系统的功能模块包括学员管理模块、课程管理模块和试题管理模块。最后,对多特征融合的评分算法和系统整体进行了相关测试。测试结果表明,相比于传统卷积神经网络,小波卷积核神经网络在深度学习特征的提取上,减少了网络模型参数、加快了模型的训练速度。融入小波卷积核神经网络特征的多特征评分算法的相关性比单一 MFCC评分算法提高了 0.0837,比三种传统声学特征评分算法提高了 0.0345,验证了该评分算法的可行性和有效性。此外,本系统运行稳定,兼容性较好,各功能模块基本达到预期设计目标,评分结果较为科学,具有良好的应用前景和推广价值。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计货栈 ,原文地址:https://bishedaima.com/lunwen/50174.html