面向企业图谱构建的中文命名实体识别技术研究
这是一篇关于中文命名实体识别,Self-Attention,迁移学习,自学习,主动学习的论文, 主要内容为命名实体识别是信息抽取、机器翻译、知识图谱等应用领域的重要基础工具,在自然语言处理技术走向实用化过程中有着重要地位。在中文命名实体识别研究落后于英文命名实体识别研究以及深度学习兴起的背景下,本文面向企业图谱的构建这一目标,基于深度神经网络模型,深入研究了图谱构建过程中涉及的中文命名实体识别技术。论文的主要工作如下:在经典的BiLSTM-CRF命名实体识别模型的基础上融入Self-Attention,提出了SA-BiLSTM-CRF模型。实验证明该模型能够有效提取远距离依赖信息,有着更好的识别效果。并且发现BiLSTM与Self-Attention结合时使用双向结合的方式比单一结合的方式效果更好。验证了SA-BiLSTM-CRF模型中能够较好地通过LSTM学习到单词位置信息而不需要Positin Embedding。发现Multi-Head机制则能够提升模型效果,但是抽头过多容易过拟合。为了将SA-BiLSTM-CRF模型应用于标注语料较少的企业领域,针对标注语料少、深度网络模型难以训练的问题,分别基于迁移学习、自学习、主动学习、自学习与主动学习相结合四种思路提出了四种优化策略。实验验证了四种优化的有效性。同时,在基于迁移学习的优化策略中,发现最适合的迁移学习方式是迁移和微调整个模型的参数。在其他三种优化策略中,发现使用自学习与主动学习相结合的算法能够优势互补,优化效果要比单一使用其中一种算法的效果更好。在SA-BiLSTM-CRF模型的训练流程中,引入基于迁移学习优化策略和基于自学习与主动学习相结合的优化策略,提出了一个适用于企业领域的命名实体识别系统,并完成了企业图谱的构建。
基于无锚框与主动学习的超声图像检测系统设计与实现
这是一篇关于超声影像,深度学习,目标检测,主动学习,FCOS的论文, 主要内容为超声成像因其无辐射、低成本、快捷便利等特点,被广泛应用于临床诊断,但同时超声图像也存在高噪声、低分辨率、依赖医生操作经验等缺点。利用机器学习和深度学习技术改善超声图像质量、定量客观的评价图像、提取有利于诊断的计算特征,帮助医生提高诊断准确率,是目前智慧医疗的热点研究问题。本文针对超声图像中的病变检测问题和图像标注问题,以甲状腺超声影像为研究对象,开展了研究,并利用研究成果开发了一个具有实用意义的超声图像检测系统。首先,针对超声图像病变检测困难问题,本文利用无锚框目标检测模型FCOS作为基准模型,通过深入分析其模型特点和存在的问题,提出了Conv NeXt-FCOS模型,该模型的改进有:(1)引入特征提取网络Conv NeXt,替换基准模型中的Res Net特征提取网络,提取更有利于检测和识别的特征;(2)对网络进行卷积层数量调整,使其更适应于超声影像的检测;(3)对损失函数做了优化,引入“distant-ness”替换原模型中的“center-ness”。经过以上调整后,检测性能从原来的64.012AP提升到了68.361AP。其次,针对超声影像标注成本高昂问题,本文提出了基于先验知识的主动学习方法,在每轮训练迭代中,让模型自动挑选出识别比较困难的图像参与到模型的训练微调中,从而减少标注工作量,降低标注成本。针对基准方法ACFT存在的问题,本文提出Priori-ACFT算法,对原方法的改进如下:(1)引入了先验约束,优化了补丁选取逻辑,提高了计算效率;(2)引入了重框判定逻辑,解决检测出现的重框问题。经过实验,可以在使用50%图片的情况下达到原模型90%的性能。最后,本文设计并实现了超声图像检测系统。实现了用户上传、图像检测和分类,图像标注等功能,通过主动学习方法选取更有意义的样本供医生标注,不断修正模型的检测能力,辅助医生提升诊断准确率。
工业机器人故障诊断知识图谱构建方法研究
这是一篇关于知识图谱,深度学习,主动学习,联合抽取,故障诊断的论文, 主要内容为工业数字时代下产生了大量的数据,如何将数据转化为有价值的知识是值得研究的问题。作为智能制造中的关键技术,工业机器人在整个自动化生产过程中起着重要的影响作用。由于工业机器人的系统结构越来越复杂,一旦发生故障,可能会影响整个生产周期,准确地对工业机器人进行故障诊断,使其处于最佳的工作状态至关重要。随着知识图谱的发展,将有经验有价值的数据转化为知识分析越来越被重视,因此提出了构建工业机器人故障诊断知识图谱的课题。通过探究故障间的复杂关联关系,实现知识的分析与利用,为维修人员提供辅助决策、诊断推理等,是非常具有研究意义的。针对知识图谱构建的过程,本文的研究工作主要有:(1)构建工业机器人故障诊断领域的数据集。由于公开网络上没有该领域的数据集,本文针对故障维修表等文件,整理相关的数据句子信息。通过咨询专家指导进行本体概念关系的构建,划分了七种实体信息和四种关系信息,对数据进行标注最终形成本领域的小规模数据集IRFDC(Industrial Robot Fault Diagnosis Corpus)。(2)融合注意力机制的多头选择联合抽取算法研究。针对传统的流水线方法不能很好地融合两个子任务之间的关系,提出了一种联合抽取模型BABCJ(BertAttention-Bi LSTM-CRF in Joint Extraction of Entities and Relations)用于实体关系的抽取。本文在多头选择的基础上进行改进,引进了预训练语言模型Bert和注意力机制。模型在构建的数据集IRFDC上获得了综合F1值88.21%的效果,通过对比实验和消融实验验证了算法的有效性,并在公共数据集上验证了模型的泛化能力。(3)基于主动学习的实体识别算法研究。由于特定领域带标注的文本信息有限,完全监督学习会带来标注成本过高的问题,因此本文引入了主动学习展开研究。主动学习通过有选择性地挑选样本训练模型,一定程度上能减少人工标注的成本。本文基于主动学习先在实体识别领域上展开研究,通过查询策略的设计,结合改进后的学习引擎,最终通过实验验证了主动学习的有效性。(4)基于Neo4j的知识存储与可视化。利用Neo4j图数据库存储知识抽取过程中得到的三元组信息,实现知识的存储操作,并且在Neo4j图数据库进行了工业机器人故障诊断知识图谱的可视化操作。
面向推荐系统的主动学习算法研究
这是一篇关于机器学习,推荐系统,主动学习,正类无标记学习,多视图学习的论文, 主要内容为随着网络技术的发展,互联网上的信息呈现爆炸式地增长,使得互联网用户很难从海量数据中找到自己感兴趣的内容。用户迫切需要一个应用来实现对海量内容的推荐和浏览。个性化推荐系统可以根据用户的兴趣向用户推荐个性化的内容,是解决信息过载的有效手段。在推荐系统中,推荐模型的训练需要大量有标记的数据,但是数据标记的获取通常是有代价的,有时甚至十分昂贵。具体来说,推荐系统中的数据标注代价主要来源于两个方面。一是用户行为标记的获取。在建立推荐系统的初期,往往缺乏足够的训练数据,而收集大量用户反馈数据又比较耗时。二是针对物品具体属性的标注。在基于内容的推荐系统中,往往需要对物品的属性信息进行人为的标注,标注代价较大。针对以上两种情况,本文分别提出两种主动学习算法,来降低推荐系统中模型训练所需的数据标注代价。文本的工作主要包括以下两个方面:一、面向推荐系统的PU主动学习。本文将推荐问题当作一个正类和无标记学习问题:用户与物品发生交互产生正类样本,用户和物品没有发生交互为无标记样本,利用正类和无标记样本训练分类模型,根据模型输出的预测值来推断用户对物品的喜好程度,并以此来进行推荐。在正类无标记学习中,当正类样本数目较少时,无法训练性能可靠的分类模型。为此本文设计了一种新的主动学习算法,选取的查询样本一方面使分类的期望误差最小,另一方面要尽可能地覆盖到整个样本空间,能够用较少的查询次数,增加对模型训练最有帮助的正类样本,达到减小标注代价的目的。实验证明,本文提出的算法能够有效降低基于正类无标记学习的推荐任务中的数据标注代价。二、面向视频推荐的多视图主动学习。在许多视频网站,推荐任务是通过对视频-用户对进行点击预测来实现的,其中视频是用从内容描述信息中提取的文本特征来表示的。然而,由于视频内容描述信息的缺失情况比较严重,往往需要进行人工标注。为了花费较少的标注代价训练性能较好的视频推荐模型,本文提出了一种主动学习算法,在充分利用视频廉价的视觉特征的同时,尽可能地减少视频文本信息的查询。一方面,本文通过同时最小化视觉特征到文本特征的重构误差以及文本特征到标记空间的分类误差,训练了一个从视觉视图和文本视图的映射;另一方面,本文基于预测不一致性和观看频率两个指标,提出了新的查询方法来查询重要视频的文本信息。实验证明,本文提出的方法能够有效减少视频推荐任务中的视频标注代价。
冬奥小镇主动学习与条件匹配行人再识别系统设计与实现
这是一篇关于行人再识别,人在回路,主动学习,微服务,云原生的论文, 主要内容为为提升冬奥智慧小镇多场景活动、跨业态运营的智慧运营平台服务能力,冬奥小镇拟对小镇资源进行数字化分析建模。为构建公交乘客数字化模型,本文基于行人再识别算法分析行人图片,实现了乘车行人的识别。进一步地,本文设计了行人再识别条件匹配方法,该方法可以关联行人身份和行人上下车动作,实现对行人乘车轨迹的追溯。考虑到行人再识别深度模型部署时广泛存在的数据分布偏移问题,本文研究了基于主动学习的开放数据集行人再识别,以较少样本量纠正部署域数据和训练域数据间的分布偏移。并且,为有效评估主动学习在行人再识别中的效果,减少主动学习评估过程中的手工标注操作,本文设计了一种行人再识别主动学习仿真测试框架。此外,本文提出了一个基于微服务的行人自识别分布式系统设计和架构方案,优化了微服务架构中接口权限认证困难的问题,并实现了主动学习与条件匹配行人再识别。该行人再识别系统基于面向对象设计,为行人再识别主动学习中的数据采样、数据标注、模型评估等步骤设计了独立的模块并满足里氏替换原则,可以为行人再识别主动学习和应用研究提供支撑。主要工作如下:1.设计了一种可以结合行人再识别和行人上下车动作检测结果的行人再识别条件匹配框架。本文基于分布式微服务实现该框架,可用于检索具有特定乘车行为的行人。2.设计了一种行人再识别主动学习框架。考虑到开放世界行人再识别的数据分布偏移问题,本文研究了基于主动学习的行人再识别模型迭代机制。通过消融实验,主动学习条件下行人再识别模型性能相较于随机采样提升更快,节约了手工标注量。3.设计了一种行人再识别主动学习仿真测试框架。基于掩盖部分真值数据集的主动学习仿真测试方法,本文设计了一种无需重复手工标注即可模拟人在回路的行人再识别模型迭代方法,可用于评估主动学习算法的部分性能。4.开发了一个基于微服务架构的主动学习与条件匹配行人再识别系统。为保护接口安全,本文实现了 RBAC热更新响应式API网关,对不同身份的用户提供不同的开放API操作权限,并通过响应式编程、分布式缓存等方式优化网关性能。在系统部署过程中,本文使用开发运维一体化方法,简化服务运维操作,有助于敏捷开发和快速迭代。并且,业务和算法分别在多个微服务中实现和部署。相比较单体架构,所提方案具有更良好的伸缩性和可扩展性。
基于语义交互和主动学习的迭代式检索框架
这是一篇关于可视分析,信息检索,语义交互,主动学习,分类器的论文, 主要内容为在如今的大数据时代,文本信息错综复杂,如何在浩瀚的文本信息库中快速且准确的查询到所需要的文本为信息检索带来了挑战性难题。在选取准确的关键词和筛选限制条件问题上的困难,使得在大量文本信息中精准查找所需文本信息的任务变得枯燥乏味且费时费力。近年来,研究人员开始借助机器学习算法对文本信息进行分类从而帮助解决文本信息检索任务,但是运用机器学习算法为文本信息检索任务带来了新的挑战。首先,某个文本领域的专家可能并不精通机器学习甚至对机器学习领域毫无研究,而大多数分类方法需要不断地调节分类算法中的参数才能得到令人满意的分类准确率;其次,机器学习中的分类算法大多是有监督学习,然而让文本领域的专家对每个未标注的文本信息标注标签又是一项及其繁琐的任务。本课题试图解决上述两个约束,引入了语义交互和主动学习算法,构建了一个基于语义交互和主动学习的迭代式检索框架,并设计实现了一个交互式的信息检索可视分析系统:通过计算文本相似度获得初始训练数据集;利用卡方检验获取文本特征构建SVM分类器;利用主动学习查询SVM分界面附近的样本点进行标注,从而迭代优化分类器。并且构建了一个可以进行文档移动、高亮、检索、注释语义交互的力导向图,通过力导向图、t-SNE降维图、词云辅助用户了解文献信息并标注正确的标签。在案例研究中发现本方法中可视化系统以及实现了语义交互的力导向图可以清晰显示出文献间的关系,并提高用户标注的准确度;本方法的主动学习,降低了推荐系统的标注量,并加快了需求挖掘和样本学习的速度。在用户需求模糊的情况下,本方案可以快速且准确的查询到用户真正需求的文献。
面向需求工程领域知识库构建的实体抽取技术研究
这是一篇关于命名实体识别,深度学习,分词,语法规约,主动学习的论文, 主要内容为随着网络信息的爆发式增长,获取知识的途径和知识表现方式也变得多样。而知识表现方式多以文本形式出现,如何准确而高效得获取想要的知识成为近些年来研究的热门。在众多的文本知识表现途径中,知识图谱是一个比较科学完善的方法,知识图谱的构建由实体识别,关系识别,实体消歧,实体链接,可视化等多个步骤组成,这其中命名实体识别(NER)是整个知识图谱构建的第一步,也是损失传递的起点,因此实体识别的准确性对于构建知识图谱来说尤为关键。在需求文档中,实体与普遍意义上的实体在内容和长度上有较大差异,因此用常规方法进行实体的识别更加困难。本文针对需求文档实体识别模型进行了深入研究,引入了先分词,后标注的深度学习方法进行命名实体识别。在进行文本分词时,通过观察数据和实验,发现了传统分词方法的分词精确率不高,因此提出了通过识别非实体从而进行反向切割的实体分词构建方法,并对其进行细粒度的优化,再结合深度残差网络(Res Net)设计了更加精确的分词模型;在进行序列标注时,采用了带有注意力机制的双向长短期记忆网络(Bi LSTM with attention)以及条件随机场(CRF)方法进行实验,再修改优化自注意力机制,使之更加适应需求文档的命名实体识别任务,实现了混合命名实体识别模型;最后,为了解决需求文档有效标注数据量小的难点,引入了主动学习方法,改进并设计更适应需求文档命名实体识别任务的查询策略,在不牺牲准确率和召回率的基础上显著缩小了数据需求,同时通过实验验证了主动学习模型的容错率。实验证明,所提方法在需求文档领域识别效果优于普适的传统方法。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计货栈 ,原文地址:https://bishedaima.com/lunwen/47602.html