5篇关于自动标注的计算机毕业论文

今天分享的是关于自动标注的5篇计算机毕业论文范文, 如果你的论文涉及到自动标注等主题,本文能够帮助到你 法院电子卷宗标注系统的设计与实现 这是一篇关于电子卷宗,自动标注

今天分享的是关于自动标注的5篇计算机毕业论文范文, 如果你的论文涉及到自动标注等主题,本文能够帮助到你

法院电子卷宗标注系统的设计与实现

这是一篇关于电子卷宗,自动标注,SpringBoot,MyBatis,OCR的论文, 主要内容为近年来,随着人工智能和机器学习等相关技术的快速发展,法院办公系统正在向智能化的方向进行升级。为了顺应国家科学技术升级换代的趋势,天津市高级人民法院正在加大智能化系统的研发力度以提高工作效率。与此同时,电子卷宗管理越来越受重视,其智能编目系统的编目任务实现需要标注数据,但缺乏相应的数据集,需要构造系统进行标注。本文以此为背景,构建了一个在线电子卷宗标注系统,用于采集和管理标注数据。本文基于全文检索技术和图片内容识别技术,采取自动标注和人工标注相结合的方式建立标注数据集。通过OCR图像识别技术扫描电子卷宗图片获取图片内容,使用Elasticsearch搜索引擎匹配相关标签关键字完成自动标注。针对匹配失败的情况,通过人工标注进行补充标注,以保证图片标注的准确性。本文将电子卷宗标注系统分为七个功能模块,分别是卷宗文件获取、卷宗数据预处理、电子卷宗标注、电子卷宗任务管理、数据统计、系统管理、数据导出。系统采用Spring、Spring Boot作为系统的后端框架;使用My Batis做系统的数据持久层框架;电子卷宗数据采用FTP文件传输协议进行文件的传输;结合电子卷宗标注系统的需求分析和模块设计,依次对上述功能模块进行实现和测试。当前,电子卷宗标注系统已经在天津市高级人民法院投入使用,经工作人员使用后反馈系统运行流畅,操作简单方便。

基于远程监督的西藏高原植物关系抽取研究与实现

这是一篇关于关系抽取,自动标注,远程监督学习,多头自注意力,知识图谱的论文, 主要内容为西藏无边无垠的高寒草甸、高寒草原以及高山荒漠化草原上分布着丰富的禾本科、莎草科植物,生态环境的复杂为植物种类的多样性提供了环境,也为西藏发展林业、畜牧业和农业奠定了基础,这在西藏经济建设中占有突出的地位。随着深度学习的发展,计算机强大的数据分析和学习能力已经能够为不同的领域提供服务。针对西藏丰富的植物资源,研究通过基于远程监督的关系抽取技术,将互联网上与西藏高原植物相关的文本数据进行清洗、转化、加工,抽取出可以直接使用的西藏高原植物知识三元组。但是,由于远程监督的特殊标注方法,也带来一些难题亟待解决。首先,远程监督学习自动标注的数据集不可避免的会导致错误标注的发生,因为我们不能保证每一个句子都能够正确表示两个实体间的关系,造成大量噪声影响。其次,依靠外接知识库或知识图谱进行远程监督获得的数据往往呈现幂律分布,造成一些中长尾实体对难以获取。不管是噪声问题还是长尾数据,都大大限制了基于远程监督的关系抽取的性能,所以,研究将通过以下两个方面来对远程监督关系抽取进行改进:(1)由于西藏高原植物领域缺少标注语料库,提出一个远程监督数据集的构造方法,缓解长尾数据,从训练数据入手降低错误标注带来的噪声影响。方法的创新在于:利用语句特征及其关键词的相似度,最大程度的初步确定实体之间的关联。首先,将开放领域知识库与西藏高原物种索引对齐,提取出三元组,建立西藏高原植物领域知识库;其次,通过知识库在百度百科等网站上爬取包含对应实体的相关句子集,组成未标注语料集;然后,通过设立关系特征词,针对远程监督关系抽取的噪声问题,设计一种基于依存句法分析与句子相似度的语料自动标注算法来减少噪声数据,生成标注语料集;最后,将本文基于依存句法分析与句子相似度的语料自动标注方法与多种方法相比较,实验证明了本文自动标注的方法在准确率上有很大的提升,能够显著降低远程监督学习带来的长尾数据和噪声影响。(2)提出一种关系抽取模型MPCNN。MPCNN将关系抽取任务分为六个模块,利用卷积神经网络、多头自注意力机制和句子特征选择等方法筛选出高质量的样本数据,提高中长尾实体关系的识别率,缓解远程监督噪声数据影响。MPCNN模型创新点在于:从卷积模块中提取特征后,采用多头自注意力机制来更有效的分配句中不同词的特征权重,增加正确句子的权重,降低噪声句子的干扰。最后,通过实验和对比,经过本文框架训练后的文本模型与CNN+ATT等模型相比,准确率和稳定性都有所提升,验证了本文所提出的关系抽取模型在西藏高原植物领域的可行性。最后,在以上研究基础上,将三元组数据通过Neo4j图数据库进行底层存储,基于ASP.NET前端网页技术设计并实现了西藏高原植物领域信息检索与可视化系统,实现了远程监督关系抽取的算法应用。

面向经济知识图谱构建中文关系抽取算法的研究与应用

这是一篇关于经济领域知识图谱,中文关系抽取,远程监督,自动标注的论文, 主要内容为随着信息化时代的高速发展,近些年来互联网技术得到了爆炸式的飞速发展,同时互联网在各行各业广泛普及应用,互联网上文本数据呈爆炸式增长。虽然互联网上海量的、多样的数据让人们获取知识变得更加容易,但是其中大量的无用的数据同样让人们高效准确地获取知识变得更加困难。人们迫切希望一种技术能够从海量的数据中抽取有用的知识,当人们需要某种知识时可以直接准确获取,而不需要人工筛选。知识图谱正是在这种情况下诞生的,知识图谱就是覆盖在海量数据上的知识网络结构,它从海量的数据中抽取有用的知识,以实体关系三元组的形式结构化呈现给用户,让人们可以快速准确地获取需要的知识,而实体关系抽取则是构建知识图谱的核心技术。因而,知识图谱和实体关系抽取从提出至今一直是热门研究方向,面向领域知识图谱研究实体关系抽取算法在学术上和工程上都有极大的价值和意义。本文首先介绍了知识图谱和实体关系抽取算法在国内外的发展历程和研究现状,然后分析了知识图谱和实体关系抽取的相关技术,接着在此基础上面向经济领域知识图谱深入研究实体关系抽取算法,并在已有的经典算法模型基础上进行优化改进,提出了本文改进的基于远程监督的实体关系抽取算法,最后将本文改进的算法模型应用于实际的经济领域的具体数据上,成功搭建了经济领域的大数据知识图谱中心系统。整体来讲,本文的具体工作和主要贡献如下所示:(1)针对远程监督实体关系抽取算法的数据自动标注模块存在的准确率和召回率较低的问题,本文在已有算法模型的基础上进行优化,提出了本文的联合关系特征词与句子相似度的自动标注算法。具体来讲,首先,结合依存句法分析改进句子相似度,使得句子相似度主要依赖于和实体对相关的句子成分,强调实体对对句子的约束条件,然后,结合本文改进的句子相似度计算方法和传统的关系特征词匹配方法实现本文的数据自动标注算法,最后,将本文改进的数据自动标注算法与经典的Mintz方法、关系特征词扩展方法和关键词相似度方法进行了对比实验,实验结果证明了本文的数据自动标注算法相较于Mintz方法在准确率上有着极大的提升,相较于关系特征词扩展方法和关键词相似度方法在准确率和召回率上都有较好的提升;(2)针对已有的远程监督关系抽取模型忽略了句子中的关系受实体对约束的问题和经典算法PCNNs-ATT模型面向经济领域具体中文数据存在的中文分词噪声传递、多关系分类以及重复计算这些具体小问题,本文在PCNNs-ATT模型的基础上,设计了基于依存句法分析的拟字符注意力机制,实现了实体对对句子中关系的约束条件,同时引入字词混合向量、多标签问题和关系表示解决了中文分析噪声传递、多关系分类和重复计算的问题,最终提出了本文的PCNNs-ATT-DP模型,实现远程监督关系抽取,最后,将本文改进的PCNNs-ATT-DP模型与经典的Mintz模型、MIML模型、PCNNs模型和PCNNs-ATT模型进行了对比实验,实验结果证明了本文改进的PCNNs-ATT-DP模型在经济领域中文数据的实体关系抽取任务中,相较于其他经典的Mintz模型、MIML模型、PCNNs模型以及PCNNs-ATT模型,在准确率和召回率上都有良好的提升,同时,在这几种经典远程监督关系抽取算法中取得了最高的F值;(3)在本文第三章改进的经济领域数据自动标注算法和第四章改进的远程监督关系抽取模型PCNNs-ATT-DP模型的基础上,本文还面向中文经济领域的具体数据设计并实现了大数据知识图谱中心系统,实现了本文研究算法的应用。

基于增强现实的地理区域识别研究

这是一篇关于增强现实,目标检测,自动标注,Hololens的论文, 主要内容为传统的中小学地理教学经常使用地球仪作为辅助教学工具,虽然地球仪能直观的展示相关地理区域,但是由于地球仪本身的限制而无法承载过多的信息,而增强现实(Augmented Reality,AR)技术能够将虚拟信息叠加到现实场景上进行实时交互,将AR技术与地理教学相结合可以使教学内容更加丰富、生动、有趣,能够激发学生的学习兴趣。目标检测算法具有较强的识别物体的能力,将目标检测算法与AR技术相结合,可以提高AR系统的识别能力,在一定程度上解决需要特定AR地球仪的限制。因此本文提出一种将AR应用于中小学地理教学的交互系统,用户通过佩戴AR眼镜,手持地球仪,将手指与地球仪进行交互,通过目标检测算法识别用户指向的地理区域,在识别出该区域后,将相关介绍信息展示在用户视野内。由于国家区域是普遍的教学内容,也是目标检测中较难的部分,所以本文将国家区域的教学交互作为研究目标。要完成手指与地球仪交互时对国家区域的识别任务,需要解决以下几个问题:1)地球仪上的国家区域在不同角度下的形态变化复杂、数据获取困难且人工标注费时;2)在与地球仪交互时会对地球仪国家区域进行遮挡,会在一定程度上影响识别的效果。为了解决上述问题,本文构建了一个自动标注系统和一个基于相对位置关系的缺失补全算法。本文的创新点和主要工作如下:(1)本文基于Unreal引擎开发了一个自动标注系统,构建了一个地球仪国家区域相关数据集DGAR。为了能够获取到地球仪不同角度下的国家区域的边界框数据,本文使用GIS数据绘制了多种平面世界地图,在虚拟场景中构建出具有不同纹理特征的地球仪球体模型,并使用模型实现了自动标注系统,获取了大量标注数据。同时,为了验证虚拟数据对目标检测算法的有效性,本文采集并标注了真实的地球仪国家区域数据进行测试。(2)针对被手指遮挡而检测失败的情况,本文将用于物体分类与分割的Point Net算法的网络结构与YOLOv5的特征提取模块和回归预测思想相结合,提出了一个基于相对位置关系的国家区域缺失补全算法PCC-Net。通过在真实地球仪数据上进行测试,该算法进一步提高了国家区域识别的准确率。(3)本文利用YOLOv5目标检测算法与提出的PCC-Net国家区域缺失补全算法配合Hololens AR眼镜的手势交互与手部跟踪系统实现了一个用于地球仪国家区域识别的应用。

面向农业大数据的关系抽取方法研究

这是一篇关于关系抽取,远程监督,自动标注,噪声,假负例,知识库融合的论文, 主要内容为关系抽取任务作为自然语言处理领域一项重要的研究内容,目的是判断文本中实体之间的语义关系,被广泛应用于知识图谱、智能问答等领域中。传统的有监督关系抽取方法需要使用带有标签的数据对模型进行训练,而数据中的标签需要人来手动进行标注,这无疑会消耗大量的人力资源。因此,远程监督方法受到了大量学者的关注。远程监督不需要人工对数据集进行标注,它依赖于现有的知识库,通过远程知识库对文本进行自动标注。但远程监督自动标注的数据由于过硬的假设条件,会出现大量的错误标注数据,使得远程监督获得的数据中存在大量噪声。训练集中的噪声会影响模型对样本的特征学习,测试集中的噪声会影响模型性能的评估。另一方面,知识库中知识的缺失会导致数据中存在大量假负例的情况,影响模型性能。我国是一个农业大国,农业是国民经济的命脉,与社会的进步与发展密不可分。但目前农业缺乏健全、规范的农业知识体系提供有效支持,因此构建一个统一的农业领域的知识图谱是是保障我国农业体系稳定,促进可持续发展的关键任务。基于此,本文面向农业领域大数据,对远程监督关系抽取方法进行研究,本文的具体研究内容如下:1.针对目前农业领域的数据不足问题,本文通过人工标注的方式,手动标注了一批农业数据集,并构建了一个小型的农业知识库,以支持对农业领域关系抽取任务的研究,同时使用人工标注的数据构建测试集来对远程监督关系抽取模型进行评估,避免远程监督的噪声数据影响模型的正确评估。2.针对远程监督的数据噪声问题,本文设计了一个远程监督去噪模型,通过构造伪噪声数据对噪声数据和正确数据的特征进行学习,模型将相同实体对的原始样本映射到多维高斯分布上,将伪噪声样本映射到高斯混合分布上,通过拉近分布的距离将噪声数据从原始样本中鉴别出来。通过这种方式对噪声数据进行过滤。与之前研究不同的是,本文的去噪模型独立于关系抽取任务,可以与任何关系抽取模型配合使用。3.针对知识库中知识缺失的问题,本文提出了多知识库融合的远程监督关系抽取方法,设计了基于最大公共子图的多知识库融合算法,通过知识库融合弥补知识库知识缺失的问题,为了解决知识库融合时的知识冲突问题,本文结合知识库的置信程度,将知识库中实体对的关系赋权,在融合后的知识库中保留各个知识库的内容,通过权重来表示知识的准确程度,在远程监督数据自动标注时保留了知识库中的权重,并设计了对应的关系抽取模型,使用带权重的数据对模型进行训练,并使用人工标注的无噪声的数据集对整个流程进行评估。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设工坊 ,原文地址:https://bishedaima.com/lunwen/46059.html

相关推荐

发表回复

登录后才能评论