8篇关于信息抽取的计算机毕业论文

今天分享的是关于信息抽取的8篇计算机毕业论文范文, 如果你的论文涉及到信息抽取等主题,本文能够帮助到你

基于网络爬虫的数字隐写图像采集系统设计与实现

这是一篇关于无载体信息隐藏,信息采集,信息抽取,图像检索,Heritrix的论文, 主要内容为作为一种新型的信息隐藏技术,无载体信息隐藏技术近年来逐渐成为信息隐藏领域的研究热点之一。基于图像的无载体信息隐藏的重要特点是不修改原图像的任何数据,而是构建图像和隐秘信息之间的映射关系,或者利用秘密消息构造图像实现信息隐藏。为了进一步降低受到攻击和分析的可能性,不引起第三方注意,无载体信息隐藏通常采用存在网络上的、热门图像作为载体。热门图像,一般依附于Internet文本信息而存在,比如热门新闻,热门微博等。然而数以亿计的图像分布在Internet的各个角落,因此如何有效地从Internet中采集到热门图像成为了无载体信息隐藏的一个重要的问题。目前,按照特定的策略持续进行资源发掘和收集的功能模块比较多,网络爬虫是公认最有效的工具之一。又由于基于图像的无载体信息隐藏的一个重要指标就是不引起非合作方的怀疑。在通过传递图像的组合来表示秘密消息时,若所选图像在内容等方面存在逻辑的不合理性时,无载体信息隐藏极容易引起非合作方的怀疑,对所传递的图像进行攻击。所以在构建图像组合时必须是逻辑、内容合理的图像进行组合,即在无载体信息隐藏时,应该将内容相关的一组图像作为备选图像,这样就会涉及到图像相似度的计算和图像的检索。因此,本文综合运用主题网络爬虫、网页信息抽取、文档去重、检索等技术,设计并实现一个热门图像的采集系统,为无载体信息隐藏构建完备的图像集合。本文实现的热门图像采集系统包括网页数据采集模块、网页信息抽取与分析模块、图像检索模块等。其中,网页数据采集模块是对Heritrix爬虫进行扩展,负责采集目标网站的网页;网页信息抽取分析模块主要是利用抽取规则和Jsoup解析器,将所需信息从网页中抽取出来,并对网页进行去重,计算出热门新闻;图像检索模块是通过Lucene索引工具,将颜色特征和纹理特征建立索引,达到图像相似度检索的功能。论文重点分析了上述各模块的实现机理,并利用相应的开发工具实现了各个模块,从实测结果看,论文所构建的热门图像采集系统能自动收集热门图像,并根据图像的基本特征,为所收集的图像建立索引,满足了实际项目的需求。

商场室内空间知识图谱构建与查询应用

这是一篇关于室内空间,知识图谱,本体,信息抽取,语义查询的论文, 主要内容为物联网及新型定位技术的发展使得室内定位得以实现,为人们提供室内位置服务成为必然。人们的日常生活处于室内或是室外空间,但实际上大部分时间都在室内环境中度过的。相比之前较为关注的室外空间而言,室内空间结构复杂、语义丰富,不同的人对室内空间服务有着不同的需求与认知,有着不同的语义限制,因此目前已有的室外空间的相关技术无法直接应用在室内空间中。室内空间查询作为一种广泛使用的室内位置服务,目前仍通过关键字匹配进行检索,无法提供语义关联性强的、明确的、更加准确的检索结构,知识图谱的出现为智能检索提供了一个有效的解决办法。本文以商场空间的语义查询为研究背景,针对已有工作缺乏对商场空间的知识图谱的研究,不能支持高效的室内空间查询问题,研究了商场室内空间知识图谱的构建方法和查询应用,具体的研究成果如下:(1)本文提出室内空间知识图谱的构建框架。完成了用知识图谱对室内空间进行建模,更关注实体和实体间的关联。(2)本文构建了一个商场室内空间本体,描述商场室内空间知识图谱的结构层。通过对室内空间相关信息的分析,定义了室内空间中所涉及的概念及属性,完成商场本体的搭建。(3)本文从在线资源数据中进行信息抽取,即抽取实体、实体的属性以及实体间的关系,描述商场室内空间知识图谱的数据层,完善商场室内空间知识图谱。首先使用基于统计和基于规则的方法抽取数据源中实体,进行实体识别;其次将关系抽取转换为分类问题,对关系进行扩充;最后通过构建包装器来对商场属性进行扩充。本文以大连高新万达广场为例,构建了一个较为完整的商场空间知识图谱。(4)本文实现了一个支持商场室内空间查询的原型系统,从功能上划分为:商场室内空间知识图谱构建模块、语句预处理功能模块、相似性匹配模块和结果排序模块。本系统利用知识图谱回答用户的商场室内空间查询,能够提供更加满足用户需求和个性化查询结果。

国家语委专家稿件评审系统的设计与实现

这是一篇关于国家语委,稿件评审,信息抽取,Flask框架,Docker容器的论文, 主要内容为科技的飞速发展使得信息化改革成为社会进步的重要力量。国家语委作为主要拟定国家语言文字工作方针的组织机构,发布了期刊《国家语委专家建议》投稿公告,此公告吸引了众多热心学者、专家就语言文字及相关邻域和热点主题来稿。但随着稿件数量的激增,早期复杂的稿件评审流程已经无法满足当前文章刊载速度了,同时也大幅度增加了国家语委科研办管理人员和评审专家的工作量。为提升稿件评审的效率,并兼顾稿件评审的公平公正性,国家语委迫切需要建立一个能够优化现有稿件评审流程、高效采集专家数据的信息化平台。本文对国家语委的需求进行了详细分析,设计并实现了一个专家稿件评审系统,它包含两个核心功能模块:稿件评审模块、信息抽取模块。前者包含多流程分派评审、专家与投稿人信息冲突检测、消息通知等功能,以提升稿件评审流程的效率和公平性。后者涉及专家主页数据采集、主题标签提取、画像构建等功能,使得稿件主题与专家研究方向更加匹配,并适当增加专家库中专家数量。系统使用前后端分离架构,基于Flask框架搭建后台服务器,实现后端功能模块;应用阿里云OSS服务器存储稿件,保障稿件存储安全;利用Redis、Mysql等存储组件构建数据访问层,提高数据访问性能;使用LDA主题模型提取专家标签,准确获取专家研究方向;运用Dokcer容器化部署系统,方便系统快速移植。选用Vue.js框架实现可视化前端界面,便于用户操作系统。在使用上述技术完成系统编码后,本文针对整个系统设计了功能性和非功能性的测试用例,最终测试结果符合预期目标。随着国家语委专家稿件评审系统的正式上线,系统中的核心功能为国家语委科研办管理人员带来了极大的便利,显著提升了用户之间的沟通效率,确保了评审流程的公平公正性。另外,系统的稳定性和界面流畅性也得以证明,它的性能能够满足国家语委工作人员、评审专家以及广大投稿人的使用需求。在未来的日子里,此次研究会为其他领域的评审系统带来一定的参考意义,同时会为推动国家语言文字事业高质量发展贡献自己的力量。

基于多模态特征的信息抽取方法研究

这是一篇关于多模态,信息抽取,图神经网络,特征融合,多模态预训练的论文, 主要内容为随着移动互联网的飞速发展,推特、微博等社交平台凭借其便捷性、共享性获得了广大用户的青睐。人们可以很轻松地在社交平台上发表意见、分享生活日常。以推特为例,这些推文通常不只有文字,用户还会添加图片来增强自己的情感。信息抽取任务旨在从自然语言文本中提取出实体、关系、事件等特定的结构化信息.该任务可以为知识图谱、自动问答、推荐系统等下游应用提供数据支撑。推特文本一般比较简短且噪音多,表述也不规范。但是图片与文本相关性较高,借助于图片模态可以弥补文本表达的不足。因此基于传统单文本的信息抽取方法已不再适用,利用图片进行多模态信息抽取已成为近年来的研究热点。本文展开了基于文本和图片的命名实体识别、社交关系抽取和实体链接三个信息抽取任务的研究,具体研究内容如下:首先,本文提出了一种基于目标视觉对象指导的多模态命名实体识别方法。该方法在输入的文本和图片间构建了一个统一的多模态图神经网络。图中的每个节点表示一个语义单元,即文本化的单词或者目标检测出来的视觉对象。设置两种边来分别捕捉同一模态内和不同模态间语义单元的关联性。然后基于该图网络,堆叠多层多模态特征融合层来迭代性地进行节点交互:对于在同一模态内的节点,使用Transformer直接捕捉节点间的依赖关系;对于在各自不同模态的节点,使用跨模态门控机制来收集每个节点的跨模态邻居节点的语义信息。最后,利用CRF对增强后的文本表征解码从而抽取出命名实体。实验结果表明,该方法在处理多模态命名实体识别任务时较其它基准模型取得了较优的性能,后续的消融研究进一步验证了该方法的有效性。其次,本文提出了一种基于句法和面部特征的图融合的多模态社交关系抽取方法。该方法在文本层面融入词性、依存边和依存标签三种句法信息,在图片层面使用Transformer来建模头尾实体面部的隐式关联信息。为了构建多模态图神经网络,将头尾实体对应的词向量最大池化成两个文本节点,对应的面部表征则设为两个视觉节点;同时每一个文本节点都与其它两个视觉节点相连,每一个视觉节点都与其它两个文本节点相连。接着利用跨模态注意力机制实现多模态特征的融合。此外,由于数据集中样本分布不均衡,大量社交关系类别对应的样本数稀少,本文基于原型网络进行少样本学习。实验结果表明,该方法可以有效融入句法和面部特征,并通过多模态融合生成更高质量的文本向量。在少样本学习的各种实验设置下,模型分类准确率大幅领先其它基准方法。最后,本文提出了一种基于图片文本预训练和提示词微调的多模态实体链接方法。受限于高昂的人工标注成本,本文首先根据推文的特点,利用脚本程序自动化构造出一份多模态实体链接数据集并在此基础上进行实验。在多模态预训练阶段,该方法基于BERT模型设计了遮蔽词预测和图片文本对齐两个任务。其中,遮蔽词预测有助于提升模型对推特文本的归纳偏置能力,图片文本对齐则鼓励模型去学习两种模态之间的隐式依赖关系。在微调阶段,由于标注样本较少,为了充分利用预训练模型学到的知识,本文基于提示词的方式构造输入模板,保持与预训练阶段的任务一致,这样就能从预训练模型中直接获取尽可能多的语义信息。实验结果表明,多模态预训练可以为下游任务带来明显的性能提升,提示词微调可以在低资源学习下取得较优的效果。后续的消融研究进一步证明了预训练任务设计的合理性和预训练模型的泛化性。

基于跨度回归的中文事件抽取方法研究与应用

这是一篇关于事件抽取,事件触发词,事件论元,信息抽取,跨度抽取,回归调整的论文, 主要内容为事件抽取是自然语言处理中的一项重要任务。它从大量非结构化文本中自动提取用户感兴趣的事件信息,并以结构化形式呈现给用户,为自动文本摘要、事理图谱构建、智能问答等提供技术支持。事件抽取包括事件触发词抽取和事件论元抽取两个子任务。然而,在抽取事件触发词时,传统的中文事件抽取方法面临着触发词错误匹配、触发词识别不准确问题。在抽取事件论元时,还存在事件论元识别不准确和事件论元角色重叠问题。为了解决这些问题,本文基于跨度回归的方法对中文事件抽取展开研究,具体研究工作如下:(1)为了解决触发词错误匹配、触发词识别不准确问题,提出了一种基于跨度回归的触发词抽取方法。该方法考虑到句子中特定长度的字符子序列(跨度)可能构成一个事件触发词,用基于Transformer的双向编码器的BERT预训练语言模型获取句子的特征表示,进而生成触发词候选跨度,然后用一个分类器过滤低置信度的候选跨度,通过回归调整候选跨度的边界来准确定位触发词。最后对调整后的候选跨度进行分类得到抽取结果。在ACE2005中文数据集上的实验结果表明本文提出的方法优于传统模型。(2)为了解决事件论元识别不准确以及角色重叠问题,提出了一种结合跨度回归与触发词信息的论元抽取方法。该方法先通过对候选跨度边界进行回归调整以准确的识别事件论元,并在生成跨度特征表示时加入了论元长度特征,提高了长事件论元识别的效果。随后通过插入类型化的标记来突出文本中的事件触发词和事件论元,并把标记文本输入BERT获取语义信息丰富的上下文句子表征,最后拼接句子表征中触发词开始位置与论元开始位置的特征表示输入分类器对论元分类。通过在公共数据集上进行实验对比,验证了本文方法的有效性。(3)设计并实现新闻事件抽取系统。基于本文提出的方法训练事件抽取模型,采用B/S架构对事件抽取模型进行部署,实现了一个Web新闻事件抽取系统。该系统支持自动抽取事件、事件信息可视化等功能,为事件抽取应用发展奠定了基础。

国家语委专家稿件评审系统的设计与实现

基于神经网络的中文谓语中心词识别研究

这是一篇关于信息抽取,深度学习,谓语中心词,唯一性,边框回归的论文, 主要内容为谓语中心词是句子的焦点,通过谓语中心词识别可以解析句子各个部分语法要素,从而构建以谓语中心词为核心的事件知识图谱,对研究事件的动态变化与追踪具有重要意义。谓语中心词的识别需要判断其为句子的中心,传统的识别模型主要使用浅层的序列标注方法对句子中的每个字进行分类。由于谓语中心词的识别针对的是单个句子,因此获取句子中的语义信息非常重要。本文的主要工作分为以下两个方面。针对谓语中心词识别中上下文语义信息的获取问题,本文提出了一种基于Highway-Bi LSTM网络的深度学习模型。首先,使用多层堆叠的Bi LSTM网络获取每个句子内部不同粒度的抽象语义依赖信息。其次,本文通过引入Highway网络连接模型中的每个层,使语义信息在层与层之间高速流动。一个句子中可以有多个动词,却只有一个谓语中心词,即谓语中心词的唯一性问题。针对这个问题,通过约束层对谓语中心词的输出路径进行规划,从而保证输出的每个句子中只包含一个谓语中心词。实验结果表明,该方法在中文谓语中心词数据集上F1值达到了80.42%,有效提升了实验性能。随着句子长度的增加,长距离语义依赖成为限制模型性能的一大因素。针对获取句子全局语义信息依赖的问题,本文提出了一种基于边框回归的深度学习模型。该方法首先将每个句子转换成具有全局语义依赖特征的抽象表示,称为特征映射图。然后,从特征映射图中生成文本边界框。边界框表示可能的谓语中心词抽象表示形式。在训练过程中,使用多目标学习框架学习分类置信度和边界框相对于真实谓语中心词的位置偏移量。该方法结合神经网络算法和边框回归算法充分利用句子的全局语义信息,实验结果表明,该方法在中文谓语中心词数据集取得良好的性能,F1值达到了80.78%。

一种融合序列模型和依赖模型的实体关系抽取技术研究与实现

这是一篇关于信息抽取,实体关系抽取,lattice LSTM,GCN,模型融合的论文, 主要内容为伴随信息化时代的到来,文本信息出现爆炸型增长,如何从海量文本信息中迅速找到真正需要的信息,避免把大量时间和精力浪费在无效或冗余信息的过滤和整理上是人们面临的一个迫切需要解决的问题。信息抽取研究正是在这种背景下应运而生。而实体关系抽取能够从自然语言文本中抽取出实体对之间的语义关系,是信息抽取、自然语言理解、信息检索等领域核心任务和重要环节。针对信息抽取中的中文实体关系抽取,本文深入探索序列模型和依赖模型两种模型,以及两种模型融合的相关抽取方法。针对序列模型,本文在lattice LSTM模型的基础上,进一步挖掘有效特征,提升lattice LSTM模型性能。此外,还采用BiLSTM和CNN的方法进一步挖掘实体信息。针对依赖模型,本文采用字建图消除基于依存句法树建图过程中存在的过度依赖NLP工具和错误传播的问题,并提出了多种建图方案进行对比,此外,为了降低噪音边干扰,在图中引入了新的门结构和图注意力模型。序列模型虽然能够很好的利用词序信息,但是不能从扁平的句子中捕获词之间的依赖关系,特别是当句子中存在从句比较长或者有着复杂的范围限定的情况时,而在这方面洽洽是依赖模型的优势,因此序列模型和依赖模型具有很好的互补性,本文进一步提出了将基于lattice LSTM的序列模型和基于GCN的依赖模型融合,并提出了特征级串行融合和特征级并行融合两种融合方案。在此基础上,综合所有研究工作,实现了一个基于Browser/Server模式的Web端的实体关系抽取系统,并采用Kubernetes微服务架构对整个系统进行部署。

本文内容包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主题。发布者：源码工坊，原文地址：https://bishedaima.com/lunwen/46655.html