面向对虾养殖领域的知识图谱系统设计与实现
这是一篇关于知识图谱,命名实体识别,对虾养殖,BiLSTM-CRF模型的论文, 主要内容为随着人工智能与互联网技术在对虾领域的普及,对虾领域数据逐渐增多且结构复杂化,“智慧对虾养殖”将成为未来对虾养殖业发展的趋势,为大众提供海量对虾领域信息。由于对虾领域资源共享程度低,使养殖人员难以高效便捷的搜索所需信息,而知识图谱技术能够有效的集成对虾领域知识并且将其进行图谱可视化。因此,本文以构建对虾养殖领域知识图谱为研究目标,针对对虾养殖知识图谱服务系统实现技术进行深入研究,具体工作包括以下四点:(1)构建对虾领域语料库。本文基于Web Magic爬虫框架,以百度百科和对虾领域资讯网站作为对虾语料库数据来源,爬取命名实体识别实验所需对虾领域相关数据,分析了对虾养殖领域文本的特点,采用BIOES标注法设计了相应的对虾实体标注规则。使用Hanlp工具对获取的对虾领域数据进行中文分词,以及词性标注等处理,经过词向量训练后生成后续研究所需对虾领域语料库。(2)对虾领域命名实体识别模型的研究。本文利用基于Bi LSTM-CRF的对虾领域命名实体识别模型从对虾文本中识别出44类对虾养殖领域实体,并分别采用HMM、CRF以及Bi LSTM三种模型与该模型作对比实验。结果表明,该模型在人工标注的对虾测试集语料上的F1值达到90.50%,实体识别效果优于另外三种传统模型,能够有效识别对虾领域的命名实体。(3)对虾养殖领域知识图谱构建。目前还尚未有涉及对虾领域的开源知识图谱,因此,本文利用知识图谱构建技术,为能够提取出构建知识图谱所需的实体以及关系,通过网络爬虫技术从互联网以及对虾领域专家专著中抽取出异构化对虾领域知识,然后利用知识抽取技术将其转化成结构化数据,最后使用Neo4j图数据库作为对虾领域知识图谱的知识存储工具,初步实现对虾领域知识图谱可视化。(4)设计并实现了对虾养殖知识图谱服务系统。综合应用上述研究成果,构建了基于Spring-Boot框架的对虾养殖领域知识图谱服务系统,能够支持对虾基本信息查询、对虾知识图谱可视化、对虾实体查询、对虾文本命名实体识别、对虾资讯智能搜索等功能。构建的对虾养殖领域知识图谱服务系统旨在为用户提供更专业、系统、直观智能的对虾健康养殖知识图谱信息共享服务,对促进了对虾养殖业智能信息化发展具有一定的研究价值。
中医中文电子病历命名实体语料库构建及研究
这是一篇关于中医,中文电子病历,标注规范,命名实体识别,BiLSTM-CRF模型的论文, 主要内容为目的:随着多年来国家对医院信息系统的建设,大量的医疗数据被输入、储存以及不断的调用,然而对医疗数据的处理方面依然是短板。以前的研究注重的是数据挖掘与数据分析,对文字本身的处理和分析较少,人工智能的发展正在改变这种现象,这是本研究的主要方向。人工智能的研究主要围绕自然语言处理,自然语言的处理包括分词、词性标注、语义分析等研究方向,本研究基于自然语言处理中的分词、词性标注、命名实体识别等机器学习技术手段,对临床电子病历进行脱敏化处理、标注规范制定、标注语料库的建设、自动标注模型的训练等进行研究,旨在探索自然语言处理技术以及神经网络的前沿算法在中医中文电子病历中的应用效果,为最终的知识图谱的构建乃至智能诊疗的实现储备经验。方法:本课题研究的内容为命名实体识别,其在分类上属于自然语言处理的分词中的一种特殊现象,是一种对某个行业的专有名词先进行手工标注进而结合机器学习算法以达到自动标注目的的研究。本课题的研究方法为在数据准备阶段通过人工方法对病历中的患者个人信息进行脱敏化处理。在标注规范制定阶段参考已发表文献公开的标注规范结合本研究的研究对象,使用课题组开发的标注工具进行试标注,在多次一致性分析后,根据分析结果修改、迭代进而确定标注规范。规范制定好后开始正式的命名实体语料库的构建。语料库构建完成后使用BiLSTM-CRF模型进行模型的训练,最后在对测试集进行测试得出结果。结果:(一)数据准备。通过脱敏化处理,隐去患者的姓名、家庭住址、电话号码等与本研究无关的个人隐私信息,对电子病历中的文本格式进行调整,以适合项目研究,共得到150份数据清洗后的电子病历文本文档。(二)标注规范制定。经过有医学背景的专业人员参考本研究制定的命名实体识别标注规范进行标注,在两次迭代后,一致性评价显示F值大于0.8,最终定稿,制定了适用于本研究中的电子病历命名实体标注的标注规范。(三)标注工具的开发。使用相关编程语言开发标注工具,并成功实现了研究所需要的功能。(四)命名实体标注。参考制定好的标注规范和开发好的标注工具对100份首次病程录进行标注,建立了命名实体标注语料库。(五)模型训练。使用BiLSTM-CRF模型进行模型的训练。(六)测试。应用已训练好的模型对测试数据集进行测试。测试结果F值为78.41%。结论:实验结果表明采集的数据不够全面,无法涵盖临床大部分科室的病历。制定的标注规范符合实验目标。开放的标注工具能够满足实验所需,但仍有改进的空间。在语料库训练后显示语料库准确率良好。对测试集的测试显示训练模型表现良好,但依然可以进一步提高数据准确率。在语料库的构建过程中,标注人员主要是舍友和同学,标注人员在标注过程中存在态度上的不严谨,标注结果存在部分错误之处,虽然一致性评价分析结果显示合格,但是查准率和查全率的数据并没有做到极致。实体预料库的构建是命名实体识别重中之重,想要提高测试数据的准确率,离不开精确的标注好的实体语料库。这也是本文最终的测试集准确率不够高的原因之一。同样的神经网络算法,结合他人的研究,本文使用的模型预测可以达到测试集准确率接近0.9的,所以本研究依然有很大的提高空间。综上所述,本文在中文电子病历命名实体识别的基础上尝试加入了中医类医院电子病历中特有的中医命名实体研究,证明了在同样的技术框架下中医命名实体识别研究依然可以得到良好的实验结果。
面向裁判文书的命名实体识别研究
这是一篇关于裁判文书,命名实体识别,BiLSTM-CRF模型,行业和标的物,字词特征的论文, 主要内容为作为审判活动最终产品的裁判文书包含了丰富的信息,通过对其进行命名实体识别,可以为裁判文书知识图谱的构建打下基础。目前,在裁判文书的研究中已开发了一些语料,但这些语料标注的实体并不全面,对于本文所关注的行业和标的物实体目前还没有公开的相关语料。此外,由于没有专门针对裁判文书的分词工具,导致分词的质量不高,从而影响命名实体识别的效果。因此,本文主要研究基于字符的裁判文书命名实体识别,以避免分词错误带来的影响。考虑到词信息的作用,本文提出了两种用于在基于字符的模型中融合词信息的方法。具体地,开展了如下三个方面的研究工作:(1)构建了一个基于民事裁判文书的命名实体识别语料,以下统称为裁判文书语料。主要步骤包括分析裁判文书的结构,对其进行预处理操作,并制定相应的标注规范,形成可用的实验语料。(2)基于字词信息直接融合的模型。该模型在获取字符信息的基础上,简单地拼接了预训练的词向量信息。对于裁判文书这类长序列语料,该模型以单一字符作为输入,选用Bi LSTM作为编码器,然后添加一层注意力机制来计算输入字符在上下文中的表示。同时,为了利用词汇信息,本文使用CBOW模型对大量无标注的裁判文书语料进行训练,获得预训练的词向量。最后,将词向量与字符在上下文中的表示进行拼接,输入CRF层进行标签的预测。(3)基于字词多层次特征融合的模型。一方面,上述字词信息直接融合的模型未能全面的挖掘字词潜在信息。另一方面,相比于单一的嵌入表示,字词多层次特征融合的表示方法往往能获得更多的有效信息。因此,提出了基于字词多层次特征融合的模型,用于在基于字符的模型中充分利用词信息。具体地,模型以字符作为输入,首先使用Bi LSTM和CNN从多个层次全面挖掘字符级特征,然后通过字词编码的方式获取词级特征,最后将两者进行融合组成原始输入序列的最终表示,输入模型进行训练,完成实体识别任务。实验结果表明,基于字词信息直接融合的模型能有效地提升面向裁判文书的命名实体识别的性能。基于字词多层次特征融合方法的性能优于基线方法,且优于基于字词信息直接融合的模型,取得了比较满意的效果。
面向对虾养殖领域的知识图谱系统设计与实现
这是一篇关于知识图谱,命名实体识别,对虾养殖,BiLSTM-CRF模型的论文, 主要内容为随着人工智能与互联网技术在对虾领域的普及,对虾领域数据逐渐增多且结构复杂化,“智慧对虾养殖”将成为未来对虾养殖业发展的趋势,为大众提供海量对虾领域信息。由于对虾领域资源共享程度低,使养殖人员难以高效便捷的搜索所需信息,而知识图谱技术能够有效的集成对虾领域知识并且将其进行图谱可视化。因此,本文以构建对虾养殖领域知识图谱为研究目标,针对对虾养殖知识图谱服务系统实现技术进行深入研究,具体工作包括以下四点:(1)构建对虾领域语料库。本文基于Web Magic爬虫框架,以百度百科和对虾领域资讯网站作为对虾语料库数据来源,爬取命名实体识别实验所需对虾领域相关数据,分析了对虾养殖领域文本的特点,采用BIOES标注法设计了相应的对虾实体标注规则。使用Hanlp工具对获取的对虾领域数据进行中文分词,以及词性标注等处理,经过词向量训练后生成后续研究所需对虾领域语料库。(2)对虾领域命名实体识别模型的研究。本文利用基于Bi LSTM-CRF的对虾领域命名实体识别模型从对虾文本中识别出44类对虾养殖领域实体,并分别采用HMM、CRF以及Bi LSTM三种模型与该模型作对比实验。结果表明,该模型在人工标注的对虾测试集语料上的F1值达到90.50%,实体识别效果优于另外三种传统模型,能够有效识别对虾领域的命名实体。(3)对虾养殖领域知识图谱构建。目前还尚未有涉及对虾领域的开源知识图谱,因此,本文利用知识图谱构建技术,为能够提取出构建知识图谱所需的实体以及关系,通过网络爬虫技术从互联网以及对虾领域专家专著中抽取出异构化对虾领域知识,然后利用知识抽取技术将其转化成结构化数据,最后使用Neo4j图数据库作为对虾领域知识图谱的知识存储工具,初步实现对虾领域知识图谱可视化。(4)设计并实现了对虾养殖知识图谱服务系统。综合应用上述研究成果,构建了基于Spring-Boot框架的对虾养殖领域知识图谱服务系统,能够支持对虾基本信息查询、对虾知识图谱可视化、对虾实体查询、对虾文本命名实体识别、对虾资讯智能搜索等功能。构建的对虾养殖领域知识图谱服务系统旨在为用户提供更专业、系统、直观智能的对虾健康养殖知识图谱信息共享服务,对促进了对虾养殖业智能信息化发展具有一定的研究价值。
面向对虾养殖领域的知识图谱系统设计与实现
这是一篇关于知识图谱,命名实体识别,对虾养殖,BiLSTM-CRF模型的论文, 主要内容为随着人工智能与互联网技术在对虾领域的普及,对虾领域数据逐渐增多且结构复杂化,“智慧对虾养殖”将成为未来对虾养殖业发展的趋势,为大众提供海量对虾领域信息。由于对虾领域资源共享程度低,使养殖人员难以高效便捷的搜索所需信息,而知识图谱技术能够有效的集成对虾领域知识并且将其进行图谱可视化。因此,本文以构建对虾养殖领域知识图谱为研究目标,针对对虾养殖知识图谱服务系统实现技术进行深入研究,具体工作包括以下四点:(1)构建对虾领域语料库。本文基于Web Magic爬虫框架,以百度百科和对虾领域资讯网站作为对虾语料库数据来源,爬取命名实体识别实验所需对虾领域相关数据,分析了对虾养殖领域文本的特点,采用BIOES标注法设计了相应的对虾实体标注规则。使用Hanlp工具对获取的对虾领域数据进行中文分词,以及词性标注等处理,经过词向量训练后生成后续研究所需对虾领域语料库。(2)对虾领域命名实体识别模型的研究。本文利用基于Bi LSTM-CRF的对虾领域命名实体识别模型从对虾文本中识别出44类对虾养殖领域实体,并分别采用HMM、CRF以及Bi LSTM三种模型与该模型作对比实验。结果表明,该模型在人工标注的对虾测试集语料上的F1值达到90.50%,实体识别效果优于另外三种传统模型,能够有效识别对虾领域的命名实体。(3)对虾养殖领域知识图谱构建。目前还尚未有涉及对虾领域的开源知识图谱,因此,本文利用知识图谱构建技术,为能够提取出构建知识图谱所需的实体以及关系,通过网络爬虫技术从互联网以及对虾领域专家专著中抽取出异构化对虾领域知识,然后利用知识抽取技术将其转化成结构化数据,最后使用Neo4j图数据库作为对虾领域知识图谱的知识存储工具,初步实现对虾领域知识图谱可视化。(4)设计并实现了对虾养殖知识图谱服务系统。综合应用上述研究成果,构建了基于Spring-Boot框架的对虾养殖领域知识图谱服务系统,能够支持对虾基本信息查询、对虾知识图谱可视化、对虾实体查询、对虾文本命名实体识别、对虾资讯智能搜索等功能。构建的对虾养殖领域知识图谱服务系统旨在为用户提供更专业、系统、直观智能的对虾健康养殖知识图谱信息共享服务,对促进了对虾养殖业智能信息化发展具有一定的研究价值。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码小屋 ,原文地址:https://bishedaima.com/lunwen/56110.html