基于深度学习的古籍词法分析研究
这是一篇关于古籍,词法分析,断句,深度学习的论文, 主要内容为随着人工智能时代的到来,古籍信息处理研究受到了越来越多的关注。词法分析主要指对句子进行自动分词、词性标注和命名实体识别三大子任务,词法分析工作是古籍信息处理的基础,不经过高精度词法分析的古籍,难以进行深层次的信息处理工作。长期以来,古籍的词法分析受技术手段、标注资源的限制,研究进展较现代汉语显得颇为迟滞。本文研究重点在于将深度学习方法应用于古籍的自动断句、词法分析中以构建古籍自动标注平台,具体包括以下几个方面:第一,本文将深度学习中的LSTM-CRF这一模型结构运用到古籍词法分析中。使用文渊阁版《四库全书》训练字向量,在尽量覆盖更多古文字的基础上提升模型效果。以《左传》前十卷为训练语料,后两卷为测试语料,使用一体化词法分析方法同时得到分词、词性标注、命名实体识别的结果。实验结果为分词调和平均值94.81%,词性标注90.21%,人名实体识别82.79%,地名实体识别82.49%。经十折交叉验证法进一步验证了模型的效果,并经进一步的实验发现,如果将词性信息去除,命名实体识别的精度会略有提升。第二,设计制作了古籍专名信息词典数据库。对多部古籍资源中的数据进行梳理、整合,将不同来源、不同的数据格式的专名信息词典整理成统一的结构化数据库。根据前人研究成果,计算出了每个专名的词语通用度,以减少常用字引起的误匹配。为了快速匹配出词条,对trie树进行了改进。该词典数据库不仅可以和神经网络融合,以提升命名实体识别的精度,也可以向校对人员提供释义信息。经实验证明,将词典和神经网络进行结合后,命名实体识别的精度有了一定的提升。第三,将JavaEE技术和TensorFlow技术结合,设计开发了一套古籍在线自动标注系统。使用JavaEE技术构建了基于MVC架构的系统主体,其中的标注模块分别与词典数据库和部署了词法分析模型的TensorFlow交互。该系统各个功能模块之间实现了充分的解耦合。第四,在进行词法分析研究的过程中发现,很大一部分古籍是未经断句的文本,而要对古籍进行词法分析,必须以句子为单位输入模型。因此在一体化词法分析研究的基础上,研究基于神经网络的自动断句方法。在总结前人研究不足的基础上,提出了新的语料断句的处理方法,并经实验证明,卷积神经网络在自动断句上效果较好,以《二十四史》为训练集,在《三国志》上取得的调和平均值为 86.69%。综上所述,本研究使用深度学习技术来解决古籍的自动断句和词法分析问题,整合词典资源改善命名实体识别精度和提供释义,最终形成了具有实用价值的系统。
汉语词法分析平台的构建
这是一篇关于词法分析,人工干预,新词词典,用户词典的论文, 主要内容为随着现代化信息技术的不断发展,计算机的数量快速增加,互联网内的信息量极速膨胀,计算机技术已经和人们的日常生活息息相关。自然语言处理是计算机科学领域一个重要的研究课题,它的研究对象是人们日常使用的语言,通过对自然语言的研究和处理,实现自然语言和计算机之间的互相理解和正常通信。词法分析是自然语言处理领域一个重要的问题,大部分机器翻译的问题都需要进行词法分析。目前,对于词法分析的研究和实现大都局限在实验层次,而办公移动化、资源共享化的互联网环境决定了一个在线共享的实用性平台更具有现实意义。互联网上也已经出现了一些实用性的词法分析平台,能够实现基本的分词和词性标注的功能,但由于源码不可修改、词性标注集不同等原因,无法为今后的相关性研究工作提供支持。本文在实验室研究的基础上,结合实验室的分词和词性标注源码,独立开发了一个词法分析的平台。在平台中,加入了人工干预的部分,用户可以对分词结果进行修正,系统会定时地启动线程对修正的结果扫描,找到修正结果中含有的新词用来扩充新词词典。对于每个用户,还可以申请临时词典,将需要使用的新词添加到临时词典中,暂时性地自定义分词结果。用户在提交分词请求的时候,可以选择原始分词、使用新词词典分词和使用临时词典分词等多种分词方式。词性标注方面,用户可以对句直接标注,也可以使用分词的结果进行标注,修正的词性标注的结果也可以为今后的标注效果的提高提供数据依据。本文通过小概率事件置入的规则,弥补了统计方法上的局限性,使得统计和规则更好地融合,接口的公开化也方便了功能调用。平台中还加入了权限管理、工具下载和工作量统计等模块,后台服务器开发选用J2EE的SSM框架,数据库采用MySQL,服务器环境Ubuntu。
汉语词法分析平台的构建
这是一篇关于词法分析,人工干预,新词词典,用户词典的论文, 主要内容为随着现代化信息技术的不断发展,计算机的数量快速增加,互联网内的信息量极速膨胀,计算机技术已经和人们的日常生活息息相关。自然语言处理是计算机科学领域一个重要的研究课题,它的研究对象是人们日常使用的语言,通过对自然语言的研究和处理,实现自然语言和计算机之间的互相理解和正常通信。词法分析是自然语言处理领域一个重要的问题,大部分机器翻译的问题都需要进行词法分析。目前,对于词法分析的研究和实现大都局限在实验层次,而办公移动化、资源共享化的互联网环境决定了一个在线共享的实用性平台更具有现实意义。互联网上也已经出现了一些实用性的词法分析平台,能够实现基本的分词和词性标注的功能,但由于源码不可修改、词性标注集不同等原因,无法为今后的相关性研究工作提供支持。本文在实验室研究的基础上,结合实验室的分词和词性标注源码,独立开发了一个词法分析的平台。在平台中,加入了人工干预的部分,用户可以对分词结果进行修正,系统会定时地启动线程对修正的结果扫描,找到修正结果中含有的新词用来扩充新词词典。对于每个用户,还可以申请临时词典,将需要使用的新词添加到临时词典中,暂时性地自定义分词结果。用户在提交分词请求的时候,可以选择原始分词、使用新词词典分词和使用临时词典分词等多种分词方式。词性标注方面,用户可以对句直接标注,也可以使用分词的结果进行标注,修正的词性标注的结果也可以为今后的标注效果的提高提供数据依据。本文通过小概率事件置入的规则,弥补了统计方法上的局限性,使得统计和规则更好地融合,接口的公开化也方便了功能调用。平台中还加入了权限管理、工具下载和工作量统计等模块,后台服务器开发选用J2EE的SSM框架,数据库采用MySQL,服务器环境Ubuntu。
汉语词法分析平台的构建
这是一篇关于词法分析,人工干预,新词词典,用户词典的论文, 主要内容为随着现代化信息技术的不断发展,计算机的数量快速增加,互联网内的信息量极速膨胀,计算机技术已经和人们的日常生活息息相关。自然语言处理是计算机科学领域一个重要的研究课题,它的研究对象是人们日常使用的语言,通过对自然语言的研究和处理,实现自然语言和计算机之间的互相理解和正常通信。词法分析是自然语言处理领域一个重要的问题,大部分机器翻译的问题都需要进行词法分析。目前,对于词法分析的研究和实现大都局限在实验层次,而办公移动化、资源共享化的互联网环境决定了一个在线共享的实用性平台更具有现实意义。互联网上也已经出现了一些实用性的词法分析平台,能够实现基本的分词和词性标注的功能,但由于源码不可修改、词性标注集不同等原因,无法为今后的相关性研究工作提供支持。本文在实验室研究的基础上,结合实验室的分词和词性标注源码,独立开发了一个词法分析的平台。在平台中,加入了人工干预的部分,用户可以对分词结果进行修正,系统会定时地启动线程对修正的结果扫描,找到修正结果中含有的新词用来扩充新词词典。对于每个用户,还可以申请临时词典,将需要使用的新词添加到临时词典中,暂时性地自定义分词结果。用户在提交分词请求的时候,可以选择原始分词、使用新词词典分词和使用临时词典分词等多种分词方式。词性标注方面,用户可以对句直接标注,也可以使用分词的结果进行标注,修正的词性标注的结果也可以为今后的标注效果的提高提供数据依据。本文通过小概率事件置入的规则,弥补了统计方法上的局限性,使得统计和规则更好地融合,接口的公开化也方便了功能调用。平台中还加入了权限管理、工具下载和工作量统计等模块,后台服务器开发选用J2EE的SSM框架,数据库采用MySQL,服务器环境Ubuntu。
汉语词法分析平台的构建
这是一篇关于词法分析,人工干预,新词词典,用户词典的论文, 主要内容为随着现代化信息技术的不断发展,计算机的数量快速增加,互联网内的信息量极速膨胀,计算机技术已经和人们的日常生活息息相关。自然语言处理是计算机科学领域一个重要的研究课题,它的研究对象是人们日常使用的语言,通过对自然语言的研究和处理,实现自然语言和计算机之间的互相理解和正常通信。词法分析是自然语言处理领域一个重要的问题,大部分机器翻译的问题都需要进行词法分析。目前,对于词法分析的研究和实现大都局限在实验层次,而办公移动化、资源共享化的互联网环境决定了一个在线共享的实用性平台更具有现实意义。互联网上也已经出现了一些实用性的词法分析平台,能够实现基本的分词和词性标注的功能,但由于源码不可修改、词性标注集不同等原因,无法为今后的相关性研究工作提供支持。本文在实验室研究的基础上,结合实验室的分词和词性标注源码,独立开发了一个词法分析的平台。在平台中,加入了人工干预的部分,用户可以对分词结果进行修正,系统会定时地启动线程对修正的结果扫描,找到修正结果中含有的新词用来扩充新词词典。对于每个用户,还可以申请临时词典,将需要使用的新词添加到临时词典中,暂时性地自定义分词结果。用户在提交分词请求的时候,可以选择原始分词、使用新词词典分词和使用临时词典分词等多种分词方式。词性标注方面,用户可以对句直接标注,也可以使用分词的结果进行标注,修正的词性标注的结果也可以为今后的标注效果的提高提供数据依据。本文通过小概率事件置入的规则,弥补了统计方法上的局限性,使得统计和规则更好地融合,接口的公开化也方便了功能调用。平台中还加入了权限管理、工具下载和工作量统计等模块,后台服务器开发选用J2EE的SSM框架,数据库采用MySQL,服务器环境Ubuntu。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码项目助手 ,原文地址:https://bishedaima.com/lunwen/53315.html