给大家分享7篇关于文本相似度计算的计算机专业论文

今天分享的是关于文本相似度计算的7篇计算机毕业论文范文, 如果你的论文涉及到文本相似度计算等主题,本文能够帮助到你

基于BiLSTM和注意力机制的中文医疗问答研究

这是一篇关于知识图谱,实体识别,文本相似度计算,医疗问答的论文, 主要内容为随着信息技术和云时代的发展,人们对医疗健康的需求也在不断增长,传统的搜索引擎已经无法满足用户对海量信息的查询需求,因此,可以通过人工智能的应用大大提高搜索效率,中文知识图谱问答技术发展较晚,尚不完善,因而医疗领域的智能化研究开展中面临许多问题。当前在医疗知识图谱构建方面缺乏对医学同义词的考虑,传统问答也难以识别用户表述不同的输入,此外,在医疗问答文本匹配方面的技术存在忽视语义信息的问题,准确率还有待提升。本文由此出发,融合不同的知识抽取方法构建一个医疗知识图谱,生成医学同义词库,提出了适用于医疗文本的文本相似度计算模型BMHA,最后实现了基于BiLSTM与注意力机制的中文医疗问答系统。本文的研究工作主要包括:(1)基于医疗问答的知识图谱构建。针对当今医疗领域信息数据的复杂性以及术语的多样性,本文提出一种新的知识抽取方法,在知识抽取步骤针对不同知识类型采用不同抽取方法,对实体使用BiLSTM-CRF模型抽取,对实体间关系使用BiLSTM-Attention抽取;在知识融合步骤,通过使用重定向的方法来挖掘医学领域实体同义词加入同义词库;在知识存储步骤,通过使用Neo4j图形数据库,有效地将提取出的实体及实体间关系存储下来。(2)基于BiLSTM与注意力机制的医疗文本相似度计算模型。针对经典相似度计算方法会存在忽视语义联系和文本数据处理能力不足的问题,本文提出适用于医疗服务的文本相似度匹配模型BMHA(BiLSTM Multi-Head Attention)。BMHA是一种基于多头自注意力机制的问答匹配模型,采用Siamese网络结构将多头自注意力机制融入到孪生BiLSTM网络中,不仅能够更精确地捕捉文本的语义特征,还能够充分利用到文本的结构信息。在web Med QA和c Med QA两个公开数据集上进行对比实验,证明该模型在性能上超越了传统的文本相似度计算模型。(3)基于BiLSTM与注意力机制的医疗问答系统。在上述研究基础上,采用本文构建的医疗知识图谱和BMHA相似度计算模型,实现了基于BiLSTM与注意力机制的医疗问答系统。首先对该系统进行了需求分析,然后对功能实现过程进行介绍,最后进行功能测试。通过实际应用证明,本文实现的问答系统能够满足用户快速获取信息的需求,并且具有很好的实用性和可行性。

面向中药新药发现过程的文本挖掘方法研究

这是一篇关于命名实体识别,药物相互关系提取,文本相似度计算,中药新药发现的论文, 主要内容为随着中医药现代化进展,中医药相关研究文献呈指数级增长。当前中药新药研发存在收益与风险比低、周期漫长以及相关基础研究薄弱等问题。本文针对当前中药新药研存在的问题,进行中药和计算机学科之间的多学科协作研究,以文本为研究对象,计算机深度学习技术为手段,实现医药学领域文本挖掘,并且以药理文本相似性为依据,推荐与目标药物的相似药物,以达到新药研发虚拟筛选目的。本文以文本作为研究对象,开展中医药文本的药理作用实体识别,药物-药物相互作用提取和基于文本相似性学习的新药发现工作,并搭建基于文本挖掘的新药发现平台。本文工作具体如下:1.针对当前中药药理作用数据不完整、不规范的问题以及药理研究成果多以文献形式出现且中药药理领域未进行文本挖掘研究的现状,本文开展了中药药理作用实体识别研究。针对目前实体识别模型未考虑中文汉字字内语义问题,构建基于笔画的药理实体识别模型。规范构建药理实体识别语料库,在药理语料库以及SIGHAN 2006公开语料库上对提出模型进行测试,最终模型F1值分别达到69.86和90.84。2.本文针对当前药物和药物关系提取模型未考虑医药学领域知识的问题,提出特征富集的药物相互作用提取模型。为引入医药学领域知识,使用在医药学领域文本来进行词向量的预训练;针对样本特征,学习每个词在样本中对于药对的相对距离。将CNN和RNN进行堆叠,其中CNN用于提取文本的N元语言特征,RNN用于计算整个句子上下文特征。模型在DDIExtraction 2013语料库上进行实验评估,最终得到F1值为73.9。3.中药新药发现能够以中药之间的药理相似性作为依据。针对当前中药新药发现使用药理实验方式进行研究,但实验方式耗时的现状,本文提出使用药理文本相似度来表示药理相似度。本文通过聚类算法构建药理文本相似度监督学习的语料库,并且构建基于注意力孪生网络的文本相似度学习模型。模型在ATEC公开语料库以及构建的药理相似度学习语料库进行实验评估,F1值分别到达54.4和45.8。4.本文设计并搭建了浏览器/服务器架构的基于文本挖掘的新药发现平台,平台采用Java,HTML,Java Script语言,数据库采用My SQL关系型数据库,利用Spring Boot框架进行开发。平台包括用户管理、文献挖掘、新药发现三大功能,能够实现对用户上传的文献进行药理实体提取、药物关系抽取以及对目标药物药理相似的药物推荐。平台以文本挖掘为基础,通过文本相似度学习,为中药新药研发提供辅助决策功能。

用户数据分析平台安全机制及其反馈处理功能模块的设计与实现

这是一篇关于认证,授权,网关,反馈处理,文本相似度计算的论文, 主要内容为在互联网时代,公司都希望获取用户使用产品过程中的数据,希望通过分析用户数据来改进产品。在公司原有项目中,用户数据分析的各个功能是彼此独立的功能模块,无法充分发挥其价值。随着公司对用户数据分析的重视,为更好的利用原有的与用户数据分析相关的功能模块,项目组决定对原有的功能模块进行整合,搭建一个整体的用户数据分析平台。由于原有的功能模块相互独立,存在功能耦合严重、功能重用率低以及稳定性差等问题。因此,项目决定采用微服务架构进行改造升级。但引入微服务架构后,系统存在用户身份认证与授权、客户端与服务端交互逻辑复杂等安全方面问题。另外,在用户数据分析平台中,用户反馈的收集与处理是一个重要的功能组件。该功能可以直接对用户使用产品过程中的反馈进行收集并由处理人员处理后为后续产品开发提供指导。通常反馈的处理方式是使用人工阅读的方式来进行分析,该方式无法应对越来越大的数据量,无法有效的利用用户反馈。针对上述问题,本文通过分析用户数据分析平台的应用背景以及运行环境,设计并实现了用户数据分析平台安全机制及其反馈处理功能模块,提供了权限管理、身份认证与授权、服务管理、反向代理以及反馈分析等功能。本文主要工作包含以下三个部分:(1)系统的安全访问。通过设计与实现系统的安全访问模块,将认证与授权功能统一到认证服务器进行处理,从而解决了原有业务逻辑与安全处理逻辑问题耦合的问题。此外,安全访问模块还提供了权限管理的操作界面,可以高效的对用户权限进行管理,实现对于系统资源的安全控制。(2)系统的安全交互。通过设计与实现系统的服务网关模块,将引入微服务架构后出现的客户端与服务端交互逻辑复杂的问题进行解决。服务网关模块中将网关作为用户访问系统资源的唯一入口,提供了流量控制、访问控制、负载均衡以及反向代理等功能,保证了用户与系统之间的安全可靠交互。另外,通过网关这一组件对服务提供者与使用者之间进行解耦,提高了系统的扩展性。(3)系统反馈处理的自动化。通过设计与实现反馈处理模块,将原先系统中需要由人工阅读处理反馈这一过程自动化。该模块利用文本相似度分析技术,自动计算新产生的用户反馈与系统中已经处理完毕的用户反馈之间是否相似,提高了反馈的处理效率和利用程度。为保证系统的安全可靠运行,本文对系统实现模块的权限管理、身份认证与授权、流量控制、访问控制、负载均衡以及反馈分析等核心功能进行了功能测试。另外,本文利用JMeter等测试工具对系统从性能和准确性等方面进行了非功能性测试。通过测试,本文设计与实现的用户数据分析平台安全机制及其反馈处理功能模块满足系统所提出的需求,达到安全访问以及高效处理反馈的目的,能够可靠运行。

面向垂直领域的智能问答增强系统的研究与实现

这是一篇关于自然语言处理,智能问答,词向量,聚类挖掘,文本相似度计算的论文, 主要内容为由于人工智能技术的发展以及自然语言处理技术的成熟,自然语言处理技术已经派生出了很多应用,其中最常见的是智能问答系统。智能问答系统已经成功地应用到企业中帮助企业形成智能化问答解决方案。智能问答系统允许用户以可理解的自然语言与系统进行对话,系统根据用户输入的语言信息进行处理,给出符合用户需要的答案。在智能问答系统中核心的就是对用户语言的理解以及处理,这部分是一个长期优化的过程。本文主要是在公司已有的智能问答系统基础上,对智能问答对话模块进行基于知识库的增强优化,使用自然语言处理相关技术提升问答对话的效果,提升知识点的召回率以及模型的准确率。本文分为以下三部分:1.设计基于知识库的智能问答对话的效果优化功能点。问答对话模块的基础是从原始语料信息中生成知识点并添加到知识库,为每个知识点配置相应的答案信息完成自动应答。在原有问答的基础上,针对目前存在的问题,影响智能问答对话效果的因素设计相应的功能,影响问答效果的因素在于用户的语言信息是复杂多样的,对于相同语义不同形式的语义表达如何泛化,提升问答的准确率是本文要解决的问题。常见的问题是知识点相似问错放以及知识点混淆的问题。通过计算知识点之间的文本相似度以及核心词之间的距离来优化。同时,使用数据分析的手段对于平台上的数据指标进行可视化处理。使用Python来对可视化智能问答对话的各项指标进行问答效果的监测。通过不同形式的图表来展示智能问答的使用情况以及核心指标。2.研究词向量技术。通过引入Word2Vec词向量处理技术,结合Jieba分词对语料数据进行文本预处理,以及文本向量化,使用Word2Vec中的CBOW算法模型进行特征词的训练,通过计算文本相似度的算法来进行智能问答对话中相似问的学习。3.通过优化知识库搭建过程提升智能问答对话效果。对于知识库中知识点的产生使用聚类挖掘的方法从语料集中挖掘出有价值的语料信息形成若干个语料簇,从中形成有价值的知识点。数据挖掘可以为知识库,词库挖掘出更多有价值的数据信息支持项目中的使用,提升问答的效果。4.使用Python开发语言以及MySQL数据库,使用Django Web框架,前端使用Vue框架进行开发,使用Node.js作为中间层,基于原有问答系统基础上,设计出了增强问答效果的智能问答增强系统。智能问答增强系统经过3个月的迭代开发,经过功能测试和性能测试已经顺利上线,并且在5个线上的项目中完成了落地。智能问答的召回率明显提高了 4.2%,问答准确率提高了 2.1%。

面向心血管疾病的智能问答研究与实现

这是一篇关于问答系统,深度学习,文本分类,文本相似度计算,心血管疾病的论文, 主要内容为我国现阶段心血管病患人数呈现持续上升的趋势,心血管疾病防治刻不容缓。结合快速发展的自然语言处理和人工智能技术,依托互联网中心血管疾病相关的海量数据信息,智能问答系统成为了一种高效、准确的信息检索模式,为广大群众和患者获取心血管疾病相关知识提供了一个更加迅速且便捷的渠道。本论文在互联网心血管问答数据的基础上,深入研究智能问答系统中的问题解析技术,旨在设计并开发一个面向心血管疾病的智能问答系统。本论文主要研究内容如下:1、问答系统需求分析与架构设计。本论文首先分析了问答系统的功能需求和性能需求,问答系统的主要功能是快速地对用户提出的心血管领域相关问题提供解答,故对系统的稳定性、实时性、安全性等性能有一定要求。然后基于需求分析对系统进行了架构设计和功能模块设计,并对整个系统进行业务流程设计,为后续问答系统的实现提供基础。2、基于双通道神经网络的疾病文本分类。本论文提出先进行问句分类再进行问句相似度计算的问题处理流程,很大程度上能够提高问题匹配的效率。在问句分类层面提出了一种基于双通道神经网络的问句分类模型,CNN提取的问句局部特征以及结合注意力机制的Bi LSTM提取的问句序列特征,共同参与问句的分类流程。分类完成后,进行下一步问句相似度计算与匹配。3、基于多重相关信息交互的文本相似度计算。本论文提出了改进的问句相似度计算方法,从文本词向量表达、文本自身特征以及文本之间的交互特征三个粒度进行相似度匹配,能够获得丰富的深层隐含信息。此外,以上所提方法在多个数据集上进行了实验,结果表明,各方法都较基准方法有不同的改进。4、设计并实现面向心血管疾病的智能问答系统。基于上述研究设计并实现了问答系统小程序,实现了在移动端上的问答交互。首先构建了心血管疾病领域问答数据库,通过网络爬虫,从多个互联网问诊平台采集问答数据,对爬取到的内容进行清洗之后存入数据库作为问答系统的数据来源。本系统采用前后端分离的开发模式,小程序后端采用基于Python的Web框架Flask,完成问句的预处理与解析、问答数据的存储等业务功能;小程序前端采用基于Vue.js的uni-app框架构建跨平台应用,实现用户与系统的交互界面。综上所述,本论文的研究工作对于心血管疾病领域知识的解答与普及工作具有一定的实际意义和应用价值,为生物医疗领域的智能问答提供了可行的技术方案。