面向企业科技需求关键信息提取和自动分类的研究
这是一篇关于协同创新,企业科技需求,隐含狄利克雷分布,循环卷积神经网络,软件服务平台的论文, 主要内容为协同创新模式是当今科技发展的新典范,企业、高校、科研团队充分发挥各自优势,将互补性资源组合,量化转移科技成果,持续创新产业技术。协同创新科技服务平台是协同创新重要载体,企业主动、精准、灵活的选择科研团队是协同创新科技服务平台的难点。但随着平台中的企业科技需求日益增加,平台将不可避免的面对大量噪声数据,信息过载问题随之出现,不利于企业科技需求精准匹配到科研团队。因此,本文将企业科技需求进行关键信息提取和自动分类,使企业科技需求智能化,能有效地促进企业科技需求与科研团队之间的匹配。本文以中小企业科技需求文本为依据,构建了基于隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)的中小企业科技需求关键信息提取模型;并以软件项目科技需求为例,构建了基于循环卷积神经网络(Recurrent Convolutional Neural Networks,RCNN)的软件项目需求文本自动分类模型;最后设计并实现了协同创新软件科技服务平台,为企业推荐适合的科研团队解决软件科技服务需求。本文主要研究内容如下:(1)基于LDA的中小企业科技需求关键信息提取方法。针对众多的企业科技需求信息,以需求文本为基础,提出基于LDA的中小企业科技需求关键信息提取方法。利用自然语言处理技术预处理文本,然后融合多特征加权和LDA模型提取关键词,再进行后期处理得到需求关键信息。该方法在科学家在线数据集上进行实验,结果表明,该方法的综合评价F值高于词频-逆文档模型和传统的LDA模型,可以有效提取企业科技需求关键信息,提高协同创新科技服务平台的智能化程度。(2)基于RCNN的软件项目需求文本自动分类。互联网应用软件的与日俱增,使软件项目需求更加多样,需求文本的分类和管理难度随之增加。在传统机器学习的分类方法的基础上,本文利用深度学习文本分类方法,提出了基于RCNN的软件项目需求文本自动分类模型。分析划分软件项目需求特征,然后收集并预处理大规模需求文本数据,训练该模型后对需求文本的标题部分进行分类。经过实验比对,该模型在测试集上的分类平均F值为93.02%,高于其他基准算法,实验结果表明该模型有较强的分类能力。(3)协同创新软件科技服务平台的设计与实现。平台基于B/S架构,遵循PHP规范。经过对平台架构、功能、业务流程和数据库的设计,实现了软件项目需求发布、科研团队推荐、成功案例成果展示、科技资讯展示和应用技术交流等功能。平台通过处理企业软件项目需求,为企业用户主动、精准的推荐出适合的科研团队,有效提高了协同创新科技服务能力。
基于时间衰减与降维优化的协同过滤算法研究与应用
这是一篇关于协同过滤,时间衰减,干扰理论,主成分分析,隐含狄利克雷分布的论文, 主要内容为协同过滤算法是目前推荐算法研究中应用较为广泛的算法之一。但随着数据量的不断增加,协同过滤算法也面临诸多考验。本文针对时间因素对项目评分的影响,以及项目-评分矩阵的稀疏性问题。研究提出了融合时间衰减函数和干扰理论的协同过滤算法以及基于主成分分析和隐含狄利克雷分布的协同过滤算法,最后设计开发了基于上述改进算法的电影推荐系统。主要研究内容和成果如下:1.提出了一种融合时间衰减函数和干扰理论的协同过滤算法。该算法将时间衰减函数与干扰理论相结合,在计算项目相似度时对项目评分进行时间加权,解决了时间对项目评分的影响,使得未评分项目的预测评分更加准确。实例分析与实验结果共同表明融合时间衰减函数和干扰因子的协同过滤算法具有可行性,并且减少了对项目预测评分时的误差以及提高了推荐的准确度。2.提出了一种基于主成分分析和隐含狄利克雷分布的协同过滤算法。首先,利用主成分分析将项目-评分矩阵进行降维,解决了评分矩阵的稀疏性问题。其次,采用隐含狄利克雷分布对项目-标签矩阵进行主题生成,并与降维后的评分矩阵共同计算项目的相似度。实验结果表明基于主成分分析和隐含狄利克雷分布的协同过滤算法有效可行,且相比于其他协同过滤算法,其推荐结果的准确性有所提升。3.采用Spring Boot+My Batis+Vue框架设计开发了一个电影推荐系统。系统实现了算法选择、参数设置、推荐电影、电影评论/评分、信息管理等功能,将本文研究的算法用于实际的电影推荐。本文研究贡献:将时间衰减函数和干扰理论融合,提出一种新的算法来准确预测项目评分,提高推荐准确性;通过采用主成分分析方法对评分稀疏矩阵进行降维,然后利用隐含狄利克雷分布对项目-标签矩阵生成不同主题来提高项目相似度的计算;并设计实现了基于上述改进算法的电影推荐系统。
基于LDA与WordNet的电子病历实体语义相似度算法的改进研究
这是一篇关于电子病历,实体语义相似度,主题提取,隐含狄利克雷分布,WordNet的论文, 主要内容为近年来,已有多种系统利用自然语言处理技术来提取和分析病历文本中丰富的医学信息用于药物识别、病情预测、医疗决策辅助以及科研工作。而中文电子病历中的非结构化数据多为叙述性数据,缺少统一结构框架,目前仍有近80%的非结构化纯文本信息未被有效提取和利用。关系提取作为医学文本分析和注释的重要部分,特别是医学实体概念语义相似度分析方面,英文电子病历的研究已较为成熟,可以使用现有的基于距离、信息量的相似度算法识别同义词和进行文本分析,而中文病历文本的语义相似度研究较少,仍有待深入挖掘。根据现有研究,基于本体路径、概念信息量和特征的实体语义相似度计算方法存在受限于概念所处深度、离散值等问题,且综合算法存在计算复杂、耗时长的局限性,本文创新性地提出使用Word Net作为本体计算中文电子病历中医学实体概念相似度,使用基于LDA与最优特征提取模型获取的中文电子病历主题实体,对现有语义相似度算法模型的有效性深入探究、优化和改进,提出用于中文电子病历实体的融合多种因子的改进语义相似度算法,并使用UMNSRS数据集进行验证,从而获得更为稳定、有效、准确的相似度计算模型。总体来说,本文研究内容具体包含:(1)为提取适用于电子病历实体语义相似度研究的医学概念实体,首先分析中文电子病历文本的特点,并根据电子病历开源数据,使用Gensim、Sklearn搭建、训练LDA模型,融合TF-IDF、Count Vectorizer词频向量模型增加语义元素,在特定条件下完成运算过程,并与已有算法识别效果进行对比,以探究中文电子病历叙述性文本中医学主题概念实体提取方法,提出适用于病历文本的优化方案。(2)通过对已有语义相似度算法的研究和分析,基于Word Net相关理论,在原有的经典算法基础上融合基于本体路径、概念信息量与属性特征的因子,提出改进的用于中文电子病历医疗实体的语义相似度计算方法,并根据电子病历开源数据提取出的主题概念词汇,通过调用NLTK中的Word Net,编写相应计算程序,在特定条件下完成运算过程,确定改进算法的参数。(3)依据Pakhomov人工评估的医学术语的语义相关性和相似性参考标准,即UMNSRS,构造中英文医学概念语义相似度对照表,通过将新的计算方法运算结果与人工评价的概念相似度数据集进行比对,比较输出结果与人工结果的差异,整理出各算法的相关性,以此验证算法的优越性;并对该改进算法的应用作出了阐述。本文对于中文电子病历文本注释的理论和应用上具有创新意义。本文将Count Vectorizer方法融入基于LDA的主题提取方法,增强语义成分的占比,构建提高电子病历概念提取有效性的改进方案,为电子病历中非结构化文本医学主题概念提取提供理论基础;创新性地提出以Word Net作为本体,根据Pakhomov人工构建的标准数据集,融合基于路径、概念信息量与概念共有属性特征等因素,提出改进的短文本实体语义相似度计算方法,为电子病历文本注释提供了更有效的语义相似度识别方法和解决思路。整合到基于机器学习的关键信息提取模型中后,医疗机构可通过数据分析系统构建更为高效的预测模型。
基于LDA与WordNet的电子病历实体语义相似度算法的改进研究
这是一篇关于电子病历,实体语义相似度,主题提取,隐含狄利克雷分布,WordNet的论文, 主要内容为近年来,已有多种系统利用自然语言处理技术来提取和分析病历文本中丰富的医学信息用于药物识别、病情预测、医疗决策辅助以及科研工作。而中文电子病历中的非结构化数据多为叙述性数据,缺少统一结构框架,目前仍有近80%的非结构化纯文本信息未被有效提取和利用。关系提取作为医学文本分析和注释的重要部分,特别是医学实体概念语义相似度分析方面,英文电子病历的研究已较为成熟,可以使用现有的基于距离、信息量的相似度算法识别同义词和进行文本分析,而中文病历文本的语义相似度研究较少,仍有待深入挖掘。根据现有研究,基于本体路径、概念信息量和特征的实体语义相似度计算方法存在受限于概念所处深度、离散值等问题,且综合算法存在计算复杂、耗时长的局限性,本文创新性地提出使用Word Net作为本体计算中文电子病历中医学实体概念相似度,使用基于LDA与最优特征提取模型获取的中文电子病历主题实体,对现有语义相似度算法模型的有效性深入探究、优化和改进,提出用于中文电子病历实体的融合多种因子的改进语义相似度算法,并使用UMNSRS数据集进行验证,从而获得更为稳定、有效、准确的相似度计算模型。总体来说,本文研究内容具体包含:(1)为提取适用于电子病历实体语义相似度研究的医学概念实体,首先分析中文电子病历文本的特点,并根据电子病历开源数据,使用Gensim、Sklearn搭建、训练LDA模型,融合TF-IDF、Count Vectorizer词频向量模型增加语义元素,在特定条件下完成运算过程,并与已有算法识别效果进行对比,以探究中文电子病历叙述性文本中医学主题概念实体提取方法,提出适用于病历文本的优化方案。(2)通过对已有语义相似度算法的研究和分析,基于Word Net相关理论,在原有的经典算法基础上融合基于本体路径、概念信息量与属性特征的因子,提出改进的用于中文电子病历医疗实体的语义相似度计算方法,并根据电子病历开源数据提取出的主题概念词汇,通过调用NLTK中的Word Net,编写相应计算程序,在特定条件下完成运算过程,确定改进算法的参数。(3)依据Pakhomov人工评估的医学术语的语义相关性和相似性参考标准,即UMNSRS,构造中英文医学概念语义相似度对照表,通过将新的计算方法运算结果与人工评价的概念相似度数据集进行比对,比较输出结果与人工结果的差异,整理出各算法的相关性,以此验证算法的优越性;并对该改进算法的应用作出了阐述。本文对于中文电子病历文本注释的理论和应用上具有创新意义。本文将Count Vectorizer方法融入基于LDA的主题提取方法,增强语义成分的占比,构建提高电子病历概念提取有效性的改进方案,为电子病历中非结构化文本医学主题概念提取提供理论基础;创新性地提出以Word Net作为本体,根据Pakhomov人工构建的标准数据集,融合基于路径、概念信息量与概念共有属性特征等因素,提出改进的短文本实体语义相似度计算方法,为电子病历文本注释提供了更有效的语义相似度识别方法和解决思路。整合到基于机器学习的关键信息提取模型中后,医疗机构可通过数据分析系统构建更为高效的预测模型。
基于LDA与WordNet的电子病历实体语义相似度算法的改进研究
这是一篇关于电子病历,实体语义相似度,主题提取,隐含狄利克雷分布,WordNet的论文, 主要内容为近年来,已有多种系统利用自然语言处理技术来提取和分析病历文本中丰富的医学信息用于药物识别、病情预测、医疗决策辅助以及科研工作。而中文电子病历中的非结构化数据多为叙述性数据,缺少统一结构框架,目前仍有近80%的非结构化纯文本信息未被有效提取和利用。关系提取作为医学文本分析和注释的重要部分,特别是医学实体概念语义相似度分析方面,英文电子病历的研究已较为成熟,可以使用现有的基于距离、信息量的相似度算法识别同义词和进行文本分析,而中文病历文本的语义相似度研究较少,仍有待深入挖掘。根据现有研究,基于本体路径、概念信息量和特征的实体语义相似度计算方法存在受限于概念所处深度、离散值等问题,且综合算法存在计算复杂、耗时长的局限性,本文创新性地提出使用Word Net作为本体计算中文电子病历中医学实体概念相似度,使用基于LDA与最优特征提取模型获取的中文电子病历主题实体,对现有语义相似度算法模型的有效性深入探究、优化和改进,提出用于中文电子病历实体的融合多种因子的改进语义相似度算法,并使用UMNSRS数据集进行验证,从而获得更为稳定、有效、准确的相似度计算模型。总体来说,本文研究内容具体包含:(1)为提取适用于电子病历实体语义相似度研究的医学概念实体,首先分析中文电子病历文本的特点,并根据电子病历开源数据,使用Gensim、Sklearn搭建、训练LDA模型,融合TF-IDF、Count Vectorizer词频向量模型增加语义元素,在特定条件下完成运算过程,并与已有算法识别效果进行对比,以探究中文电子病历叙述性文本中医学主题概念实体提取方法,提出适用于病历文本的优化方案。(2)通过对已有语义相似度算法的研究和分析,基于Word Net相关理论,在原有的经典算法基础上融合基于本体路径、概念信息量与属性特征的因子,提出改进的用于中文电子病历医疗实体的语义相似度计算方法,并根据电子病历开源数据提取出的主题概念词汇,通过调用NLTK中的Word Net,编写相应计算程序,在特定条件下完成运算过程,确定改进算法的参数。(3)依据Pakhomov人工评估的医学术语的语义相关性和相似性参考标准,即UMNSRS,构造中英文医学概念语义相似度对照表,通过将新的计算方法运算结果与人工评价的概念相似度数据集进行比对,比较输出结果与人工结果的差异,整理出各算法的相关性,以此验证算法的优越性;并对该改进算法的应用作出了阐述。本文对于中文电子病历文本注释的理论和应用上具有创新意义。本文将Count Vectorizer方法融入基于LDA的主题提取方法,增强语义成分的占比,构建提高电子病历概念提取有效性的改进方案,为电子病历中非结构化文本医学主题概念提取提供理论基础;创新性地提出以Word Net作为本体,根据Pakhomov人工构建的标准数据集,融合基于路径、概念信息量与概念共有属性特征等因素,提出改进的短文本实体语义相似度计算方法,为电子病历文本注释提供了更有效的语义相似度识别方法和解决思路。整合到基于机器学习的关键信息提取模型中后,医疗机构可通过数据分析系统构建更为高效的预测模型。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码客栈网 ,原文地址:https://bishedaima.com/lunwen/52526.html