基于知识图谱的网络用语语义分析研究
这是一篇关于语义分析,知识图谱,网络用语,关系抽取,命名实体识别,知识表示系统的论文, 主要内容为网络用语作为一种新兴的相对自成体系的特殊语言,其口语化、不受约束、幽默快捷的特点受到了广大网民的青睐。然而,网络用语在推广和使用过程中会出现概念阐述混乱、与日常用语的关系不明确等问题。在以往的语义分析研究中,知识图谱可以简洁、高效、快速地描述词语或语句之间的关系,并且得到了广泛的应用。尽管如此,目前的知识图谱构建过程中还是存在许多问题,例如常用的命名实体识别算法对网络用语实体识别准确率低,以及关系抽取算法抽取的结果不符合事实等。首先,本文使用Bi LSTM+CRF模型对网络用语实体进行识别,该模型可以解决Softmax层位置标记生成的序列标签不符合语法规范的问题。为了验证模型可靠性,本文使用网络用语语料库进行命名实体识别,实验结果表明使用Bi LSTM+CRF模型可以有效的提高网络用语实体的识别准确率。其次,本文提出了结合句法依存树和本体约束层的远程监督关系抽取模型,对关系抽取的结果不符合事实等问题进行解决。该模型在分段卷积神经网络的基础上,首先引入关系属性的依存子树得到句子中每个单词位置权重,然后在输出层引入领域本体知识对抽取结果进行约束,并通过Freebase+NYT数据集进行实验对比,从而验证模型的有效性,保证了网络用语实体以及关系属性识别抽取的准确率,使得本文构建得的知识图谱更加符合事实。第三,本文应用知识图谱构建了网络用语知识表示系统。通过该系统可以得到网络用语的含义、流行出处、性质等特征,以及各个网络用语与日常用语之间详细的关系可视化展示,不仅可以对网络用语的概念含义进行详细的解释,还可以使人们得到网络用语更直观的语义理解。最终通过实验数据,验证了应用知识图谱对网络用语进行语义分析的高效性和准确性以及应用价值。
基于语义分析的自动评分系统的研究与实现
这是一篇关于语义分析,评分模型,主观题,SimNet的论文, 主要内容为随着人工智能的热潮,越来越多的基于大数据的人工智能应用问题得到研究与解决。文字是一种抽象的信息承载形式,机器理解文字更能体现出人工智能的智慧性。机器翻译、问答系统、聊天机器人和情感分析任务等场景都会遇到文本处理的问题。将文本处理算法的研究用于教育智能系统中,可以帮助互联网教育智能化发展,使得学习用户能够更加高效地学习知识。论文主要研究工作具体如下:(1)对来自ASAP的主观题数据集进行分析,然后对基于离散表示、分布式表示和分散式表示的三种评分模型进行研究。对比分析基于布朗词聚类的评分方法、基于潜在狄利克雷分配的评分方法和基于神经网络的评分方法在数据集上的表现,同时还对比分析随机森林回归算法和XGBoost回归算法在特征融合上的表现。(2)设计并实现一个基于语义分析的自动评分系统,完成系统需求分析、总体架构的设计、功能模块的设计和数据库的设计,使用SSH框架实现系统中的用户登录模块,试题练习模块、自动评分模块、用户中心模块和管理员功能模块。(3)将SimNet语义匹配模型应用于系统的主观题自动评分模块,评估SimNet语义匹配模型在中文历史数据集上的表现,验证SimNet语义匹配模型是否满足系统的应用需求。本文的创新点主要体现在:(1)文本使用基于神经网络的评分算法在ASAP的主观题数据集进行训练,算法的评分结果高于该数据集在Kaggle官网比赛上的top1的分数。证明了在ASAP的主观题数据集上,神经网络抽取特征的能力要强于机器学习,而且特征的提取方式也更加简单。(2)将SimNet语义匹配模型应用于系统的主观题自动评分模块,用于对用户学习测评结果的分数评估。本文评估了SimNet语义匹配模型在中文历史数据集上的表现,结果表明SimNet语义匹配模型可以满足系统的应用需求。
基于语义分析的中医临床采集系统的研究与应用
这是一篇关于中文分词,同义词匹配,语义分析,中医,临床采集的论文, 主要内容为中医学是中国劳动人民创造的传统医学,是医者通过对人体生理的研究、病理以及疾病的防治而总结出的经验。传统中医诊断通过“望”、“闻”、“问”、“切”等方法获得患者的病情资料,再结合以往中医总结的经验,确定病症的临床表现特点与病情变化规律,从而进行诊断。中医在诊断推理的过程中,受医者的主观影响较大,在根据病人的临床表现和四诊合参方法得出病症结果时,会出现误诊或错诊的情况,这样会使中医诊断出的结果精准程度大大降低。本文所研究与实现的基于语义分析的中医临床采集系统,是通过对语义分析理论的研究,将其应用于临床采集的医案信息,以医案中标准化四诊信息的提取和数字化为基础,实现中医定性数据向定量数据的转化,为机器学习等量化分析方法应用于中医证候分析提供量化基础。本文主要研究的内容如下:(1)基于中文分词方法的中医临床信息采集模型研究。将医者根据患者的临床信息及表现,对记录的描述性文本信息进行收集,初步筛选后将这些临床数据放到分词模型中,对临床数据进行预处理。本文使用了最大正向匹配中文分词算法,并对该算法进行改进,根据用户所设定的最大分词长度来循环遍历,与“词典”中的词进行匹配,得到匹配的结果就是所要的分词结果。(2)基于词典的中医同义词匹配方法研究。在获得分词后的词语中,根据已分词的文本来提取其中与症状相关的词语,再与标准的四诊信息进行匹配,使得症状相关的词语得以统—表述,得出与病症相关的四诊信息。本文使用基于词典的同义词匹配算法,用词典特定的结构和词汇间的相似度计算,计算出病症词语和标准的四诊信息之间的语义相似度,即可匹配出特征词。(3)中医临床采集系统的实现。以中医辅助诊疗平台的数据采集为目的,通过对上述研发的中医语义分析模型的嵌入,开发实现了一套基于B/S架构的中医临床采集系统。系统可以实现有效的中医临床医案信息录入,并通过语义分析模型,将医案文本信息转化可量化分析的数字信息,为中医辅助诊疗平台的证候分析提供基础。系统包括的主要功能模块有:医案信息的处理、标准四诊信息量化数据库的建立、生成CRF表和处方信息识别。图26表11参53
基于知识图谱的问答系统在政务数据领域的应用研究
这是一篇关于知识图谱,政务问答,实体识别,BERT-BiGRU-CRF,语义分析的论文, 主要内容为随着互联网技术的广泛应用和不断发展,信息呈爆炸式增长。传统的政府搜索引擎逐渐无法满足公务人员检索信息的需求。其返回的信息过于冗杂,而公务人员想要获取真正的答案需要耗费大量的时间与人力去阅读返回的信息。可见,传统搜索引擎已经无法满足用户,知识图谱的快速发展推动了问答系统在政务数据领域的发展。基于以上背景,本文研究并开发了基于知识图谱的政务知识问答系统,使用网络爬虫从政务网站获取政务数据,利用网页解析工具Xpath和Beautifulsoup对下载的原网页进行提取解析,根据爬取的政务数据构建政务节点信息,制定不同节点之间的关系,形成一个较为完整的政务领域的知识图谱。通过查阅知识图谱相关论文、实际体验其他平台的问答系统,从技术可行性、社会可行性和经济可行性的角度出发,确定了该系统的需求,在完成对系统的需求分析之后,对系统进行概要设计,采用层次体系架构的方式,明确了系统的功能模块。在概要设计的基础上,依照软件工程的开发流程,对功能模块进行了详细的设计编码开发。最后对整个系统进行系统测试,根据测试结果不断对系统进行改进。本文的主要内容有:1.利用Scrapy爬虫框架对政务网站进行大规模爬取,并对数据进行结构化处理,分析政务知识领域的问答实体属性和实体间关系,构建面向政务领域的知识图谱。2.对问题进行解析,包括分词、词性标注、去掉无效字符等预处理操作,设计了基于BERT-Bi GRU-CRF的实体识别模型来提升实体识别精确度和效率,设计了对BERT模型进行改进的BERT-CNN模型对问句进行意图识别。3.实现基于知识图谱的政务知识问答系统,为了帮助政府公务人员办公,采取适用于公务员办公环境的B/S体系架构进行系统开发,用可视化的形式为公务人员展示所搜索的政府公文。基于知识图谱的政务知识问答系统,根据系统不同功能模块的划分,该系统分为服务器端和用户前端。利用Flask框架实现后台服务器的功能模块,前端开发技术采用Bootstrap框架,结合Element的UI组件完成前端界面构建。
基于多领域语义融合的推荐系统的研究与实现
这是一篇关于推荐系统,跨领域,语义分析,项目相似度,协同过滤的论文, 主要内容为随着互联网与信息技术的飞速发展,电子商务系统规模的扩大造成信息过载问题日趋严重,个性化推荐系统成为解决这一问题的关键技术。在过去的研究中,基于单一领域的协同过滤技术成为当今推荐系统中应用最为广泛的技术,但该技术存在着两个亟待解决的问题,也就是数据稀疏问题与冷启动问题。为了解决这两大问题,跨领域推荐技术成为目前推荐领域的一大热门话题。该技术利用用户在其他领域中的相关行为信息,对用户在目标领域的偏好进行预测,提高推荐的多样性,同时弥补了数据缺失造成的推荐效果较差的问题。然而现有的算法仍存在着较多的问题,如只能完成跨单一领域的推荐、推荐结果无法满足用户个性化需求、推荐算法复杂度较高,存在性能问题等。基于以上问题,本文利用自然语言处理领域的语义分析知识,结合聚类方法与推荐领域中应用最为广泛的协同过滤技术提出一种基于多领域语义融合的推荐系统,主要研究工作与取得的成果如下:(1)提出一种基于语义分析的相似度度量模型。该模型旨在利用语义分析方法,计算两个领域标签的相似度矩阵,通过项目标签的跨领域迁移计算两个领域中各项目之间的相似度。该方法利用项目标签语义相似度得到两个领域间项目的相似度。较现有跨领域项目相似度计算模型,本文提出的相似度度量方法可解释性更高,适用领域范围更广。实验表明本方法可以得到准确度更高的项目相似度结果。(2)提出基于多领域聚类的协同过滤模型。考虑到基于相似度度量模型的推荐方法计算性能较差且难以满足用户的个性化需求,基于多领域聚类的协同过滤模型利用项目聚类的方法查询项目最近邻,提高运算性能,结合协同过滤算法的优势,加入对长尾分布的处理,对用户相似度算法加以改进,满足用户的个性化需求,同时,考虑到领域相关度,加入权重处理算法,更有效的对多个领域数据进行融合。本方法与传统的跨领域推荐算法相比有着更好的推荐效果,同时节约时间开销、空间开销。(3)设计实现基于多领域语义融合的推荐系统。利用传统的单一领域推荐算法与基于多领域语义融合的推荐算法相结合,为涉及多领域数据的平台提供一个完整的推荐系统,该系统能够统计用户收藏、用户评分等个人行为数据,也可以根据用户数据得到两种算法的推荐结果。该系统可以充分满足用户的个性化需求,不仅可以得到传统推荐算法更为成熟准确的推荐结果,同时可以利用多领域数据进行跨领域推荐,缓解传统推荐算法中的冷启动问题与数据稀疏问题。
智能导诊问答系统的设计与实现
这是一篇关于智能导诊,知识问答,知识图谱,图数据库,语义分析的论文, 主要内容为当今社会经济飞速发展,人们在生活水平稳步提升的同时,对健康问题越来越重视。特别是随着2020年全球新冠疫情的肆虐,人们对健康有了更深刻的认识,对保障健康的设施需求也越来越迫切。然而,由于大众对医学疾病知识缺乏,对医院各科室划分认识不足等原因,导致挂号错误而造成轻则浪费时间重则贻误病情的情况屡见不鲜。虽然部分医院设立有咨询导诊工作人员,但是人员数量有限经常导致问询患者的问题难以及时响应。不少患者入院前通过网络搜索引擎查询相关疾病、门诊信息,但引擎搜索难以理解患者的准确意图,返回冗长的文档信息,还需要患者进行二次筛选。随着互联网和人工智能技术的飞速发展,借助知识图谱、语义分析、机器学习等新技术,设计实现可供医院门诊大厅使用的智能导诊问答系统,能够有效解决以上问题,推动智慧医疗领域的发展。本课题主要从当前医疗服务现状出发,针对医学知识图谱构建存储、智能导诊问答语义分析等方面提出了一套智能导诊问答系统构建方案。本文的主要工作包括以下几个方面:1、通过对医院患者就诊的需求调研和系统可行性分析,明确智能导诊问答系统需要达到的目标。提出系统整体设计实现方案,并且合理规划各模块功能。2、构建小型医学知识图谱,利用网络爬虫在各大医疗网站上抽取所需数据,采用基于规则词典的方法进行医疗领域的知识抽取,通过规则语句写入Neo4j图数据库中构建医学知识图谱。3、设计实现基于医学知识图谱的智能导诊问答系统。对输入问题进行语义分析,提取关键词,问句分类,运用Cypher语言编写查询模板,检索生成问句答案。设计疾病预测推理模型,基于医学知识图谱和Neo4j图数据库,通过疾病预测算法统计疾病症状相似度,推荐出最佳答案。实现该系统的智能问答功能和智能导诊功能。4、使用Qt模型对整个系统进行包装,完成人机交互界面。用户通过自然语言的对话形式与系统实现人机交互,获取自己想要查询的信息。最终实现智能问答、疾病预测、科室导诊功能。经过功能和性能测试结果表明,系统达到预期指标,能够为患者提供良好的医学知识问答服务,有效替代人工提高效率,优化资源配置,为患者提供较好的导诊结果提高就医体验。且系统问答准确率高、性能良好、响应时间短,具有较高的应用价值和推广应用前景。
基于Spark大数据处理的协同过滤推荐系统研究与实现
这是一篇关于Spark大数据,协同过滤算法,语义分析,数据稀疏性,推荐系统的论文, 主要内容为推荐系统就是用来为用户推荐满足其需求或者服务的系统,能够作为用户与信息之间的纽带,提供给用户切实需要的信息。但是在推荐系统发展的过程中,也存在一系列的难题需要解决,例如系统响应速度问题,推荐结果准确度问题以及海量数据的处理与分析等问题。为了解决以上问题,需要对推荐系统进行不断的研究和升级,推荐系统需要保证较好的扩展性,能够随着业务需求的不断变化对系统进行调整和更新。另外还需要采用大数据处理相关技术来解决推荐计算过程的效率问题。Hadoop及Spark分布式处理平台是解决大数据处理的重要方案,能够通过分布式的计算与处理实现对海量数据的管理与分析。推荐算法是推荐系统的核心,推荐算法面临的最大问题就是用户-项目评分矩阵的数据稀疏性。在实际应用中,随着用户和项目的数目增加,用户-项目评分矩阵的稀疏度往往会超过97%,数据稀疏性成为了影响推荐准确度的最大问题,因此必须采取一定的方法来降低稀疏性对推荐结果的影响。此外随着数据量的不断增加,对于数据的处理过程也变得更加复杂。为了解决以上问题,本文对基于项目相似度传递的协同过滤算法进行了改进,用以解决数据稀疏性的问题,结合改进的隐语义计算模型,提高推荐结果的准确性,并通过实验证明了算法的有效性。论文首先描述了课题研究的背景及国内外研究现状,随后讨论了协同过滤算法的相关情况,分析了Spark大数据处理框架的相关技术。本论文的主要课题是从相似度传递和语义分析算法两个方面来改善推荐效果。在分析完相关算法之后,本文从推荐引擎总体框架、推荐引擎核心模块框架和推荐引擎设计三个部分对本系统进行了分析设计。为了证明推荐算法的有效性,本文还进行了大量的实验和测试。最后,本文利用所设计的基于Spark的大数据推荐引擎系统,结合电影网站推荐的现实情况,实现了一个电影网站的推荐系统。事实证明,基于Spark大数据处理的系统过滤推荐算法在电影网站上的应用取得了较大的成功,该研究具有良好的研究与应用价值。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设驿站 ,原文地址:https://bishedaima.com/lunwen/45009.html