基于知识图谱的软件众包服务的语义搜索
这是一篇关于软件众包服务,语义搜索,知识图谱,搜索拓展,主题模型的论文, 主要内容为近年来,随着互联网的发展和软件众包产业的兴起,日益增多的个人和组织使用众包平台进行软件服务众包,以达到节约成本、提高效率等目的。正确理解用户的搜索意图,并帮助用户挑选适合的服务,是众包平台的关键研究问题之一。但目前众包平台的服务搜索存在以下问题:(1)大部分搜索方法都是基于字符串的完全精确匹配,没有做到在理解用户语义基础上的“软匹配”。除非用户精准表达自己的搜索意图,否则基于字符串的精确匹配将无法得到用户想要搜索的服务;(2)平台由于多用图片展示服务内容,使得服务文本信息匮乏,这导致基于统计自然语言处理的语义搜索解决方案较难发挥作用;(3)与谷歌、百度等通用领域搜索不同的是,软件众包平台的搜索属于领域垂直搜索,要求具有对专业领域知识的理解,因此有必要引入领域知识来帮助搜索。在此背景下,本文面向软件众包服务平台,提出了一种基于知识图谱的语义搜索方法。该方法首先利用知识图谱中实体包含的丰富信息,如描述、属性、同义词、上下位词等进行语义扩展,对相关服务做一个初步的搜索召回;同时也结合知识图谱的实体信息来帮助增强词向量的表达,从词向量的相似度中获取到语义相关度特征;并构建主题模型,从主题概率分布模型中提取出主题特征。然后综合使用这两类特征,采用学习排序算法对初步召回的搜索结果进行重排序,使得更为相关的服务具有更高的排名。本文的创新点总结如下:(1)从软件服务数据,以及CN-DBpedia通用领域中文知识图谱、维基百科、百度百科、StuQ脑图等外部数据中构建了软件众包特定领域的知识图谱。(2)利用知识图谱中的实体信息,如描述,同义词,上下位词等,同时对用户搜索语句和服务描述信息做语义扩展,以解决用户搜索语句可能不能明确表达意图和服务文本信息缺少的问题。(3)利用知识图谱中的实体信息进行词向量的增强表达,将知识图谱中的语义信息融入到传统的word2vec词向量,通过增强的词向量构建语义相关度的重排序特征。(4)提出了基于自编码机的主题模型混合特征抽取方法,从主题模型中提取出多级主题的重排序特征。本文利用解放号软件众包平台的数据,进行了一系列实验。实验结果表明,本文提出的方法相对于现有的DSSM神经网络模型,在选取10个目标服务的情形下,精确率(P@10)、召回率(R@10)、MRR@10和NDCG@10搜索结果指标上分别提高了42.633%,42.633%,27.465%和34.977%。
政资汇系统设计与实现
这是一篇关于政策资金申报,RESTful,数据管理系统,语义搜索,手机终端应用的论文, 主要内容为目前政策资金申报领域仍然是各家公司各自为战,行业内尚未出现能够全面整合政策资金申报信息、对接小微企业与申报服务机构的O2O(Online to Offline,线上到线下)运营机构。本文基于目前的市场与行业调研情况,研发了一站式的政策资金申报信息聚合、维护、分发平台——政资汇系统,提高了政资信息的流通效率,打破了横亘在政府部门、初创企业与咨询服务机构之间的信息鸿沟,为驱动社会创新提供了新动力。本文对政资汇系统进行了分析与设计,基于REST(Representational State Transfer,表征状态转化)架构研究并实现了以下内容:(1)设计并实现了所有的业务需求,使得政策资金申报信息从聚合到挂网到申报实现了一站式操作。完成了核心业务的功能实现,包括DMS(Data Management System,数据管理系统)前后台、APP应用前后台,对接了第三方支付与网易云信接口。(2)运用NLP(Natural Language Processing,自然语言处理)相关技术实现政策申报信息的精准搜索,并在系统后台部署了一个基于协同过滤机制的政资信息推荐引擎,帮助用户更为精确的匹配到适合用户所在企业的资金帮扶信息。(3)在DMS后台实现了基于RBAC(Role-Based Access Control,基于角色的访问控制)模型的权限管理体系,满足了政资汇系统后台对于权限管理与业务管理的需求。此外还研究了生产环境下业务运维的工作内容以及基于Redis的缓存实践,降低了系统IO数量。目前,本系统在甲方业务服务器已经平稳运行较长时间,使得该公司业务人员从繁重的事务性工作转移到政策资金申报信息的分派和服务上来,充分提高了甲方公司的工作效率。
基于知识图谱的核电设备健康管理系统设计与实现
这是一篇关于核电设备,设备文档,设备健康管理,知识管理,知识图谱,系统开发,语义搜索的论文, 主要内容为近年来,国内外核电企业陆续推动人工智能和核电大数据挖掘等创新技术在核电工业的应用。核电企业里,大型设备结构复杂且造价昂贵,在运维和检修方面需要耗费大量人力和物力,因此设备健康管理是核电企业最关注的领域。而核电基地长年积累了大量各类业务文档,这些文档中蕴藏着设备相关知识,以及文档涉及缺陷、原因和纠正等设备运维内容,构成了核电设备领域内的多价值链空间,但目前还没有得到充分的整合,各类文档之间呈现数据孤岛状态。为了更好地融合各类文档数据空间,本文研究了面向设备文本的知识抽取技术,从各类文档中抽取出设备相关知识,构建成为“设备-各类文档-涉及运维业务”的完整知识图谱,并基于此图谱设计一款网页应用系统,帮助核电人员对于各类原先跨业务系统的、呈现数据隔离状态的设备文档进行全面的智能检索和知识管理,具有实际的工程应用价值。本文首先针对各类设备文档中的自由长文本,进行文本预处理和向量化技术研究。预处理过程中,研究并构建了最大前/后向算法实现文本分词,然后去停用词;在此基础上,分别研究并构建了基于简单词袋、基于TF-IDF和基于Word2Vec三种词向量化模型,对设备文本知识进行向量化表示。对比实验结果发现,基于Word2Vec的向量化模型,其F1-Score最高且达到92.23%,为后续知识抽取提供了高质量的词向量表示。接着,本文进行了面向核电设备文本的知识抽取技术研究。根据各类文档共有的实体和关系类别,分别研究并构建了基于CRF、基于Bi-LSTM和基于Bi-LSTM-CRF三种实体抽取模型,以及基于CNN和基于注意力机制的改进型CNN两种关系抽取模型。实验结果表明,本文训练的Bi-LSTM-CRF实体抽取模型的F1-Score最高且达到91.38%,基于注意力机制的改进型CNN关系抽取模型的F1-Score最高且达到89.70%,取得了较好的文本知识抽取效果。再接着,本文基于规则的方法对文档其余结构化数据进行提取,融合前述实体和关系抽取的结果,构建成为“设备-文档-运维业务”的完整设备知识图谱,并存储在Neo4j图数据库中。最后,结合以上两项研究成果,本文设计并开发了一种集知识查询可视化、语义搜索、知识图谱扩充、知识图谱查询、文档数据维护和系统管理等多种功能服务于一体的设备健康管理系统。该系统面向核电设备运维工人和设备专家提供服务,实现了面向各类设备文档的知识图谱构建及其知识应用服务。通过测试,该系统的功能和浏览器兼容性均符合核电企业的工程需求。
基于知识图谱的核电设备健康管理系统设计与实现
这是一篇关于核电设备,设备文档,设备健康管理,知识管理,知识图谱,系统开发,语义搜索的论文, 主要内容为近年来,国内外核电企业陆续推动人工智能和核电大数据挖掘等创新技术在核电工业的应用。核电企业里,大型设备结构复杂且造价昂贵,在运维和检修方面需要耗费大量人力和物力,因此设备健康管理是核电企业最关注的领域。而核电基地长年积累了大量各类业务文档,这些文档中蕴藏着设备相关知识,以及文档涉及缺陷、原因和纠正等设备运维内容,构成了核电设备领域内的多价值链空间,但目前还没有得到充分的整合,各类文档之间呈现数据孤岛状态。为了更好地融合各类文档数据空间,本文研究了面向设备文本的知识抽取技术,从各类文档中抽取出设备相关知识,构建成为“设备-各类文档-涉及运维业务”的完整知识图谱,并基于此图谱设计一款网页应用系统,帮助核电人员对于各类原先跨业务系统的、呈现数据隔离状态的设备文档进行全面的智能检索和知识管理,具有实际的工程应用价值。本文首先针对各类设备文档中的自由长文本,进行文本预处理和向量化技术研究。预处理过程中,研究并构建了最大前/后向算法实现文本分词,然后去停用词;在此基础上,分别研究并构建了基于简单词袋、基于TF-IDF和基于Word2Vec三种词向量化模型,对设备文本知识进行向量化表示。对比实验结果发现,基于Word2Vec的向量化模型,其F1-Score最高且达到92.23%,为后续知识抽取提供了高质量的词向量表示。接着,本文进行了面向核电设备文本的知识抽取技术研究。根据各类文档共有的实体和关系类别,分别研究并构建了基于CRF、基于Bi-LSTM和基于Bi-LSTM-CRF三种实体抽取模型,以及基于CNN和基于注意力机制的改进型CNN两种关系抽取模型。实验结果表明,本文训练的Bi-LSTM-CRF实体抽取模型的F1-Score最高且达到91.38%,基于注意力机制的改进型CNN关系抽取模型的F1-Score最高且达到89.70%,取得了较好的文本知识抽取效果。再接着,本文基于规则的方法对文档其余结构化数据进行提取,融合前述实体和关系抽取的结果,构建成为“设备-文档-运维业务”的完整设备知识图谱,并存储在Neo4j图数据库中。最后,结合以上两项研究成果,本文设计并开发了一种集知识查询可视化、语义搜索、知识图谱扩充、知识图谱查询、文档数据维护和系统管理等多种功能服务于一体的设备健康管理系统。该系统面向核电设备运维工人和设备专家提供服务,实现了面向各类设备文档的知识图谱构建及其知识应用服务。通过测试,该系统的功能和浏览器兼容性均符合核电企业的工程需求。
基于自然语言处理及知识图谱的搜索系统设计与实现
这是一篇关于搜索引擎,知识图谱,语义搜索,三元组抽取的论文, 主要内容为各企业在生产运营过程中会产生大量的数据,这些企业内部数据需要通过企业级数据治理平台来进行数据管理和数据搜索。而当前大多数企业级搜索引擎都是基于关键词匹配进行信息检索,无法形成与用户之间良好的交互,也无法理解用户输入的查询语句的意图。针对上述问题,本课题设计开发了基于自然语言处理技术及知识图谱的企业级搜索系统,能够一定程度上理解用户输入语句的语义,使搜索引擎实现知识层面的语义搜索。本文的主要研究工作和创新点如下:1.根据现有企业级搜索系统所存在问题和本系统的目标,从功能性和非功能性的角度对系统进行了全面需求分析。功能性方面,系统针对企业级数据需要实现数据处理、数据索引、知识图谱构建和信息检索;非功能性方面,系统需具有扩展性、稳定性、用户友好性等特性。对系统进行了总体架构设计,对系统的各个功能模块进行了详细的设计。2.对知识图谱构建方法进行了研究。制定了适于企业级数据的知识图谱构建方案,研究了三元组抽取方法。分别基于Bert-base预训练模型和Ro BERTa预训练模型进行了三元组抽取实验,并对结果进行了对比,基于Ro BERTa训练出的三元组抽取模型效果更优。本系统实现了基于Ro BERTa模型的三元组抽取方法,作为知识图谱构建的前置工作。围绕三元组抽取设计开发了知识管理功能,用于对数据进行打标、训练模型、数据审核、知识抽取及数据存储,进而实现知识图谱构建。3.对基于知识图谱的语义搜索方法进行了研究。首先研究了基于问句模板匹配的方法,并进行了设计与实现。接着研究了对此方法的改进,提出了“关系匹配”方法。介绍了此方法所用到的语义匹配技术和实现方式,对此方法与“问句模板匹配”方法进行了对比,并对此方法进行了实现。根据分析,本文提出的“关系匹配”方法更加容易获得用户的搜索意图。4.围绕对系统的需求分析,对系统进行了设计,并对系统的各个模块进行了具体的实现。基于三元组抽取方法,实现了将企业数据按类型或领域构建知识图谱的核心功能。通过知识图谱的语义表示能力,实现了本文提出的“关系匹配”方法,使系统一定程度上实现了对用户所输入的查询语句的意图识别,进而实现了基于知识图谱的语义搜索功能。
面向创业领域科技论文的知识图谱构建与应用研究
这是一篇关于知识图谱,实体识别,语义标注,语义搜索,创业领域科技论文的论文, 主要内容为科技论文是各领域各学科知识和信息的重要载体之一,凝聚着学者们的优秀研究思想、理论与成果,是各研究领域最前沿、最权威、最易获得的知识资源。面对海量学术数据,如何充分挖掘隐含在科技论文内的知识,为科技论文的检索提供更加丰富的语义信息,是对科技知识管理和语义搜索的发展具有重要意义的研究问题。知识图谱技术可以帮助解决上述问题,用知识图谱来规范管理科技出版物、学者、学术活动等科技实体,能够帮助科研人员快捷高效地找到需要的文献资料。目前,工业界和学术界知识图谱与科技资源管理相结合的应用研究已经开展并取得了显著的成果,国内外已经出现了 AMiner和微软学术图谱等以知识图谱相关技术为支撑的学术搜索平台。虽然它们在学者论文的检索、学术推荐等方面表现出色,但是对于科技论文相关实体的挖掘还不够充分,论文可被检索的元数据太少,论文主体中丰富的语义信息和领域知识没有被充分挖掘出来。本文的研究将深入挖掘隐藏在论文中的科技实体和概念,为科研人员提供更加丰富的知识。本文以创业领域中“创业生态系统”相关的科技论文为例,构建面向科技论文的知识图谱,并对图谱的应用进行研究。本文的主要贡献如下:1.构建了一个面向科技论文的知识图谱框架。本文首先定义了图谱包含的六种实体:科技论文、人、组织机构、期刊、会议和地点;然后根据实体特点定义了知识图谱的数据模式,对实体的属性和实体—实体间的关系进行介绍。2.提出了一个实体和概念识别的模型,对隐藏在论文全文中的研究对象实体,研究方法与理论等概念进行了抽取。本文主要采用了建立候选集合与模式匹配算法相结合的方法,首先建立地理实体候选集和领域知识集,然后使用AC自动机进行模式匹配,从科技论文的全文中将研究对象这类地理实体、研究理论与方法一一识别出来,挖掘出这些隐藏在论文中的知识。3.提出了一种科技论文摘要的语义模块标注算法,将科技论文的摘要划分为研究背景、研究主题、研究内容和研究结论这四个语义模块。该算法以句子为单位,从类别、位置和语义三个维度提取句子特征,将人工标注好的摘要用逻辑回归、支持向量机等模型进行训练和测试。结果表明,在小规模数据量的情况下,该算法取得了不错的分类结果。4.构建了一个基于Elasticsearch的全文搜索技术的科技论文知识图谱共享平台。该平台是本文构建的知识图谱的一个具体应用,其主要功能是实现实体搜索并进行结果展示,与此同时,平台还可以对科技论文实体的知识图谱进行可视化展示。本文提出的面向科技论文的知识图谱构建方法具有可移植性、可扩展性,适用于任何学科领域的科技文献管理、搜索和推荐。关于科技论文的知识图谱的研究,在接下来的工作中还可以将其他科技实体扩充进来,如专利、项目等,将其不断拓展成一个内容更加丰富的科技资源库。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码客栈 ,原文地址:https://bishedaima.com/lunwen/45642.html