基于UCL国家标准的智能化搜索引擎研究
这是一篇关于搜索引擎,统一内容标签,知识图谱,话题挖掘,语义解析的论文, 主要内容为随着互联网的迅速普及和数字信息的爆炸式增长,各种海量化、碎片化的内容不断涌现,如何从这些异构驳杂的数据中检索有效信息对于搜索引擎挑战巨大。以网页链接为中心的传统搜索引擎通过关键字匹配的方式从互联网中检索信息,然后返回给用户相关链接。这种方式不能准确理解用户搜索意图,且返回的结果过于单一,包含的语义信息不够丰富,需要用户做多次检索。为了改善这种搜索模式的弊端,基于知识的搜索引擎已引起了业界的广泛关注。基于知识的搜索引擎技术核心是构建知识图谱,目前知识图谱相关研究已取得一定进展。但其对知识表示的方式主要是以较为简单的三元组形式将结构化数据组织,富含的语义信息不够丰富。而统一内容标签(Uniform Content Label,UCL)可以将互联网上杂乱无序的异构内容进行有效聚合,能够对互联网内容中的丰富语义信息进行统一格式编码。因此如何充分利用UCL对互联网信息进行富语义矢量编码的优势,构建以知识为中心的智能化搜索引擎极具研究价值。为此,本文结合UCL的优势,构建UCL知识图谱(UCL Knowlegde Graph,UCLKG),并对智能化搜索相关技术进行研究。提出了基于语义环境相似度的实体消歧算法与基于表示学习和UCL语义感知的关系推理算法,实现UCL知识图谱(UCL Knowlegde Graph,UCLKG)的构建和更新。提出了针对搜索环境的动态主题挖掘算法DLDASE(Dynamic Latent Dirichlet Allocation for Search Environment)和基于SDP(Semantic Depency Parsing)依赖分析的查询式生成算法,提高搜索引擎对用户搜索意图识别和对知识语义解析的能力。本文的主要研究工作如下:(1)结合智能化搜索引擎的需求,针对如何将互联网中异构驳杂的数据进行语义关联的问题,提出了一种基于语义融合的UCL知识图谱构建方法。该方法首先解析Wikidata和百度百科离线语料库,并结合信息抽取工具抽取实体信息,完成基础知识库的构建;然后计算UCL中内容实体的语义权重,并借助实体消歧算法将UCL与基础实体库融合;最后提出基于表示学习和UCL语义感知的关系推理算法,实现UCL知识图谱的自动化更新。(2)针对传统搜索引擎不能有效识别用户意图且缺乏对内容的语义解析能力的问题,实现基于UCL的智能化搜索引擎,对其中涉及的关键技术进行研究。基于UCL的智能化搜索引擎主要从两方面对用户搜索信息进行处理。一是以用户兴趣为中心提供个性化搜索,提出了针对搜索环境的动态主题挖掘算法DLDASE,识别用户搜索意图,并结合用户意图和UCL文档的主题关联对搜索结果进行排序。二是以知识为中心提供内容语义解析服务,提出了基于SDP依赖分析的查询式生成算法将用户搜索的自然语言问句翻译为数据库查询语句,直接获取知识。(3)实现了智能化搜索引擎原型系统,并通过实验对其中涉及的相关算法进行验证。实验结果表明,相比于传统实体消歧算法,基于语义环境相似度的实体消歧算法消歧效果更好;相比于传统关系推理算法,基于表示学习和UCL语义感知的关系推理算法对“一对多”和“多对多”类型关系有更好的区分能力;相比于传统LDA算法,DLDASE算法更适合对在线语料进行动态主题挖掘;基于SDP分析的查询式生成算法对本文定义的四类基本问题的转换能力较好。
基于日志语义分析的系统异常检测与故障根因诊断方法研究
这是一篇关于系统日志,异常检测,行为分析,故障根因诊断,知识图谱的论文, 主要内容为系统日志实时记录了计算机系统的执行路径与关键状态,为管理员对系统进行调试和维护提供有效帮助。在系统安全领域,系统日志异常检测是保障系统可靠运行和实现快速诊断故障的重要技术。现有异常检测方法需要标记数据,且侧重于日志中的序列模式或语义信息,容易导致异常检测的漏报率和虚警率较高等等。因此,将高性能异常检测方法引入智能运维领域尤为重要。此外,大型分布式软件系统故障类型繁杂,调试过程难以获得用户文件,系统监控能力有限,容错机制的存在增加了故障排查难度,如何精确诊断故障根因成为保障系统高可用性和可靠性的关键。针对上述两点,论文提出基于日志语义分析的异常检测方法和故障根因诊断方法,从理论模型构建和实验论证两个方面对系统安全开展研究。论文主要研究内容如下:(1)提出了基于系统行为分析与全局语义感知的日志异常检测方法,即LogBASA。系统日志序列不仅包含大量语义信息,而且记录了系统任务的执行路径和时间戳,这些关键信息有助于提高异常检测的可靠性与有效性。首先,基于非结构化、多层次的系统日志构建一个系统日志知识图谱(SLKG)。其次,提出一种日志时空关联分析的Self-Attention Encoder-Decoder Transformer模型,融合日志序列的时空特征和语义映射,多维度分析系统行为与日志语义。在此基础上,提出一种结合自适应空间边界划分与序列重构目标函数的模型训练方法,采用特殊词表征日志语义状态,并通过无监督训练自动划分异常边界与日志序列重构来训练LogBASA。最后,本文在三个真实数据集上的开展了大量实验,其精确率分别达到了 99.3%、95.1%和97.2%,比DeepLog、LogAnomaly和LogCluster等相关模型提高了至少3%的准确率,证明了 LogBASA的有效性与优越性。(2)提出了基于知识图谱的系统故障根因诊断方法,该方法基于SLKG对异常日志之间的关系和依赖进行结构化表示,通过自然语言处技术对日志模板进行语义嵌入,结合t-SNE算法对语义特征向量进行降维和可视化,使用K-means算法进行故障类别划分,基于分类结果对日志文本进行分析并标注。在此基础上,本文设计了文本相似度匹配模块和实体识别匹配模块,实现高效的系统根因故障诊断。在真实数据集HDFS上进行实验,结果表明,与基于逻辑回归和基于多层感知机的相关模型相比,本文提出的系统故障根因诊断方法在准确率上分别提升了 7%和2%,其故障根因诊断准确率达到了 99.1%。本文通过知识图谱构建系统日志知识库实现了高性能系统异常检测,对未知异常系统日志设计了粗、细粒度相结合的系统故障根因诊断模型,实现了系统异常日志的准确识别与故障根因诊断。
基于知识图谱的推荐系统的研究与应用
这是一篇关于推荐系统,知识图谱,知识表示,电影图谱,BRP的论文, 主要内容为推荐系统的目标是为用户提供精确的项目建议,解决由于大量数据引发的信息过载问题。这些系统在电影、购物和新闻等网站上得到了广泛应用。然而,传统推荐系统受数据稀疏性和冷启动问题限制,难以给出合适的建议。知识图谱可以有效地表达实体之间的语义关系,将知识图谱应用于推荐系统已成为研究焦点。本研究针对电影领域构建了知识图谱,并通过改进的知识表示学习框架将实体转换为向量表示,结合BRP神经协同过滤算法,为用户更准确地推荐感兴趣的电影。研究内容主要包括:首先描述电影知识图谱中的实体和关系,基于Movielens数据集扩展知识图谱所需属性,确定实体和关系类型,然后建立图数据库并将实体和关系三元组数据导入,构建知识图谱。接着,基于知识表示学习框架提出改进的Trans H-HC模型,利用聚类算法将实体集分为多个簇,分簇进行负例三元组采样,得到实体向量表示。最后,将BRP算法融入神经协同过滤算法中,结合知识表示学习提取的向量表示,将知识图谱作为辅助信息嵌入推荐系统,从而提高推荐系统的准确性和可靠性。本研究还设计并实现了基于知识图谱的电影推荐系统。首先进行需求分析,然后详细设计系统架构、功能、数据库等。接下来,实现电影推荐界面、电影详情界面、电影管理界面等页面。最后,通过测试,确保系统稳定运行。本研究为实现高效、准确的电影推荐系统提供了理论支持和实践指导。
中国高等职业教育研究进展:1998-2018——基于CNKI和CSSCI数据库的知识图谱分析
这是一篇关于高等职业教育研究,研究进展,知识图谱的论文, 主要内容为我国高等职业教育从1998年开始大规模发展,是我国高等教育大众化的主力军。经过20多年发展,我国高等职业教育实现了从无到有、从小到大、由规模发展向质量提升的转变。无论是从学校机构数还是在校生数来看,高等职业教育都已占我国高等教育的半壁江山。为落实《国家职业教育改革实施方案》进一步推进高等职业教育高质量发展的时代要求,必须认真梳理、分析总结我国高等职业教育发展研究历程,凝练不同时期的理论研究和实践探索成果特点,这对引导、促进未来高等职业教育高质量发展具有十分重要的理论意义、现实价值和基础作用。本文借助CiteSpace软件进行高等职业教育研究知识图谱分析,以CNKI和CSSCI数据库中收录的19982018年间我国高等职业教育研究领域的38166篇期刊论文和11455篇被引文献数据为研究对象,采用总体样本办法,根据研究文献的数量和相关重要政策文件,梳理我国高等职业教育研究历程,探索划分我国高等职业教育研究的发展阶段。综合运用文献分析法、比较研究法等方法,查明我国高等职业教育研究发展阶段状况,总结凝练各阶段性特征和总体发展特点,提出相关的建议与展望。研究发现,我国高等职业教育研究可划分为如下三个发展阶段:19982005年是研究初步兴起时期;20062011年是研究迅猛发展时期;20122018年是研究质量提升时期。本文进一步分析了不同发展阶段特征,并总结了我国高等职业教育研究进展的五大总体特征:一是从载文量看进展,经历“增-减-稳”三阶段。二是从核心期刊的形成看进展,经历了从少到多的历程,期刊来源趋于稳定,主要集中于四种高职教育的核心期刊,但是其质量有待提高。三是从研究主体看进展,高等职业教育研究的核心发文作者群还未形成,但关于高等职业教育研究核心发文机构群已经形成。研究主体之间的合作力度不大,主体之间联系较少,大多是独立研究,但主体合作有明显逐渐加强的趋势。四是从研究主题看进展,研究主题具有较强的连续性,从规模发展到质量提升。其中“人才培养模式”“工学结合”“校企合作”“专业设置”“教学改革”等一直是研究的主题,彰显出人才培养一直是时代命题,校企合作研究逐步深化,思想政治教育研究意识显著增强。五是从知识基础看进展,知识基础是我国高等职业教育研究的重要参考,知识基础研究内容逐渐趋于具体化。通过系统梳理21年来我国高等职业教育研究进展,本文探索尝试将研究进程划分为初步兴起、迅猛发展和质量提升三个时期。同时,将知识图谱运用到高等职业教育研究领域,丰富和创新了高等职业教育研究方法。本文受时间、篇幅等限制,只收集CNKI和CSSCI数据库数据,未来还需拓展到多种数据库,进一步丰富研究数据,提高高等职业教育研究文献全面覆盖,推动高等职业教育研究的发展。
基于知识图谱的通信协议转换方法研究与应用
这是一篇关于互联网+政务大数据,协议转换,知识图谱,协议报文,通信协议的论文, 主要内容为互联网+政务大数据具有跨领域、多协议、难融合的特点。具体的政务应用场景往往涉及多种不同来源的信息,在大数据采集汇聚过程中存在多种通信协议转换的需求,要求网关能够实现统一的通信协议适配转换,为多源异构数据汇聚和数据融合提供数据支撑。常用的通信协议转换方法通常是针对特定的通信协议转换需求设计的,可扩展性较差,不适用于多协议转换场景。通过知识图谱存储通信协议间的转换映射关系,可实现协议转换过程中字段映射关系的查询。当有新的通信协议转换需求时,可通过创建新协议实体与旧协议实体的映射关系,对原协议转换知识图谱进行扩展,以支持更多的协议转换。本文重点研究了协议转换知识图谱的构建方法以及基于知识图谱的通信协议转换方法,设计并实现了基于知识图谱的通信协议转换系统。主要研究内容包括:(1)协议转换知识图谱构建方法研究。在分析现有通信协议转换方法存在的弊端,以及应用层协议转换特点的基础上,提出了一种协议转换知识图谱的构建方法。该方法采用自顶向下和自底向上相结合的方式构建协议转换知识图谱,通过协议本体构建和协议知识抽取获得协议转换知识图谱模式层和数据层,并定义了协议本体推理规则,通过协议知识推理能够挖掘协议类或实体之间的关系。同时,针对协议转换知识图谱存储问题,提出了一种图数据库快速批量导入节点与关系算法。(2)基于知识图谱的通信协议转换方法研究。在所提出的协议转换知识图谱构建方法的基础上,提出了一种基于知识图谱的通信协议转换方法,并给出了基于知识图谱的通信协议转换模型。该方法根据应用层通信协议的转换特点,给出了统一的报文信息数据格式设计,并提出了基于知识图谱的通信协议转换算法,针对不同的映射关系分别设计了相应的联合查询方法,从而保证映射关系查询的准确高效。与已有协议转换方法进行了对比实验,实验结果表明所提出的协议转换方法在协议转换效率上优于其它方法。(3)基于知识图谱的通信协议转换系统设计与实现。完成了基于知识图谱的通信协议转换系统的设计实现,系统主要包括协议转换知识图谱构建与查询、协议转换网关以及协议转换结果查询等功能,可实现请求与响应、发布与订阅这两种通信模式下的协议转换。同时,对系统中的协议转换网关的内存占用率和网络性能指标进行了评估。
文物藏品知识图谱构建技术研究
这是一篇关于知识图谱,命名实体识别,关系抽取,远程监督,文物藏品的论文, 主要内容为文物是中国悠久历史文化的见证者,一直以来博物馆都是文物保存与展示的载体。随着人工智能的高速发展,智慧建设成为当前各大博物馆关注的重点。但当前博物馆文物信息管理有以下两个缺点:单个博物馆内文物信息间分散独立,缺乏关联;不同博物馆间文物信息保存策略不同导致难以互通。对博物馆智慧建设造成了巨大的阻碍。文物藏品知识图谱通过挖掘与文物相关的各个实体的深层关系,将文物信息组织成三元组形式,使文物之间关联起来、博物馆之间关联起来,为博物馆智慧化建设打下基础。本文以博物馆智慧化建设为切入点,开展文物藏品知识图谱构建技术研究与实现,主要完成了以下工作:(1)文物藏品知识图谱构建设计。采用自顶向下构建文物藏品知识图谱的方法,确定了文物藏品知识图谱构建的五大模块:数据源爬取模块、文物藏品本体构建模块、文物藏品知识抽取模块、文物藏品知识融合模块、文物藏品知识存储模块。(2)知识抽取模块中涉及有命名实体识别任务,针对双向长短时记忆网络(Bi LSTM)无法记住所有的历史信息缺点,本文提出了BTBL-CRF模型,在构建的文物藏品命名实体识别数据集进行实验,结果表明该方法F1值相比于Bi LSTM-CRF模型在文物藏品数据集上提升了2.14%。(3)知识抽取模块中涉及有关系抽取任务,针对传统词向量中信息不丰富的缺点,本文使用藏品相关三元组信息,将Word2Vec与Trans E结合一起训练词向量用于远程监督关系抽取模型,该方法融合了更多实体与实体之间的关系信息。最终本文在自己构建的文物藏品数据集上进行了实验,该结果表明,相比于单纯Word2Vec训练的词向量,F1提升了0.6%,AUC提升了1%。(4)实现文物藏品知识图谱。首先爬取相关文物信息并对数据进行清洗,接着确定文物藏品本体中四大类、二十二项数据属性、九项对象属性,再接着使用本文提出的两个模型完成知识抽取,再接着使用百度搜索页结合文本相似度的方式完成实体消歧,使用百度百科别名与同义词完成了共指消解,使用基于语义比较文本相似度的方式完成了属性对齐,最后使用Neo4j存储中国国家博物馆文物藏品的知识图谱。
基于知识图谱的羊养殖知识问答系统的研究与设计
这是一篇关于羊养殖,问答系统,知识图谱,深度学习的论文, 主要内容为目前,羊养殖知识大多以非结构化的形式存在,存在难以快速、准确获取的问题。针对这一问题,本研究使用知识图谱组织羊养殖领域知识,利用深度学习模型理解自然语言问句语义信息,设计基于知识图谱的羊养殖问答系统,以实现科技与产业的深度融合,推进养殖产业的智能化发展进程。主要研究内容及取得的成果如下:(1)基于自然语言处理构建羊养殖知识图谱。提出基于深度学习的知识图谱数据层构建模型。该模型使用BIO标注策略,通过BERT预处理进行文本向量化处理,处理结果在双向循环单元和卷积神经网络生成文本的全局特征和局部特征,然后连接双向长短期记忆网络自动提取文本信息,采用条件随机场约束标签在句子层面的合理性,完成羊养殖实体识别,根据标签类别抽取羊养殖三元组数据,形成知识图谱。实验结果表明,羊养殖三元数据抽取精确率达到95.98%。(2)基于知识图谱设计羊养殖知识问答系统。采用BERT模型对羊养殖文本进行字符级别特征向量表示,解决问句多样化问题;采用卷积神经网络提取问句特征,完成问句意图理解;对于用户的问句实体识别问题,使用BERT-Bi LSTM-CRF模型对问句进行实体识别,采用余弦相似度计算完成问句实体识别。通过实验验证问句意图理解效果,F1值超过了99.80%。(3)开发基于知识图谱的羊养殖知识问答系统。设计实现了基于知识图谱的羊养殖知识问答系统。系统以羊养殖知识图谱为数据基础,以flask为开发框架,采用深度学习模型实现羊养殖实体识别和知识问答功能,可节省用户获取信息的时间,有助于养羊产业智能化发展。
基于生成对抗学习的知识图谱问答系统研究
这是一篇关于问答系统,知识图谱,问题生成,生成式对抗网络的论文, 主要内容为随着移动互联网的普及与人工智能时代的到来,人们对于快速获得精准答案的需求越来越高,问答系统成为了新一代的信息获取途径。与此同时,知识图谱技术的发展大力推动了问答系统的研究与落地,基于知识图谱的问答系统研究成为了当下的研究热门。本文针对基于知识图谱的问答系统展开了研究,主要包括以下三个方面:(1)设计并实现了一个基于编码器解码器框架的知识图谱问题生成模型,根据给定的知识三元组,自动生成自然语言形式的问题。模型在测试集上BLEU与METEOR值分别达到了 40.29与37.38;(2)提出了一个基于神经网络的问答匹配模型,融合了字符级别、单词级别的语义信息以及整个知识图谱的结构信息,根据自然语言形式的答案从知识图谱中找到最匹配的三元组,准确率达到了 72.4%;(3)设计了一个基于对抗生成学习的半监督框架,利用知识图谱的问题生成与问答匹配任务的内在联系,进行联合对抗学习。生成模型与匹配模型的效果均得到了提升。
基于知识图谱的东北新三板挂牌企业综合评价及画像构建
这是一篇关于东北挂牌企业,企业画像,知识图谱,评价指标,熵权法,TOPSIS法的论文, 主要内容为东北地区是我国重要的老工业基地,在“十四五”重要战略机遇期,民营经济仍是其发展过程中不可或缺的力量。新三板自2006年正式成立以来,就被定位为资本市场服务民营经济的重要平台。但全国中小企业股份转让系统中的统计数据显示,东北地区融资情况并不乐观。自2013年新三板扩容以来,挂牌企业质量参差不齐、投资风险较大以及部分投资者和企业信息不对称共同导致了融资困难的问题。对东北挂牌公司而言,亟需一套科学系统的方法,解决因信息不对称导致的企业综合评价不准确、不完备问题。当前,大数据技术发展迅速,海量数据资源沉淀,仅使用财务数据难以全面地对东北三省新三板挂牌企业进行评价。为了解决上述问题,首先要加大企业信息的披露力度和维度,保证披露信息的公正、公平性。其次,需要构建数据驱动的、科学有效的企业综合评价体系,从而精准刻画企业个体画像和企业群体生态画像。企业画像作为用户画像技术的延伸,不仅可以展示企业的基础工商文本信息,而且可以通过构建企业综合评价模型对财务状况、创新能力等多方面进行评价,并利用标签提取技术展示评价结果,为投资方和管理部门提供科学有效的参考,以便投资方和管理部门更全面、更直观地掌握企业多维度的信息。本文主要研究工作如下:(1)以东北三省新三板挂牌企业为研究对象,以数据驱动的方式确定企业画像信息维度、企业知识图谱的实体、关系及属性,构建企业知识图谱并对企业群体进行社区划分,以可视化的形式展示企业信息。(2)结合东北三省新三板挂牌企业群体的特点,基于企业知识图谱建立涵盖企业基础信息维度、财务信息维度、创新能力信息维度、信用信息维度4大维度、11项一级指标、20项二级指标的企业综合评价指标体系。(3)提出一个基于熵权TOPSIS评价模型联合聚类分析的企业画像构建方法。将综合评价结果进行聚类分级,通过标签提取策略,结合企业知识图谱与可视化技术构建出评估企业综合状况的个体画像和企业群生态画像。结果表明,本研究构建的评价指标体系相较于传统财务评价指标更加完善、更体系化,提出的企业画像构建方法可以有针对性地全面展示东北挂牌企业的多维度状况。研究结论对于促进企业多维度信息透明化进而改善企业与投资方信息不对称状况发挥了重要作用,为推进东北三省新三板挂牌企业可持续健康发展、改善其融资困难提供重要技术保障。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设工坊 ,原文地址:https://bishedaima.com/lunwen/45185.html