基于依存关系和语义词典的文本分类研究
这是一篇关于文本分类,依存关系,语义词典,类中心向量,分类器的论文, 主要内容为随着互联网的迅猛发展,日常生活中每天都会产生大量的以电子文件形式存在的数据,人们如何从海量数据之中获取想要的信息是当前研究的热点和难点,文本分类是其中的一个重要研究方向。首先,本文对文本分类技术的研究现状进行了介绍,并简要说明了本文主要研究的内容以及本文的创新点。随后对文本分类过程进行了详细的阐述,着重介绍了特征选择算法和文本分类算法,对其优缺点进行了分析、总结,并以此为基础提出了基于依存关系、语义词典和词性的特征选择改进方法和基于类中心向量改进的文本分类方法。针对基于统计学的特征选择算法的语义缺陷,本文引入依存关系、语义词典、词性对文本特征进行相关实验、分析,对得出的语义信息进行量化处理,并提出了改进的权重计算公式,对特征权重进行了一定程度的调整,实现了文本负作用特征的两次过滤,最终选择出最能表征文本、反映类别的特征向量,以达到提高分类效率、改善分类性能的目的。其中,在本文引入依存关系的过程当中,采用Stanford parser对原始语料集的所有文本的所有句子进行依存关系分析,并依据其分析结果对文本特征划分等级,形成依存等级表,结合语义词典提出改进的权重计算公式,对负作用特征进行一次过滤;其次,在本文对特征词性进行观察、统计实验时,我们发现文本中的实词对文本而言最具表征意义,并提出了词性等级表对特征词性进行了详细的划分,依据词性等级表,本文提出了进一步改进的权重计算公式,对文本特征实施第二次权重计算,根据权重值大小,对文本负作用特征进行二次过滤。实验证明,本文方法能大幅度过滤掉噪音特征,优化了文本特征向量,并有效的改善了分类器性能。在本文对朴素贝叶斯、最邻近法和类中心向量法进行对比实验之后,得出类中心向量法高效率、低精度的结论。由于效率高的特性更有利于构建自动文本分类体系,因此本文在对类中心向量法进行相关分析之后,针对其缺陷,提出了基于类中心向量法改进的文本分类方法,以实现分类的高效率、高精度,具体改进有以下几点:(1)在确定类中心向量和待分类文本特征向量时,采用的是本文提出的特征选择改进方法;(2)在量化类中心向量和待分类文本特征向量之间的相似度时,本文提出了新公式,有效的简化了相似度计算过程;(3)在相似度计算过程中的特征比对环节,本文引入Word Net的上下位关系和《同义词词林(扩展版)》的类相关词组分别对中、英文语料集进行特征聚类,以避免特征流失,并提高分类精度。随后,本文在不同数据集、不同分类算法上分别进行了大量的对比实验来验证本文基于类中心向量法改进的文本分类方法的有效性。在与类中心向量法的对比实验中,本文方法在复旦语料集、搜狗中文语料集、20Newsgroups语料集上的实验效果F1值比类中心向量法分别提高了5.97%、10.61%、12.48%;本文方法与基于贝叶斯的算法在复旦语料集、搜狗中文语料集上分别进行了对比实验,实验效果F1值分别提高了6.84%、11.37%;本文方法与基于KNN的算法、基于SVM的算法在复旦语料集、搜狗中文语料集、20Newsgroups语料集上实验效果F1值分别提高了1.84%、5.17%、12.44%,2.88%、11.54%、5.89%。最后,本文对比实验充分证明了本文方法在保证分类效率的同时,有效的提升了分类精度,改善了分类器性能。
文本情感分析在产品评论中的应用研究
这是一篇关于情感分析,产品评论,文本挖掘,词性模板,依存关系,情感词,特征词的论文, 主要内容为摘要:随着计算机技术的蓬勃发展,互联网(如博客、论坛和电商网站)上产生了大量用户参与的、对于某种产品有价值的评论信息。这些评论信息直接表达了用户对产品功能或性能方面所持的肯定或否定态度。对这些产品评论信息进行挖掘对于商家和潜在的消费者意义重大。本文针对小米公司通过人工阅读论坛上的评论来获取用户需求的低效性,提出应用文本情感分析技术来挖掘产品评论信息,研究对象是小米手机的产品评论。首先,简要介绍小米科技公司及其用户参与的研发模式,然后对其用户参与的研发模式的现状进行分析,发现通过人工阅读评论来获得用户需求信息的低效性,从而提出一套高效自动化的产品评论应用方案,详细地给出产品评论应用方案的流程图,主要包括产品特征词和情感词对的抽取和情感分类两部分。 然后构建小米手机产品评论语料库,对评论数据进行预处理、分词、词性标注和句法分析之后,分别基于词性模板和句法关系抽取产品特征词和情感词对,并通过实验验证了这两种方法的有效性。接着,构建情感词典,基于情感词词典对产品特征进行情感分类,并把情感分类的结果以图表的方式展示出来。 最后,设计并实现了一个产品评论挖掘系统。该系统可以抓取指定页面的评论数据,可以基于词性模板和句法关系抽取产品特征词和情感词对,可以基于情感词典对产品特征进行情感分类,并提供可视化的结果展示。
基于依存关系和图卷积网络的方面级情感分析方法研究
这是一篇关于依存关系,方面级情感分析,图卷积网络,BERT,胶囊网络的论文, 主要内容为随着各种网络平台的快速发展,社交、外卖、直播、短视频等领域产生了海量的数据文本,对文本进行细粒度的挖掘和分析具有重大的社会价值和商业价值。相较于粗粒度的情感分析技术,方面级情感分析旨在分析句子中实体或实体某个属性的情感极性,具有更普遍的应用场景,引起了学术界和工业界的广泛关注。近年来,利用图卷积神经网络和依存关系,建模方面词与意见词之间联系的方法在方面级情感分析领域取得了极大进展。但现有研究仍存在考虑单词间的相对位置信息不足,句子和方面词间信息交互不充分等问题。针对上述问题,本文在现有研究基础上进行探索和改进,主要的工作包括:(1)考虑到情感极性预测结果受方面词与意见词间相对位置的影响,本文提出基于依存关系和旋转式位置编码的方面级情感分析模型(AS-DRP)。使用Transformer结合旋转式位置编码捕捉单词间的相对位置信息与语义信息,同时通过依存关系和多层图卷积网络捕获单词间的依存句法信息。然后,利用双仿射层交互两种信息,并采用门控机制进行特征融合,得到特征融合后的方面词表示。最后,将方面词表示与BERT获得的分类向量拼接,进行情感极性预测。通过在公开数据集上进行对比实验和案例分析,验证了模型的有效性和泛化能力。(2)考虑到句子和方面词间的复杂关系影响情感分类结果,本文提出基于依存关系和胶囊网络的方面级情感分析模型(DR-Caps Net),通过胶囊网络建模方面词和句子间的复杂关系,提升模型效果。首先采用BERT获得句子和方面词的词向量表示,多层图卷积网络提取句子的依存句法特征,与句子的词向量残差连接,获得带语法信息的句子特征。然后,将句子特征和方面词表示输入胶囊网络,通过方面感知归一化和胶囊路由引导机制,将句子中与方面词情感最相关的表示传递到情感类别胶囊,进行方面词的情感极性预测。实验结果表明,DRCaps Net模型在方面级情感分析任务中取得了较好的分类效果。本文工作围绕方面级情感分析任务展开,在基于依存关系和图卷积网络的研究上改进模型,提出了AS-DRP和DR-Caps Net模型,通过和近年来提出的模型在Laptop、Restaurant、Twitter数据集上对比,验证了模型的有效性。
基于依存关系改进的方面级观点挖掘算法及可视分析研究
这是一篇关于方面级观点挖掘,词嵌入,依存关系,知识图谱,可视化系统的论文, 主要内容为互联网的发展带来大量评论文本数据,但是想要在大量非结构化数据中快速准确找到有价值的信息往往十分困难,观点挖掘可以帮助用户从大量文本数据中提取出有价值的信息。但是目前大部分研究倾向于对句子整体的褒贬分类,缺少细粒度的方面级观点挖掘和高效的总结方式。本文对某电商平台手机商品评论数据进行方面级观点挖掘,主要研究内容包含如下几个方面:首先,针对方面级观点挖掘中方面提取问题,使用Py Corrector对评论文本纠错,提高挖掘结果的准确性。通过词法分析选取可靠的频繁方面作为种子词集。使用手机评论语料对词嵌入模型进行增量训练,利用向量相似性度量提取非频繁方面,并通过K-means算法对方面进行聚类,增强了方面提取的全面性并为方面划分了类别。其次,针对现有的方面级观点挖掘研究较少且缺少具体观点内容的问题,提出了基于依存关系改进的方面级观点挖掘算法。在依存关系分析的基础上融入词法分析和方面提取结果,提高挖掘的准确性。通过分析依存关系,总结提取规则,完成了对方面和观点内容的有效提取。再次,针对缺少高效的观点总结的问题,进行可视化设计,通过构建知识图谱对复杂的关系进行有效的展示。结合挖掘结果和用户需求目标设计可视化系统,从多角度对商品信息和评论挖掘结果进行高效的总结和展示。最后,设计实验对算法的挖掘效果进行评估,验证所提方法的有效性并分析评估结果中的差异和原因。然后结合实际应用,对商品评论挖掘结果可视化系统进行分析,验证了方面级观点挖掘和可视化系统的实用性。
中文人物属性槽填充技术的研究与实现
这是一篇关于人物属性槽填充,依存关系,半监督模型,深层神经网络的论文, 主要内容为人物属性是指姓名、性别、工作单位等基本个人信息,人物属性槽填充是指从自由文本中提取给定人物的属性信息,并填充到对应的属性槽中。人物属性槽填充从自由文本中获得人物的结构化信息,是一种重要的基础性信息抽取任务,对于进行人名消岐、事件追踪以及构建知识图谱等任务具有重要的价值。本文研究基于中文自由文本的人物属性槽填充,探索了多种针对不同情况的人物属性抽取方法,并基于此构建人物属性挖掘系统。具体包含以下几个方面的工作:(1)实现了一种基于Bootstrapping的中文人物属性槽填充算法,该方法基于少量人工规则,通过迭代自动生成大量的属性抽取规则,最后使用生成的规则提取并填充对应属性的属性槽。(2)实现了一种基于依存关系树的半监督属性槽填充算法,该方法通过依存关系树获取人物、属性候选词与触发词的关系,通过发掘属性触发词获得人物属性。实验结果表明,该方法在所有属性槽上的槽填充评估F1值均达到85%以上。(3)分别实现了基于长短期记忆(Long Short-Term Memory,LSTM)模型以及卷积神经网络(Convolutional Neural Network,CNN)模型的中文人物属性槽填充算法,分析对比了这些监督模型与上述半监督模型在人物属性槽填充任务上的优劣。(4)基于上述模型,实现了一个中文人物属性挖掘系统。
电网工程大数据处理及知识图谱应用技术研究
这是一篇关于基建工程,信息抽取,命名实体识别,共指消解,关系抽取,深度神经网络,谱聚类,依存关系,知识图谱的论文, 主要内容为电网基建工程项目具有规模大、周期长且涉及主体多等特点,因此决定了电网工程从设计、施工到验收的全流程中将产生大量来源丰富、格式复杂多样的数据,包括设计说明书、试验报告以及设备清册等。这些数据将在建设项目结束后移交给供电企业,是供电企业运行维护和资产管理系统的重要原始数据源。从电网基建工程项目移交的非结构化文本数据和半结构化表格数据中,可以获取与电网拓扑、资产、设备相关的知识,用作发展、运检、调度、财务等系统的数据源。然而,由于缺乏有效的数据抽取和整理技术手段,使得这些数据成果查找方式单一、关联查询困难,无法直观的进行展现。因此,亟需研究有效的信息抽取技术,实现自动化地分析电网基建工程文本数据中所包含的自然语义,挖掘其中所蕴藏的有价值的信息,进而构建基建工程数据知识图谱,实现层次化存储、可视化展示以及关联信息推荐,同时为运检、调度、财务等业务系统的数据采集提供新的结构化数据来源。本文以含有噪声的多源异构基建工程数据为研究对象,依托自然语言处理技术,对于信息抽取的模型及方法和知识图谱构建技术展开了研究。首先,针对交互文件中难以被人工分析的工程非结构化自然文本语言数据、不规范的半结构化表格数据进行预处理,通过数据清洗去除原始低质量数据中的噪声,进而构建skip-gram模型,将文本数据转换为适合挖掘的包含上下文语义信息的词嵌入向量形式,并通过仿真验证了效果。其次,针对自然语言文本信息抽取问题,预定义了所需的命名实体类型,在此基础上,构建了有监督的机器学习模型,将命名实体识别视为序列标注任务。针对识别后的实体歧义与冗余问题,提出了指称对模型进行共指消解。为了识别命名实体之间的语义关系,提出了一种基于图论的分析模型,在实体节点和关系边组成的树中寻找分值最高的依存关系的组合,从而完成三元组的抽取。并通过算例验证其效果。最后,针对抽取后的知识存储及知识表达问题,创新性的提出基于Neo4j原生图数据库构建基建工程知识图谱,包含属性图模型的数据层,和可视化展示的模式层。该图谱将不同类型文件中的自然语言转化为语义知识库中的节点和关系,并且能够实现智能搜索以及关联信息推荐功能。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设驿站 ,原文地址:https://bishedaima.com/lunwen/54533.html