基于语义学习的远程监督实体关系抽取
这是一篇关于实体关系抽取,注意力机制,远程监督,多实例多标签,语义相似性的论文, 主要内容为我们正处于一个高度信息化的时代,其中文本数据是主要的信息类型之一。如何从海量非结构化的文本数据中自动地提取有效信息是当前自然语言处理领域的研究热点。实体关系抽取技术作为信息抽取的有效手段,可以从句子,段落以及文档中提取实体对之间的关系信息,构成实体关系三元组,以支持问答系统、文本检索、知识图谱等下游任务。传统的实体关系抽取技术依赖于有监督数据,对小范围领域内的语句进行关系抽取,面对语义丰富结构多变的互联网文本有很大的局限性。为了摆脱高昂的人工标注成本以及数量稀少的训练文本,远程监督实体关系抽取诞生了,其不需要人工标注,更容易获取训练数据,通过实体对齐的方式将远程知识库的监督标签作为训练样本标签。目前该任务仍存在三个问题,第一,构造数据集时由于强假设性原则所产生的噪声数据问题;第二,如何计算句子关系语义和远程知识库语义的语义相似度;第三,如何处理同一个实体对对应多个关系标签问题。本文采用了一种基于文本相似度和注意力机制共同降噪的方法。首先对样本关系和知识库关系进行文本相似度计算,过滤掉大概率为噪声的数据。使剩下的样本进行基于多实例级别注意力机制降噪,同时在知识库中使用多实体注意力机制更新关系向量表示,提高知识表示质量。另外本文采用多标签的训练方式,一个实体对可以对应多个关系标签,改善了一对一关系的局限性。本文使用NYT10中的部分数据训练模型,通过对比实验证明:本模型在F1值和PR曲线上基本优于经典基线模型,在某些方面提升了远程监督实体关系抽取任务的性能。
基于深度学习的虚假评论检测研究与实现
这是一篇关于虚假评论,语义相似性,图卷积网络,情感特征,Transformer模型的论文, 主要内容为电商平台中真实可信的用户评论可以帮助消费者做出正确的消费决策。然而,受不同动因驱使,电商平台中也充斥着大量虚假评论。虚假评论不仅会误导用户的消费决策,同时也会对商家及电商平台造成消极的影响。在此背景下,虚假评论的检测与治理对监督网站运营、净化网络环境具有重要的意义。本文基于深度学习技术对虚假评论检测方法展开研究。为实现对虚假评论的准确、高效检测,从评论间相似性与评论文本情感两种角度出发,提出两种虚假评论检测方法。在此基础上,利用上述两种方法中提取的蕴含评论间相似性和评论情感强度的特征,提出了一种基于多线索的虚假评论检测方法,并设计实现了一个可对评论进行自动采集及虚假评论检测的系统。主要内容如下:(1)提出一种基于图卷积网络的虚假评论检测方法。虚假评论间通常会有高度相似的内容,但是现有的基于深度学习的虚假评论检测方法,通常对每条评论单独提取文本特征而未充分考虑评论间的相似性。本文利用不同评论中词汇的语义相似性间接衡量评论间相似性,并基于图卷积网络进行虚假评论检测。首先,基于词汇语义相似性构建评论文本图,将虚假评论检测问题转化为节点分类问题。其次,利用图卷积网络聚合相邻节点的邻域信息,深入挖掘评论间的相似性关系,获取包含评论间相似性的特征向量进行虚假评论检测。在虚假评论检测通用数据集上,与CNN、LSTM、Text_GCN等模型相比,该方法将准确率分别提升了7%、4.8%与1.3%。(2)提出一种融合情感特征的虚假评论检测方法。为了达到鼓吹宣传的效果,虚假评论表现的情感通常比较强烈,但是现有的基于情感特征的虚假评论检测方法大多仅对评论中的情感词进行简单的统计计数,忽略了不同情感词有程度差别的重要属性。为此,提出一种新的融合情感特征的虚假评论检测方法。该方法首先基于评论文本构建情感词典,综合考虑情感词的不同形式及情感词与程度副词的依赖关系,对评论文本表达的情感更加准确地量化描述;然后,将情感特征与文本内容特征融合,结合Transformer模型实现虚假评论检测。在Amazon数据集上,与LSTM模型相比,该方法在提高检测效率的同时,将准确率提升了0.59%。(3)考虑到一条虚假评论可能同时具有上述两方面特征,将上述两种方法中提取到的蕴含评论间相似性与评论情感强度的特征进行融合,设计了基于多线索的虚假评论检测方法,并基于该方法设计并实现虚假评论在线检测系统。系统分为服务端与客户端两个模块。服务端主要实现评论数据的采集、基于多线索的虚假评论检测模型训练以及评论的在线检测等核心功能;客户端主要实现评论检测任务管理及评论检测结果的展示。在Amazon数据集上,基于多线索的检测准确率与单独使用上述两种方法相比分别提升3.24%与1.14%。实验结果表明融合评论间相似性和情感强度两方面特征具有有效性。同时,利用大众点评网站的评论数据验证了该系统可以实现评论的自动采集和虚假评论的在线检测。
基于深度学习的虚假评论检测研究与实现
这是一篇关于虚假评论,语义相似性,图卷积网络,情感特征,Transformer模型的论文, 主要内容为电商平台中真实可信的用户评论可以帮助消费者做出正确的消费决策。然而,受不同动因驱使,电商平台中也充斥着大量虚假评论。虚假评论不仅会误导用户的消费决策,同时也会对商家及电商平台造成消极的影响。在此背景下,虚假评论的检测与治理对监督网站运营、净化网络环境具有重要的意义。本文基于深度学习技术对虚假评论检测方法展开研究。为实现对虚假评论的准确、高效检测,从评论间相似性与评论文本情感两种角度出发,提出两种虚假评论检测方法。在此基础上,利用上述两种方法中提取的蕴含评论间相似性和评论情感强度的特征,提出了一种基于多线索的虚假评论检测方法,并设计实现了一个可对评论进行自动采集及虚假评论检测的系统。主要内容如下:(1)提出一种基于图卷积网络的虚假评论检测方法。虚假评论间通常会有高度相似的内容,但是现有的基于深度学习的虚假评论检测方法,通常对每条评论单独提取文本特征而未充分考虑评论间的相似性。本文利用不同评论中词汇的语义相似性间接衡量评论间相似性,并基于图卷积网络进行虚假评论检测。首先,基于词汇语义相似性构建评论文本图,将虚假评论检测问题转化为节点分类问题。其次,利用图卷积网络聚合相邻节点的邻域信息,深入挖掘评论间的相似性关系,获取包含评论间相似性的特征向量进行虚假评论检测。在虚假评论检测通用数据集上,与CNN、LSTM、Text_GCN等模型相比,该方法将准确率分别提升了7%、4.8%与1.3%。(2)提出一种融合情感特征的虚假评论检测方法。为了达到鼓吹宣传的效果,虚假评论表现的情感通常比较强烈,但是现有的基于情感特征的虚假评论检测方法大多仅对评论中的情感词进行简单的统计计数,忽略了不同情感词有程度差别的重要属性。为此,提出一种新的融合情感特征的虚假评论检测方法。该方法首先基于评论文本构建情感词典,综合考虑情感词的不同形式及情感词与程度副词的依赖关系,对评论文本表达的情感更加准确地量化描述;然后,将情感特征与文本内容特征融合,结合Transformer模型实现虚假评论检测。在Amazon数据集上,与LSTM模型相比,该方法在提高检测效率的同时,将准确率提升了0.59%。(3)考虑到一条虚假评论可能同时具有上述两方面特征,将上述两种方法中提取到的蕴含评论间相似性与评论情感强度的特征进行融合,设计了基于多线索的虚假评论检测方法,并基于该方法设计并实现虚假评论在线检测系统。系统分为服务端与客户端两个模块。服务端主要实现评论数据的采集、基于多线索的虚假评论检测模型训练以及评论的在线检测等核心功能;客户端主要实现评论检测任务管理及评论检测结果的展示。在Amazon数据集上,基于多线索的检测准确率与单独使用上述两种方法相比分别提升3.24%与1.14%。实验结果表明融合评论间相似性和情感强度两方面特征具有有效性。同时,利用大众点评网站的评论数据验证了该系统可以实现评论的自动采集和虚假评论的在线检测。
基于语义学习的远程监督实体关系抽取
这是一篇关于实体关系抽取,注意力机制,远程监督,多实例多标签,语义相似性的论文, 主要内容为我们正处于一个高度信息化的时代,其中文本数据是主要的信息类型之一。如何从海量非结构化的文本数据中自动地提取有效信息是当前自然语言处理领域的研究热点。实体关系抽取技术作为信息抽取的有效手段,可以从句子,段落以及文档中提取实体对之间的关系信息,构成实体关系三元组,以支持问答系统、文本检索、知识图谱等下游任务。传统的实体关系抽取技术依赖于有监督数据,对小范围领域内的语句进行关系抽取,面对语义丰富结构多变的互联网文本有很大的局限性。为了摆脱高昂的人工标注成本以及数量稀少的训练文本,远程监督实体关系抽取诞生了,其不需要人工标注,更容易获取训练数据,通过实体对齐的方式将远程知识库的监督标签作为训练样本标签。目前该任务仍存在三个问题,第一,构造数据集时由于强假设性原则所产生的噪声数据问题;第二,如何计算句子关系语义和远程知识库语义的语义相似度;第三,如何处理同一个实体对对应多个关系标签问题。本文采用了一种基于文本相似度和注意力机制共同降噪的方法。首先对样本关系和知识库关系进行文本相似度计算,过滤掉大概率为噪声的数据。使剩下的样本进行基于多实例级别注意力机制降噪,同时在知识库中使用多实体注意力机制更新关系向量表示,提高知识表示质量。另外本文采用多标签的训练方式,一个实体对可以对应多个关系标签,改善了一对一关系的局限性。本文使用NYT10中的部分数据训练模型,通过对比实验证明:本模型在F1值和PR曲线上基本优于经典基线模型,在某些方面提升了远程监督实体关系抽取任务的性能。
基于深度学习的虚假评论检测研究与实现
这是一篇关于虚假评论,语义相似性,图卷积网络,情感特征,Transformer模型的论文, 主要内容为电商平台中真实可信的用户评论可以帮助消费者做出正确的消费决策。然而,受不同动因驱使,电商平台中也充斥着大量虚假评论。虚假评论不仅会误导用户的消费决策,同时也会对商家及电商平台造成消极的影响。在此背景下,虚假评论的检测与治理对监督网站运营、净化网络环境具有重要的意义。本文基于深度学习技术对虚假评论检测方法展开研究。为实现对虚假评论的准确、高效检测,从评论间相似性与评论文本情感两种角度出发,提出两种虚假评论检测方法。在此基础上,利用上述两种方法中提取的蕴含评论间相似性和评论情感强度的特征,提出了一种基于多线索的虚假评论检测方法,并设计实现了一个可对评论进行自动采集及虚假评论检测的系统。主要内容如下:(1)提出一种基于图卷积网络的虚假评论检测方法。虚假评论间通常会有高度相似的内容,但是现有的基于深度学习的虚假评论检测方法,通常对每条评论单独提取文本特征而未充分考虑评论间的相似性。本文利用不同评论中词汇的语义相似性间接衡量评论间相似性,并基于图卷积网络进行虚假评论检测。首先,基于词汇语义相似性构建评论文本图,将虚假评论检测问题转化为节点分类问题。其次,利用图卷积网络聚合相邻节点的邻域信息,深入挖掘评论间的相似性关系,获取包含评论间相似性的特征向量进行虚假评论检测。在虚假评论检测通用数据集上,与CNN、LSTM、Text_GCN等模型相比,该方法将准确率分别提升了7%、4.8%与1.3%。(2)提出一种融合情感特征的虚假评论检测方法。为了达到鼓吹宣传的效果,虚假评论表现的情感通常比较强烈,但是现有的基于情感特征的虚假评论检测方法大多仅对评论中的情感词进行简单的统计计数,忽略了不同情感词有程度差别的重要属性。为此,提出一种新的融合情感特征的虚假评论检测方法。该方法首先基于评论文本构建情感词典,综合考虑情感词的不同形式及情感词与程度副词的依赖关系,对评论文本表达的情感更加准确地量化描述;然后,将情感特征与文本内容特征融合,结合Transformer模型实现虚假评论检测。在Amazon数据集上,与LSTM模型相比,该方法在提高检测效率的同时,将准确率提升了0.59%。(3)考虑到一条虚假评论可能同时具有上述两方面特征,将上述两种方法中提取到的蕴含评论间相似性与评论情感强度的特征进行融合,设计了基于多线索的虚假评论检测方法,并基于该方法设计并实现虚假评论在线检测系统。系统分为服务端与客户端两个模块。服务端主要实现评论数据的采集、基于多线索的虚假评论检测模型训练以及评论的在线检测等核心功能;客户端主要实现评论检测任务管理及评论检测结果的展示。在Amazon数据集上,基于多线索的检测准确率与单独使用上述两种方法相比分别提升3.24%与1.14%。实验结果表明融合评论间相似性和情感强度两方面特征具有有效性。同时,利用大众点评网站的评论数据验证了该系统可以实现评论的自动采集和虚假评论的在线检测。
基于深度学习的虚假评论检测研究与实现
这是一篇关于虚假评论,语义相似性,图卷积网络,情感特征,Transformer模型的论文, 主要内容为电商平台中真实可信的用户评论可以帮助消费者做出正确的消费决策。然而,受不同动因驱使,电商平台中也充斥着大量虚假评论。虚假评论不仅会误导用户的消费决策,同时也会对商家及电商平台造成消极的影响。在此背景下,虚假评论的检测与治理对监督网站运营、净化网络环境具有重要的意义。本文基于深度学习技术对虚假评论检测方法展开研究。为实现对虚假评论的准确、高效检测,从评论间相似性与评论文本情感两种角度出发,提出两种虚假评论检测方法。在此基础上,利用上述两种方法中提取的蕴含评论间相似性和评论情感强度的特征,提出了一种基于多线索的虚假评论检测方法,并设计实现了一个可对评论进行自动采集及虚假评论检测的系统。主要内容如下:(1)提出一种基于图卷积网络的虚假评论检测方法。虚假评论间通常会有高度相似的内容,但是现有的基于深度学习的虚假评论检测方法,通常对每条评论单独提取文本特征而未充分考虑评论间的相似性。本文利用不同评论中词汇的语义相似性间接衡量评论间相似性,并基于图卷积网络进行虚假评论检测。首先,基于词汇语义相似性构建评论文本图,将虚假评论检测问题转化为节点分类问题。其次,利用图卷积网络聚合相邻节点的邻域信息,深入挖掘评论间的相似性关系,获取包含评论间相似性的特征向量进行虚假评论检测。在虚假评论检测通用数据集上,与CNN、LSTM、Text_GCN等模型相比,该方法将准确率分别提升了7%、4.8%与1.3%。(2)提出一种融合情感特征的虚假评论检测方法。为了达到鼓吹宣传的效果,虚假评论表现的情感通常比较强烈,但是现有的基于情感特征的虚假评论检测方法大多仅对评论中的情感词进行简单的统计计数,忽略了不同情感词有程度差别的重要属性。为此,提出一种新的融合情感特征的虚假评论检测方法。该方法首先基于评论文本构建情感词典,综合考虑情感词的不同形式及情感词与程度副词的依赖关系,对评论文本表达的情感更加准确地量化描述;然后,将情感特征与文本内容特征融合,结合Transformer模型实现虚假评论检测。在Amazon数据集上,与LSTM模型相比,该方法在提高检测效率的同时,将准确率提升了0.59%。(3)考虑到一条虚假评论可能同时具有上述两方面特征,将上述两种方法中提取到的蕴含评论间相似性与评论情感强度的特征进行融合,设计了基于多线索的虚假评论检测方法,并基于该方法设计并实现虚假评论在线检测系统。系统分为服务端与客户端两个模块。服务端主要实现评论数据的采集、基于多线索的虚假评论检测模型训练以及评论的在线检测等核心功能;客户端主要实现评论检测任务管理及评论检测结果的展示。在Amazon数据集上,基于多线索的检测准确率与单独使用上述两种方法相比分别提升3.24%与1.14%。实验结果表明融合评论间相似性和情感强度两方面特征具有有效性。同时,利用大众点评网站的评论数据验证了该系统可以实现评论的自动采集和虚假评论的在线检测。
基因语义相似性和细胞语义相似性在单细胞数据上的探索与应用
这是一篇关于语义相似性,基因本体,细胞本体,伪时间分析的论文, 主要内容为背景与目的:语义相似性(semantic similarity)是从含义的角度衡量两个对象之间的相似程度。在生物学中,存在大量知识图谱数据,利用语义相似性可以帮助解析分子间关系。通过基因本体和基因注释信息可以对基因或基因产物计算语义相似性;通过细胞本体可以衡量细胞相似性。然而在当前单细胞分析领域中,有关语义相似性的应用场景尚有不足。首先,考虑到TCSS(Topological Clustering Semantic Similarity)算法在评估蛋白质相互作用上具有优势,我们将其加入到GOSemSim包中。后者是基于基因本体计算语义相似性的工具,被多人引用并广泛使用。基于GOSemSim,我们开发了 COSemSim包,基于细胞本体计算细胞间语义相似性,用以比较细胞集合间关系。在上述基础上,我们更深入的探讨了基因间语义相似性在单细胞伪时间分析上的作用,我们发现将基因间语义相似性与单细胞基因表达信息结合,可以提高对细胞发育过程的预测效果。研究内容与结果:1.将TCSS算法改进并添加到GOSemSim包中,拓展了其算法多样性和应用场景。TCSS算法核心是通过对本体结构划分子图来减弱分支不平衡的影响,从而更好地预测蛋白质相互作用。我们增加了计算阈值的步骤,更合理的决定子图大小。之后我们从真实的蛋白质相互作用数据库中提取数据,比较TCSS方法与其他语义相似性方法的预测效果,结果显示最佳阈值下的TCSS方法优于非最佳阈值下的TCSS,并且都优于Resnik的方法。2.开发COSemSim包用于计算细胞或细胞集合间语义相似性。我们用细胞类型在本体结构中的后代信息丰富程度代表其信息量,调用了 GOSemSim包的方法进行计算。首先,我们对造血干细胞谱系的细胞类型计算语义相似性,证实了细胞本体反映了细胞类型的谱系和功能信息。之后,通过SingleR包中7套单细胞数据集,得到语义相似性和表达相似性的相关程度在0.5左右,并比较了各自的细胞聚类效果。结果揭示了基于语义相似性的聚类效果优于表达相似性。最后,我们利用细胞间语义相似性计算细胞群之间的关系,发现与真实的群体特征相符。3.我们验证了基因的语义相似性有助于单细胞伪时间分析。将基因间语义相似性与基因在细胞上的表达数据结合,同时考虑基因的功能和表达特征,进行伪时间分析。在两组单细胞数据上,我们分别比较对细胞的伪时间和发育轨迹的预测结果。发现,相较于原表达数据,结合基因语义相似性后的数据更接近真实的细胞发育特征,说明了基因间语义相似性可以帮助我们理解细胞发育关系,更接近真实的细胞动态变化过程。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设海岸 ,原文地址:https://bishedaima.com/lunwen/56048.html