基于深度强化学习的知识图谱推理关键技术研究
这是一篇关于知识图谱推理,强化学习,逆向强化学习,因果推断的论文, 主要内容为知识图谱是一种高效的语义网络结构,目前已被广泛应用于自然语言理解、推荐系统、智能问答、医疗教育等领域,知识图谱中存在大量三元组信息尚未被发掘,导致知识图谱中存在结构残缺与语义混淆等问题,进一步导致上游任务的性能遭受到严重影响。如何挖掘实体间潜在的联系,发现知识图谱中的路径规则,是知识图谱领域亟需解决的问题。本文针对上述问题,研究基于深度强化学习的知识推理方法,旨在通过强化学习技术来补全知识图谱。本文首先围绕知识图谱推理的相关研究技术进行全面的研究,提出了融合表示学习与规则学习的路径推理模型,并分析强化学习过程中启发式奖励存在的不足,进一步提出了基于逆向强化学习的知识图谱奖励推理模型,最后将路径推理模型推广到不确定性知识图谱上,提出了基于因果推断的不确定性知识图谱推理方法。本文的主要研究工作如下:(1)提出了融合表示学习与规则学习的路径推理模型。针对强化学习模型在知识图谱推理任务中所存在的奖励稀疏、动作空间大等问题,提出了表示学习与规则学习共同优化的奖励函数,并设计了包含关系策略网络与实体策略网络的智能体架构,引入多种优化机制,最后通过实验结果证明了提出模型的有效性。(2)提出了基于逆向强化学习的知识图谱奖励推理模型。针对路径推理模型中启发式奖励所导致的奖励可靠性低、奖励不准确等问题,从规则奖励与命中奖励两方面出发,设计了基于智能体轨迹更新的自适应规则奖励学习机制与基于智能体策略进行迭代的命中奖励学习机制,并设计了一种奖励随机失活机制,进一步探索多样化的奖励函数,最后通过实验结果证明了提出模型的有效性。(3)提出了基于因果推断的不确定性知识图谱推理模型,常规路径推理模型不适用于不确定性知识图谱,对此,设计了能够捕捉路径不确定性的推理智能体,并通过因果推断框架来解决多条路径带来的不确定性歧义问题,实验结果证明了所提出模型的有效性。
融合因果推理的细粒度情感分析算法的设计与实现
这是一篇关于因果推断,预训练语言模型,情感分析,对话生成,反事实推理的论文, 主要内容为将语言模型在大规模的公开语料上预训练,并将预训练后的语言模型在自然语言处理子任务上微调已经成一种训练范式。但不论是预训练过程中语言模型习得的偏见还是在下游任务训练集上的出现数据分布不平衡的现象,都会出现在测试集上模型推理的准确率满足条件,但在实际场景应用中模型性能可能不如预期情况,即模型没有泛化能力。模型训练过程中习得的可疑的关联关系是导致上述现象的其中一个原因,而因果推断能在任务和目标之间建立稳定的因果关系。同时,细粒度情感分析作为文本情感分析中一项重要且具有挑战性的子任务,在舆情分析、搜索、个性化推荐、内容安全、对话系统等若干场景均发挥着重要的作用,受此启发,本文将因果推理融合至现有的细粒度情感分析算法内,并将其应用至分类和生成任务中进行验证。本文基于因果推断的技术对细粒度情感分析算法进行设计与实现:在分类任务中,提出 CF-ACSA(Counterfactual Aspect Category Sentiment Analysis)框架,基于半监督的方法识别出微调任务训练数据集对应的各类情感倾向中的可疑关联属性项并构造反事实样本,对反事实样本和原始样本得到对应情感倾向的分数进行干预,最终得到一个去除偏移的推理结果。在生成任务中,本论文将CF-ACSA框架应用至对话情感生成任务当中,识别隐含在对话上下文中的情感,并将用户侧的情感记忆存储,在多轮对话中结合上下文精准地召回用户侧情感记忆,可控地生成蕴含该情感的回复,赋予对话机器人共情能力。基于上述两个算法创新点,搭建了因果推理算法平台,平台提供用户交互页面,可供用户便捷地使用数据集预处理、数据集管理、因果图生成、因果图可视化和因果分析功能。本文提出的算法在ASAP和DuLeMon公开数据集上进行了验证,自动化评估指标和人工评估指标的实验结果证明了本论文所提出的算法能在公开数据集上相较于过往的基线算法有了更好的提升,同时实验在编码器、解码器和编码器-解码器架构上也验证了算法能在不同种类的语言模型上适配。
面向新闻推荐的特定偏差研究及其应用
这是一篇关于新闻推荐,曝光偏差,用户偏好,因果推断,倾向得分的论文, 主要内容为新闻推荐系统在满足用户的个性化新闻浏览需求和适应日益增长的新闻数量方面有较好的应用。然而,当前个性化的新闻推荐算法通常是基于观测性的用户隐式反馈数据而非实验性数据,因此存在许多偏差。例如,用户对新闻的选择偏差、系统对新闻的曝光偏差等。此外,新闻的强时效性使得用户的新闻浏览偏好具有高度动态性等特点。为了解决以上问题,本文提出了融合因果推断的曝光点击新闻推荐模型和融合时序信息的曝光匹配新闻推荐模型,并基于这两类推荐模型设计并开发了一个新闻推荐系统。在融合因果推断的曝光点击新闻推荐模型的研究方面,本文对新闻推荐中“曝光-点击”场景下的观测数据进行因果建模,构建反事实结构因果图,用于区分新闻曝光倾向与用户曝光偏好对用户点击倾向的影响,并在计算“曝光-点击”因果效应部分,使用改进的倾向得分估计方法计算用户的点击倾向得分,最终通过建模用户和新闻信息,生成新闻推荐列表。在六个公开数据上实现了该推荐模型,并与多个基准模型进行对比实验,验证了提出的模型在提高推荐性能的基础上,有效缓解了基于隐式反馈数据新闻推荐算法中的曝光偏差的问题。在融合时序信息的曝光匹配新闻推荐模型研究方面,本文利用新闻的标题(即新闻的曝光部分)来生成新闻的曝光表示,利用用户点击过的新闻列表中的曝光信息,获得用户对新闻曝光偏好表示。将用户历史记录中的时间间隔信息也作为用户新闻曝光偏好建模的输入,进而表示出用户对新闻点击偏好的动态性。实验结果表明,该模型更能准确表示出用户对新闻的点击偏好,并提升推荐性能。最后,以提出的两类新闻推荐模型为基础,结合实际应用场景,设计并开发了新闻推荐系统,完成了新闻的在线浏览、个性化新闻推荐和新闻发布等功能,验证了本文提出的推荐模型在实际应用场景下的可行性。
基于直播数据的网络主播聚类及因果推断分析
这是一篇关于直播,网络主播,直播效果,聚类,因果推断的论文, 主要内容为直播电商是网络直播的一个细分领域,随着抖音、快手等拥有巨大流量优势的社交内容平台的进入,直播电商的市场规模真正得到了快速扩大。2020年,一场疫情突如其来,长时间的居家工作、生活加速了消费者直播购物习惯的形成,也迎来了直播带货的第二次高速增长。截至2021年6月,电商直播用户规模已达到3.84亿,并持续增长。另一方面,主播行业由于门槛低、收入可观,各行各业的人纷纷涌入,草根、明星、网红、企业高层,甚至央视主持人、政府官员也走进了直播间,形成了一种全民皆可为主播的现象;而事实上,数据表明电商主播之间的直播效果差距甚大。因此,探究主播特征及对其进行直播效果因果推断,不仅有助于主播提升自身的直播能力,也可为品牌方和MCN机构如何选取主播达成自身营销推广和获利的目的提供可行方案,对于稳定疫情常态下的经济发展具有重要意义。本文基于直播数据,以电商主播为主要研究对象,运用因子分析法从主播个人特征、主播活跃特征、直播人气特征、直播互动特征、直播商品特征、直播观众特征等六个方面对主播进行聚类,分析不同类别主播群体的特征及直播效果的差异。继而,根据前人研究和聚类分析结果选取“主播是否签约MCN机构”和“互动性”分别作为处理变量,通过倾向得分匹配验证上述处理变量与主播直播效果之间的因果关系。实证分析的结果表明:首先,主播是否签约MCN机构、主播类型及降维后的10个因子都与场均销售额和场均带货转化率之间存在关系,其中主播类型、主播是否签约MCN机构、主播人气、主播活跃度及直播互动5个因子对聚类结果的贡献度最高。其次,通过聚类分析主播被分为人气型、活跃型及潜力型三类,三类主播的特征及直播效果都存在显著差异。最后,主播直播效果的因果推断分析显示,主播签约MCN机构对其销售额及带货转化率均有显著的促进作用;另一方面,由于销售额受到观看人数的影响,互动性对场均销售额和场均带货转化率呈现反向的影响,随着互动率的不断增加,主播场均销售额逐渐减小,而带货转化率先增大到一定程度后逐渐降低。
面向去除偏差问题的强化推荐系统技术研究
这是一篇关于流行度偏差,曝光偏差,强化推荐系统技术,因果推断,用户聚类的论文, 主要内容为近年来,随着全球数字化转型的持续深入,人们日常生活的方方面面都被互联网技术所革新优化,信息的生产和传播速度达到了人类历史的巅峰。在数字化进程中,推荐系统是不可或缺的重要生产力之一,优秀的推荐系统可以提高人们接受信息的效率,帮助用户深度挖掘兴趣点,带给使用者更好的使用体验,同时还可以帮助内容提供方获取更多的收益。然而为了实现“千人千面”的个性化推荐效果,推荐系统需要解决各式各样的问题,其中一个非常值得探索的方向就是偏差问题。由于其隐蔽性,偏差问题正在难以觉察地损害着个性化推荐目标。故本文结合强化推荐算法,深入研究了推荐系统常见偏差中的流行度偏差问题与曝光偏差问题的产生来源和作用机制,提出了消除相应偏差影响的强化推荐算法,并在多个数据集上进行了有效性验证,主要研究内容如下:(1)设计了基于结构因果推断的Popularity Separate(PS)强化推荐算法框架,并结合两类经典的强化推荐算法DQN、REINFORCE,构造了PS-DQN与PSREINFORCE模型。本文通过研究用户对物品的交互倾向与流行度因子之间的因果关系,识别出流行度因子为其中的混杂因子,并利用后门调整手段去除混杂因子的影响,从而缓解流行度偏差。并在三个不同规模的真实数据集上,测试对比了算法的推荐性能和流行度推荐倾向,结果均证明了算法的有效性。(2)提出了User Based Reward Shift Deep Q-Learning(URS-DQN)算法。本文研究了曝光偏差的产生机制,针对交互数据中负反馈的不准确性提出了面向用户的Reward Shift方法,在对用户聚类后迁移同类用户的交互倾向,并结合经典的强化推荐算法DQN,提出了URS-DQN算法,缓解曝光偏差的影响,更准确地提取用户的真实兴趣爱好。在实验验证上,本文在三个数据集上与四个基线算法进行了对比分析,实验结果显示URS-DQN算法的推荐性能和训练效率都更好。除此之外,还通过多个消融实验,对算法各个模块的有效性进行了探究和实证。
面向去除偏差问题的强化推荐系统技术研究
这是一篇关于流行度偏差,曝光偏差,强化推荐系统技术,因果推断,用户聚类的论文, 主要内容为近年来,随着全球数字化转型的持续深入,人们日常生活的方方面面都被互联网技术所革新优化,信息的生产和传播速度达到了人类历史的巅峰。在数字化进程中,推荐系统是不可或缺的重要生产力之一,优秀的推荐系统可以提高人们接受信息的效率,帮助用户深度挖掘兴趣点,带给使用者更好的使用体验,同时还可以帮助内容提供方获取更多的收益。然而为了实现“千人千面”的个性化推荐效果,推荐系统需要解决各式各样的问题,其中一个非常值得探索的方向就是偏差问题。由于其隐蔽性,偏差问题正在难以觉察地损害着个性化推荐目标。故本文结合强化推荐算法,深入研究了推荐系统常见偏差中的流行度偏差问题与曝光偏差问题的产生来源和作用机制,提出了消除相应偏差影响的强化推荐算法,并在多个数据集上进行了有效性验证,主要研究内容如下:(1)设计了基于结构因果推断的Popularity Separate(PS)强化推荐算法框架,并结合两类经典的强化推荐算法DQN、REINFORCE,构造了PS-DQN与PSREINFORCE模型。本文通过研究用户对物品的交互倾向与流行度因子之间的因果关系,识别出流行度因子为其中的混杂因子,并利用后门调整手段去除混杂因子的影响,从而缓解流行度偏差。并在三个不同规模的真实数据集上,测试对比了算法的推荐性能和流行度推荐倾向,结果均证明了算法的有效性。(2)提出了User Based Reward Shift Deep Q-Learning(URS-DQN)算法。本文研究了曝光偏差的产生机制,针对交互数据中负反馈的不准确性提出了面向用户的Reward Shift方法,在对用户聚类后迁移同类用户的交互倾向,并结合经典的强化推荐算法DQN,提出了URS-DQN算法,缓解曝光偏差的影响,更准确地提取用户的真实兴趣爱好。在实验验证上,本文在三个数据集上与四个基线算法进行了对比分析,实验结果显示URS-DQN算法的推荐性能和训练效率都更好。除此之外,还通过多个消融实验,对算法各个模块的有效性进行了探究和实证。
基于深度强化学习的知识图谱推理关键技术研究
这是一篇关于知识图谱推理,强化学习,逆向强化学习,因果推断的论文, 主要内容为知识图谱是一种高效的语义网络结构,目前已被广泛应用于自然语言理解、推荐系统、智能问答、医疗教育等领域,知识图谱中存在大量三元组信息尚未被发掘,导致知识图谱中存在结构残缺与语义混淆等问题,进一步导致上游任务的性能遭受到严重影响。如何挖掘实体间潜在的联系,发现知识图谱中的路径规则,是知识图谱领域亟需解决的问题。本文针对上述问题,研究基于深度强化学习的知识推理方法,旨在通过强化学习技术来补全知识图谱。本文首先围绕知识图谱推理的相关研究技术进行全面的研究,提出了融合表示学习与规则学习的路径推理模型,并分析强化学习过程中启发式奖励存在的不足,进一步提出了基于逆向强化学习的知识图谱奖励推理模型,最后将路径推理模型推广到不确定性知识图谱上,提出了基于因果推断的不确定性知识图谱推理方法。本文的主要研究工作如下:(1)提出了融合表示学习与规则学习的路径推理模型。针对强化学习模型在知识图谱推理任务中所存在的奖励稀疏、动作空间大等问题,提出了表示学习与规则学习共同优化的奖励函数,并设计了包含关系策略网络与实体策略网络的智能体架构,引入多种优化机制,最后通过实验结果证明了提出模型的有效性。(2)提出了基于逆向强化学习的知识图谱奖励推理模型。针对路径推理模型中启发式奖励所导致的奖励可靠性低、奖励不准确等问题,从规则奖励与命中奖励两方面出发,设计了基于智能体轨迹更新的自适应规则奖励学习机制与基于智能体策略进行迭代的命中奖励学习机制,并设计了一种奖励随机失活机制,进一步探索多样化的奖励函数,最后通过实验结果证明了提出模型的有效性。(3)提出了基于因果推断的不确定性知识图谱推理模型,常规路径推理模型不适用于不确定性知识图谱,对此,设计了能够捕捉路径不确定性的推理智能体,并通过因果推断框架来解决多条路径带来的不确定性歧义问题,实验结果证明了所提出模型的有效性。
面向去除偏差问题的强化推荐系统技术研究
这是一篇关于流行度偏差,曝光偏差,强化推荐系统技术,因果推断,用户聚类的论文, 主要内容为近年来,随着全球数字化转型的持续深入,人们日常生活的方方面面都被互联网技术所革新优化,信息的生产和传播速度达到了人类历史的巅峰。在数字化进程中,推荐系统是不可或缺的重要生产力之一,优秀的推荐系统可以提高人们接受信息的效率,帮助用户深度挖掘兴趣点,带给使用者更好的使用体验,同时还可以帮助内容提供方获取更多的收益。然而为了实现“千人千面”的个性化推荐效果,推荐系统需要解决各式各样的问题,其中一个非常值得探索的方向就是偏差问题。由于其隐蔽性,偏差问题正在难以觉察地损害着个性化推荐目标。故本文结合强化推荐算法,深入研究了推荐系统常见偏差中的流行度偏差问题与曝光偏差问题的产生来源和作用机制,提出了消除相应偏差影响的强化推荐算法,并在多个数据集上进行了有效性验证,主要研究内容如下:(1)设计了基于结构因果推断的Popularity Separate(PS)强化推荐算法框架,并结合两类经典的强化推荐算法DQN、REINFORCE,构造了PS-DQN与PSREINFORCE模型。本文通过研究用户对物品的交互倾向与流行度因子之间的因果关系,识别出流行度因子为其中的混杂因子,并利用后门调整手段去除混杂因子的影响,从而缓解流行度偏差。并在三个不同规模的真实数据集上,测试对比了算法的推荐性能和流行度推荐倾向,结果均证明了算法的有效性。(2)提出了User Based Reward Shift Deep Q-Learning(URS-DQN)算法。本文研究了曝光偏差的产生机制,针对交互数据中负反馈的不准确性提出了面向用户的Reward Shift方法,在对用户聚类后迁移同类用户的交互倾向,并结合经典的强化推荐算法DQN,提出了URS-DQN算法,缓解曝光偏差的影响,更准确地提取用户的真实兴趣爱好。在实验验证上,本文在三个数据集上与四个基线算法进行了对比分析,实验结果显示URS-DQN算法的推荐性能和训练效率都更好。除此之外,还通过多个消融实验,对算法各个模块的有效性进行了探究和实证。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码工坊 ,原文地址:https://bishedaima.com/lunwen/49184.html