对话系统中主题一致性和回复多样性的研究与实现
这是一篇关于神经网络,开放域对话,变分自编码器,风格化,预训练模型的论文, 主要内容为自然语言处理(Natural Language Process,NLP)领域对于能够和人类无障碍交流的机器人的研究极大地促进了人机对话相关课题的发展,近年来大量的人力物力投入到相关的研发工作中,这对推动对话机器人的发展和加快相关产业的落地具有重要意义。本篇论文着重在人机对话领域下的开放域多轮对话子课题中展开研究,针对当前多轮对话模型中仍旧存在的两大问题:生成的主题一致性较低和回复缺乏多样性,本文提出两种创新算法并实现了一个WEB对话机器人系统。具体的工作内容如下:第一,针对主题一致性低的问题提出并实现了 GVDialog算法。在层次对话模型ReCoSa的基础上增加了 一层以随机重建上下文为训练目标的变分自编码器,无需人工标注即可捕捉全局信息如主题、对话背景等并由这些信息来指导模型生成后续主题一致的回复。与基线模型的对比实验和人工测评均证明该算法能够提高回复的一致性。第二,针对模型回复缺乏多样性的问题,本文提出DisentFusion算法实现风格化生成,利用不同的风格来提高回复的多样性。该模型在大规模预训练模型Optimus上提出实现风格、主题、内容三个层级的隐变量分离,并设计了稀释加排除的方法来更好地分离隐变量。在对比基线模型的实验中,该算法表现出了较高的风格化程度并保持了较好的内容一致性。第三,本文实现一个WEB对话机器人系统,其前端采用Vue框架搭建聊天界面,后端采用Flask设计数据接口,并将上述所有两种算法实现并部署至后端,最终实现一个完整的对话系统。系统测试表明该系统能够实现对话的基本功能,也能够满足实时性要求。
基于双边自编码器的协同推荐算法研究
这是一篇关于推荐算法,评分预测,特征统一交互,变分自编码器的论文, 主要内容为信息时代互联网技术的迅速发展造成了严重的信息过载,推荐系统是缓解信息过载现象的有效途径,它通过对用户和物品的特征进行分析,帮助用户从海量信息中挑选出可能感兴趣的内容。用户-物品评分矩阵记载了用户和商品的交互信息,可以被作为抽取用户和物品特征的信息来源。基于双边自编码器的推荐算法中两个自编码器独立工作,导致相同特征经两个不同的自编码器处理后可能会具有不同的表现形式,且最终的特征交互不具备修正功能,因此算法的性能很大程度上依赖于两个自编码器特征提取的结果一致性;同时,基本的自编码器没有考虑样本的概率分布特性,不具备生成能力,因此重构得到的样本可能会存在不具备实际意义的情况。基于此,提出一种改进的基于双边自编码器的协同推荐算法,该算法以用户-物品评分矩阵为输入信息,以补全的评分矩阵为输出信息。(1)提出一种基于双边自编码器特征统一的协同推荐算法。将多层感知机作为模型的特征统一变换模块,使自编码器抽取到的特征向量经变换处理后再进行特征交互,提高了特征提取和特征交互间的协作性。经实验,所提模型的准确率获得了提升。此外,为深入研究各模块的作用,本文将提出的基于双边自编码器特征统一交互的协同推荐算法模型分解为“特征提取”和“特征统一交互”模块,并通过若干组对比实验验证各模块的必要性。(2)提出基于变分自编码器的推荐算法。考虑到变分自编码器在编码过程中添加了特征分布约束,因此具有较好的生成能力且鲁棒性更强,本文考虑将变分自编码器替换模型中的基本自编码器,并提出基于变分自编码器的推荐算法。经实验,使用变分自编码器的模型具有更小的误差。
面向精准营销的寿险客户聚类算法研究
这是一篇关于保险客户管理系统,深度聚类模型,变分自编码器,K-means++聚类模型的论文, 主要内容为随着人工智能技术的快速发展,保险行业也积极引入人工智能技术来提升销售效率。为实现精准营销,保险代理人希望能够从客户中尽量精准地识别出目标客户。目前中国太平保险公司现存管理系统仅支持通过基础过滤条件进行查询,无法满足代理人的业务需求。本研究以解决中国太平保险公司代理人在目标客户识别方面的问题为出发点,旨在提升客户管理系统的准确性和效率。简言之,本文通过研究客户聚类算法,为“目标客户判断问题”提供支持。本文的研究工作主要包括:(1)为契合营销的业务需求,本文提出了一种新颖的基于熵值法的深度嵌入式聚类模型(DEC-EM,Deep Embedded Clustering with Entropy Method)。作为模型的研究基础,本文首先提出了一套客户数据集处理方案。通过数据采集、清洗、脱敏等步骤,成功地为中国太平构建了一套更为精准的客户数据集,填补了该公司在客户数据集构建方面的空白同时为不同算法的聚类效果对比提供真实的数据集。通过在本文构建的数据集和公开数据集上的对比实验和消融实验证明,与传统的深度嵌入式聚类模型(DEC,Deep Embedded Clustering)相比,DEC-EM在DB指数、CH指数以及SC指数这三个性能指标上都有显著提升,这一进步主要归功于熵值法的特征权重确定机制,验证了基于熵值法的特征权重确定机制对聚类效果的积极影响。(2)为提升DEC-EM模型的稳定性和鲁棒性,本文提出了一种基于变分自编码器的稳定聚类模型(SVDEC-EM,Stable Variational Deep Embedded Clustering with Entropy Method)。这个新模型采用K-means++算法和高斯核函数来更精准地确定聚类中心,并将变分自编码器(VAE,Variational Autoencoder)的“噪声”生成能力引入到DEC-EM框架中。实验证明,SVDEC-EM模型稳定性确实优于DEC-EM模型,进一步的对比发现引入VAE后的DEC-EM模型在公共数据集上的表现优于传统模型,例如SVDECEM模型在Seeds数据集上的SC指标相对于DEM-EM模型提升了16.63%。(3)为更直观有效地显示聚类结果,本文在现有系统架构的基础上开发了一个“客户聚类”模块并引入了知识图谱进行可视化。该系统使用Spring Boot框架,并遵循MVC架构,该模块不仅提供单个客户基本信息以及标签信息的查看,还支持不同客户子群的可视化。上线后的数据显示该系统不仅提高了保险代理人的营销精准度,还为产品经理提供了有用的数据参考,从而提升了整体的客户管理效率。
基于概率图模型的个性化推荐算法研究与并行实现
这是一篇关于概率图模型,吉布斯采样,变分自编码器,协同过滤,期望最大化算法的论文, 主要内容为随着互联网的高速发展,很多电子商务平台逐渐兴起并提高了大众生活质量,但随着数据规模的爆炸式增长,正在使用推荐系统的互联网平台(如阿里巴巴、Paper Weekly等)面临着严重的信息过载问题,无法针对用户特点做有效的个性化推荐。由于传统推荐算法的模型表达能力不够强,而概率图模型同时具有概率论和图论的优势,故可使用概率图模型对推荐问题中各变量之间的依赖关系提供解释性更强的建模,但很多基于概率图模型的推荐算法在求解参数时仅使用朴素的零均值球形高斯先验分布,无法实现迭代式参数求解,因而对已有商品(in-matrix)推荐效果较差;其次,很多推荐算法无法解决冷启动问题,即刚进入系统的新商品(out-of-matrix)会由于没有任何购买历史而很难将其推荐给任何用户;此外,有些推荐算法虽然融合了社会化信息以缓解评分矩阵稀疏度过高的问题,但并未考虑用户间的信任曝光因素;最后,推荐算法的时间复杂度往往很高,程序运行效率偏低。为了解决上述问题,本文主要针对曝光矩阵分解算法(Exposure Matrix Factorization,Expo MF)进行研究,提出了两个改进的算法,主要工作如下:(1)提出基于变分自编码器的混合推荐算法(Variational Autoencoder-based Hybrid Recommendation,VAHR)。在Expo MF算法的概率图模型的基础上,使用吉布斯采样做参数的推断,从而将某参数在前一次迭代中得到的完整条件分布作为其下一次迭代的先验分布,依靠先验分布与似然函数之间的共轭关系直接得出后验分布的解析解,以此实现迭代式的参数推断;使用最大后验概率-期望最大化算法实现迭代式的参数估计,并分析两种求解方式的异同;通过变分自编码器抽取用户曝光向量的隐特征并重构,以此预测各商品对于该用户的曝光概率;利用以上推断出的参数训练得到一个可提取商品隐特征的变分自编码器,以此解决新商品的推荐问题。实验表明,VAHR与其他同类型的算法相比,对于in-matrix和out-of-matrix问题都能有效地提高召回率。(2)提出基于曝光的社会化推荐算法(Exposure-Based Social Recommendation,EBSR)。在VAHR算法的基础上融合社会化标签和社交信任关系两类社会化信息来提取用户和商品的隐特征,以缓解矩阵稀疏度问题;考虑到社交信任关系矩阵中的负反馈值可能受到用户之间信任曝光因素的影响,于是在使用用户-商品评分曝光隐变量的基础上进一步引入用户-用户信任曝光隐变量;在用户-商品评分及用户-用户信任关系两种观测变量的生成过程中引入校正偏置项,以实现可解释性更强的建模;最后使用吉布斯采样和最大后验概率-期望最大化算法迭代地求解参数,并分析两种求解方式的异同;考虑到EBSR算法中吉布斯采样的并行性,利用Java提供的并行框架Fork/Join优化算法的运行速度。通过在Last.fm以及爬取得到的知乎数据集上的实验表明,EBSR与同类型的算法相比能有效地提高评分预测精度,并通过并行实现可达到较高的加速比。
对话系统中主题一致性和回复多样性的研究与实现
这是一篇关于神经网络,开放域对话,变分自编码器,风格化,预训练模型的论文, 主要内容为自然语言处理(Natural Language Process,NLP)领域对于能够和人类无障碍交流的机器人的研究极大地促进了人机对话相关课题的发展,近年来大量的人力物力投入到相关的研发工作中,这对推动对话机器人的发展和加快相关产业的落地具有重要意义。本篇论文着重在人机对话领域下的开放域多轮对话子课题中展开研究,针对当前多轮对话模型中仍旧存在的两大问题:生成的主题一致性较低和回复缺乏多样性,本文提出两种创新算法并实现了一个WEB对话机器人系统。具体的工作内容如下:第一,针对主题一致性低的问题提出并实现了 GVDialog算法。在层次对话模型ReCoSa的基础上增加了 一层以随机重建上下文为训练目标的变分自编码器,无需人工标注即可捕捉全局信息如主题、对话背景等并由这些信息来指导模型生成后续主题一致的回复。与基线模型的对比实验和人工测评均证明该算法能够提高回复的一致性。第二,针对模型回复缺乏多样性的问题,本文提出DisentFusion算法实现风格化生成,利用不同的风格来提高回复的多样性。该模型在大规模预训练模型Optimus上提出实现风格、主题、内容三个层级的隐变量分离,并设计了稀释加排除的方法来更好地分离隐变量。在对比基线模型的实验中,该算法表现出了较高的风格化程度并保持了较好的内容一致性。第三,本文实现一个WEB对话机器人系统,其前端采用Vue框架搭建聊天界面,后端采用Flask设计数据接口,并将上述所有两种算法实现并部署至后端,最终实现一个完整的对话系统。系统测试表明该系统能够实现对话的基本功能,也能够满足实时性要求。
结合知识图谱的变分自编码器零样本图像识别研究
这是一篇关于知识图谱,零样本学习,变分自编码器,域偏移,语义间隔的论文, 主要内容为结合生成模型的零样本算法通常仅使用属性注释,缺少类别语义,而单一信息对类别表征能力不够强,两模态特征之间存在语义间隔,容易产生域偏移,影响知识迁移的效果,进而降低分类结果的准确率。为了解决此问题,提出一种结合知识图谱的变分自编码器零样本识别算法(KG-VAE)。首先,通过构建联合类别分级结构,类别文本描述和词向量的层次结构化知识图谱做为语义信息库,将知识图谱中丰富的语义知识结合到以变分自编码器为基础的生成模型中;其次,通过最小化服从高斯分布参数间的距离,使生成的潜在特征更好保留有效的判定性信息,减小不同模态间的语义间隔;最后,通过交叉重构已生成的不同模态下的潜在特征来学习跨模态映射关系,实现分类功能。本文模型在四个公开的零样本数据集上进行了实验,对比一些经典算法,分类平均准确率均有一定的提高;同时利用消融实验证明了知识图谱作为语义辅助信息的有效性。该论文有图34幅,表7个,参考文献61篇。
面向精准营销的寿险客户聚类算法研究
这是一篇关于保险客户管理系统,深度聚类模型,变分自编码器,K-means++聚类模型的论文, 主要内容为随着人工智能技术的快速发展,保险行业也积极引入人工智能技术来提升销售效率。为实现精准营销,保险代理人希望能够从客户中尽量精准地识别出目标客户。目前中国太平保险公司现存管理系统仅支持通过基础过滤条件进行查询,无法满足代理人的业务需求。本研究以解决中国太平保险公司代理人在目标客户识别方面的问题为出发点,旨在提升客户管理系统的准确性和效率。简言之,本文通过研究客户聚类算法,为“目标客户判断问题”提供支持。本文的研究工作主要包括:(1)为契合营销的业务需求,本文提出了一种新颖的基于熵值法的深度嵌入式聚类模型(DEC-EM,Deep Embedded Clustering with Entropy Method)。作为模型的研究基础,本文首先提出了一套客户数据集处理方案。通过数据采集、清洗、脱敏等步骤,成功地为中国太平构建了一套更为精准的客户数据集,填补了该公司在客户数据集构建方面的空白同时为不同算法的聚类效果对比提供真实的数据集。通过在本文构建的数据集和公开数据集上的对比实验和消融实验证明,与传统的深度嵌入式聚类模型(DEC,Deep Embedded Clustering)相比,DEC-EM在DB指数、CH指数以及SC指数这三个性能指标上都有显著提升,这一进步主要归功于熵值法的特征权重确定机制,验证了基于熵值法的特征权重确定机制对聚类效果的积极影响。(2)为提升DEC-EM模型的稳定性和鲁棒性,本文提出了一种基于变分自编码器的稳定聚类模型(SVDEC-EM,Stable Variational Deep Embedded Clustering with Entropy Method)。这个新模型采用K-means++算法和高斯核函数来更精准地确定聚类中心,并将变分自编码器(VAE,Variational Autoencoder)的“噪声”生成能力引入到DEC-EM框架中。实验证明,SVDEC-EM模型稳定性确实优于DEC-EM模型,进一步的对比发现引入VAE后的DEC-EM模型在公共数据集上的表现优于传统模型,例如SVDECEM模型在Seeds数据集上的SC指标相对于DEM-EM模型提升了16.63%。(3)为更直观有效地显示聚类结果,本文在现有系统架构的基础上开发了一个“客户聚类”模块并引入了知识图谱进行可视化。该系统使用Spring Boot框架,并遵循MVC架构,该模块不仅提供单个客户基本信息以及标签信息的查看,还支持不同客户子群的可视化。上线后的数据显示该系统不仅提高了保险代理人的营销精准度,还为产品经理提供了有用的数据参考,从而提升了整体的客户管理效率。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码导航 ,原文地址:https://bishedaima.com/lunwen/47775.html