基于生成对抗网络的在线交易反欺诈方法研究
这是一篇关于交易反欺诈,生成对抗网络(GAN),Wasserstein GAN(WGAN),Gumbel-softmax技巧,不平衡数据的论文, 主要内容为随着全世界都致力于互联网金融和网络贸易的推进,物流、电商和在线交易已经融入到人们生活生产的每一个部分。第三方支付交易平台已经成为连接零售商、消费者和银行的媒介,互联网金融和电子商务的发展使人们足不出户就能够进行交易和买卖。但是随着在线交易的人数和规模的不断激增,不同形式的在线交易欺诈行为也层出不穷。因此如何能够提前发现在线交易欺诈行为和发出预警已经非常重要,这对于保护消费者和商家的利益有非常重大的意义。对于在线交易欺诈检测研究的主要难点和问题:一是欺诈数据的严重不平衡问题,二是传统重采样方法过度依赖原始数据以及存在随机性地问题。针对这些问题,本文从数据的角度出发,对在线交易数据的不平衡分类问题创新性地提出了两种解决方法。本文的主要研究工作如下,其中(2)和(3)为本文的创新性工作。(1)介绍了在线交易反欺诈的研究背景以及目前的解决方法以及理论基础。(2)针对在线交易反欺诈中的数据严重不平衡以及传统采样方法存在随机性的问题,基于传统的SMOTE算法和逻辑回归算法提出的一种欺诈检测方法KSK-LR,其主要思想就是结合逻辑回归算法的结构简单、分类效果好和SMOTE算法的重采样效果好的优点,再结合数据的特点进行Key特征提取,减少重采样的随机性和提高分类器的分类效果。(3)针对KSK-LR方法以及传统重采样方法只是对原始数据进行加权合成生成新的样本,存在过度依赖原始数据的问题,将对抗生成网络GAN应用到在线交易数据的少数类样本的生成,提出了 KGC-WGAN模型,其核心思想是通过GAN中的生成器和训练器的对抗训练,生成出高质量的欺诈样本,减少生成过程中原始信息的丢失。该方法结合WGAN和CGAN,并将Key特征应用于数据生成,克服了 GAN难以生成离散数据的不足,生成出高质量的欺诈数据。通过实验结果看出本文提出KGC-WGAN的AUC明显高于SMOTE及其变种的重采样方法。(4)基于理论研究和方法设计的基础上,设计并实现了在线交易反欺诈系统。在线交易反欺诈系统由数据发布处理子系统和欺诈检测子系统构成。数据发布处理子系统主要进行数据的上传、处理和展示,欺诈检测子系统主要进行模型训练过程、数据生成质量和检测结果的展示。
基于生成对抗网络的在线交易反欺诈方法研究
这是一篇关于交易反欺诈,生成对抗网络(GAN),Wasserstein GAN(WGAN),Gumbel-softmax技巧,不平衡数据的论文, 主要内容为随着全世界都致力于互联网金融和网络贸易的推进,物流、电商和在线交易已经融入到人们生活生产的每一个部分。第三方支付交易平台已经成为连接零售商、消费者和银行的媒介,互联网金融和电子商务的发展使人们足不出户就能够进行交易和买卖。但是随着在线交易的人数和规模的不断激增,不同形式的在线交易欺诈行为也层出不穷。因此如何能够提前发现在线交易欺诈行为和发出预警已经非常重要,这对于保护消费者和商家的利益有非常重大的意义。对于在线交易欺诈检测研究的主要难点和问题:一是欺诈数据的严重不平衡问题,二是传统重采样方法过度依赖原始数据以及存在随机性地问题。针对这些问题,本文从数据的角度出发,对在线交易数据的不平衡分类问题创新性地提出了两种解决方法。本文的主要研究工作如下,其中(2)和(3)为本文的创新性工作。(1)介绍了在线交易反欺诈的研究背景以及目前的解决方法以及理论基础。(2)针对在线交易反欺诈中的数据严重不平衡以及传统采样方法存在随机性的问题,基于传统的SMOTE算法和逻辑回归算法提出的一种欺诈检测方法KSK-LR,其主要思想就是结合逻辑回归算法的结构简单、分类效果好和SMOTE算法的重采样效果好的优点,再结合数据的特点进行Key特征提取,减少重采样的随机性和提高分类器的分类效果。(3)针对KSK-LR方法以及传统重采样方法只是对原始数据进行加权合成生成新的样本,存在过度依赖原始数据的问题,将对抗生成网络GAN应用到在线交易数据的少数类样本的生成,提出了 KGC-WGAN模型,其核心思想是通过GAN中的生成器和训练器的对抗训练,生成出高质量的欺诈样本,减少生成过程中原始信息的丢失。该方法结合WGAN和CGAN,并将Key特征应用于数据生成,克服了 GAN难以生成离散数据的不足,生成出高质量的欺诈数据。通过实验结果看出本文提出KGC-WGAN的AUC明显高于SMOTE及其变种的重采样方法。(4)基于理论研究和方法设计的基础上,设计并实现了在线交易反欺诈系统。在线交易反欺诈系统由数据发布处理子系统和欺诈检测子系统构成。数据发布处理子系统主要进行数据的上传、处理和展示,欺诈检测子系统主要进行模型训练过程、数据生成质量和检测结果的展示。
基于知识图谱的风控模型的研究与实现
这是一篇关于知识图谱,不平衡数据,风控模型,P2P网络贷款,欠采样,特征选择的论文, 主要内容为人类的活动可能总是伴随着风险的发生,风险是一种违背人意愿的行为事件。而风险在人类文明诞生的伊始,就受到了关注。公元前两千年,汉谟拉比法典就有关于火灾保险和货物运输保险的记载。风险管控领域涉及方方面面,对于人们最熟悉的金融机构来说,面临着包括个人信用风险、市场金融风险、流动性风险等。其中信用风险是最为显著的,信用风险主要是指,借款人在与出借人约定的还款日期到期后,却没能按照协议完成还款行为,导致出借人或者相应的金融机构财产损失的风险。这种违约行为无论是出自主观上的不愿意或者出自客观上的经济受限,都与借款人有着一定的联系。本文以P2P网络贷款为研究背景,从借贷样本分析客户,构建完整的风控模型,并建立风控平台。主要工作包括:(1)基于国外搜索引擎公司开发的schema网页标记语言模型去构筑客户的知识图谱数据,该数据模型中包含有一整套类型集合,以多层次的继承结构进行组织。用半结构化数据格式JSO N-LD表述知识图谱信息,将客户信息有机地组织起来,解决数据孤岛问题。(2)样本数据为不平衡数据,即正常样本远远多于违约样本,如果直接使用这种数据集进行分类,会对算法的学习过程造成干扰。而传统的欠采样方案会严重丢失多数类样本的信息。为解决这一问题,通过结合NearMiss算法和K-Means聚类在处理不平衡数据时的优点,提出了CBNM(Clustering-Based NearMiss)算法。CBNM算法在F-Measure和G-Mean上有显著提升,对分类效果的改进明显。(3)传统的风控模型从信用等级、违约概率出发,提供信用参考。在此基础上,建立由规则推导而成的标签模型,从多角度描述用户,构建客户画像。最后将特征处理后的数据与标签数据进行比较。实验表明,标签模型能够提升分类任务的效果。(4)完成对用户信用等级和是否违约的预测。实现风控平台,该平台主要可以维护知识图谱属性,并且根据标签、姓名等搜索查询客户详细信息。
基于生成对抗网络的在线交易反欺诈方法研究
这是一篇关于交易反欺诈,生成对抗网络(GAN),Wasserstein GAN(WGAN),Gumbel-softmax技巧,不平衡数据的论文, 主要内容为随着全世界都致力于互联网金融和网络贸易的推进,物流、电商和在线交易已经融入到人们生活生产的每一个部分。第三方支付交易平台已经成为连接零售商、消费者和银行的媒介,互联网金融和电子商务的发展使人们足不出户就能够进行交易和买卖。但是随着在线交易的人数和规模的不断激增,不同形式的在线交易欺诈行为也层出不穷。因此如何能够提前发现在线交易欺诈行为和发出预警已经非常重要,这对于保护消费者和商家的利益有非常重大的意义。对于在线交易欺诈检测研究的主要难点和问题:一是欺诈数据的严重不平衡问题,二是传统重采样方法过度依赖原始数据以及存在随机性地问题。针对这些问题,本文从数据的角度出发,对在线交易数据的不平衡分类问题创新性地提出了两种解决方法。本文的主要研究工作如下,其中(2)和(3)为本文的创新性工作。(1)介绍了在线交易反欺诈的研究背景以及目前的解决方法以及理论基础。(2)针对在线交易反欺诈中的数据严重不平衡以及传统采样方法存在随机性的问题,基于传统的SMOTE算法和逻辑回归算法提出的一种欺诈检测方法KSK-LR,其主要思想就是结合逻辑回归算法的结构简单、分类效果好和SMOTE算法的重采样效果好的优点,再结合数据的特点进行Key特征提取,减少重采样的随机性和提高分类器的分类效果。(3)针对KSK-LR方法以及传统重采样方法只是对原始数据进行加权合成生成新的样本,存在过度依赖原始数据的问题,将对抗生成网络GAN应用到在线交易数据的少数类样本的生成,提出了 KGC-WGAN模型,其核心思想是通过GAN中的生成器和训练器的对抗训练,生成出高质量的欺诈样本,减少生成过程中原始信息的丢失。该方法结合WGAN和CGAN,并将Key特征应用于数据生成,克服了 GAN难以生成离散数据的不足,生成出高质量的欺诈数据。通过实验结果看出本文提出KGC-WGAN的AUC明显高于SMOTE及其变种的重采样方法。(4)基于理论研究和方法设计的基础上,设计并实现了在线交易反欺诈系统。在线交易反欺诈系统由数据发布处理子系统和欺诈检测子系统构成。数据发布处理子系统主要进行数据的上传、处理和展示,欺诈检测子系统主要进行模型训练过程、数据生成质量和检测结果的展示。
面向不平衡数据分类的集成学习方法研究与应用
这是一篇关于不平衡数据,集成,重采样,多目标优化,乳腺癌诊断的论文, 主要内容为在信息化时代,随着数据获取能力的提升和存储技术的进步,如何从数据中获取有价值的信息成为很多行业的研究热点问题。然而在现实世界中,很多数据存在类别不平衡问题。传统机器学习算法对不平衡数据分类性能不佳,而集成分类器因其良好的泛化能力,降低了不平衡数据对单个分类器的影响,成为不平衡数据分类问题中的研究热点。本文从重采样和多目标优化集成两个角度提出两种不平衡数据分类方法,并应用到乳腺癌辅助诊断中。本文的主要工作如下:(1)为了在过采样过程中更加重视重叠样本并降低分类器对重叠少数类样本的过拟合问题,提出一种基于局部采样的不平衡数据集成分类方法(BLS-IE)。首先引入一种基于难学系数的加权枚举采样策略,利用难学系数标记重叠样本的难学程度,并通过迭代生成空间分布不同的质点,用于引导构建多样性的样本子集。然后利用提出的基于高斯扰动的数据处理策略,对样本子集中重复选择的少数类样本进行扰动,降低分类器对重复选择的重叠少数类样本过拟合。在多个真实不平衡数据集上的实验结果表明,BLS-IE能够从数据层面提高分类器在不平衡数据上的分类性能。(2)为了缓解欠采样方法容易丢失重要信息以及单个分类器的弱稳定性造成多目标优化集成不是最优集成的问题,提出一种基于多目标优化层次集成的不平衡数据分类方法(MOILE)。首先基于BLS-IE中的思想改进一种基于密度的欠采样方法,在减小多数类样本丢失重要信息风险的同时,提高样本子集的多样性。然后结合基于多目标优化的层次集成策略,将样本子集训练得到的异质基分类器进行集成作为子集成分类器,并使用多目标优化算法以精确率与召回率为优化目标,选择多个子集成分类器做非线性集成。在大量不平衡数据集上进行实验,并且将本算法与现有的主流不平衡算法进行比较,全面系统的证明了本算法的有效性。(3)设计并实现基于多目标优化层次集成方法的乳腺癌辅助诊断系统。使用Vue技术设计人机交互界面,利用Java和Python实现系统的业务逻辑和核心算法,使用My SQL实现数据库存储。原型系统包括用户登录模块,数据管理模块和基于多目标优化层次集成方法的乳腺癌辅助诊断模块。该系统可以有效的实现对乳腺癌辅助诊断。
基于机器学习算法的二手车用户交易意向模型分析
这是一篇关于用户交易意向,不平衡数据,Logistic回归,随机森林,XGBoost的论文, 主要内容为基于中国二手车行业的数字化需要,二手车电商平台的发展日益成熟。二手车电商平台的交易模式也逐渐丰富多彩起来,其中C2B模式作为一种重要的交易模式,对二手车市场的发展有着不容忽视的作用。基于二手车电商平台C2B交易模式,从用户角度研究用户行为,把握用户行为意向,促进二手车线上交易的转化,对于C2B交易模式甚至汽车市场的发展都有重要意义。本文利用某二手车电商平台C2B模式下用户行为数据,探究用户行为对用户交易意向的影响。首先对于杂乱的实际工程数据进行数据清洗、数据变换等处理,包括缺失值的填补与预处理、对数值型变量进行分箱、分类变量的量化编码。其次针对类别不平衡数据,从数据层面进行重抽样处理,对比原始数据与随机欠采样、随机过采样以及SMOTE算法处理后的数据在不同模型上的预测效果,以召回率和AUC值作为模型的度量指标,最终采用随机欠采样处理不平衡数据。最后分别用Logistic回归、随机森林、XGBoost算法构建用户交易意向模型。Logistic回归中加入L1正则化以防止过拟合并进行变量选择;随机森林和XGBoost算法采用基于欠采样的特征重要性的变量选择方法选取部分变量并拟合模型。通过对各个模型的召回率和AUC值的评价得出,随机森林的预测效果最好。从变量对用户意向的影响程度来看,一级来源、变量信息填写、用户身份信息、车龄、里程等变量对用户交易意向有影响。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计驿站 ,原文地址:https://bishedaima.com/lunwen/52424.html