面向不平衡数据分类的集成学习方法研究与应用
这是一篇关于不平衡数据,集成,重采样,多目标优化,乳腺癌诊断的论文, 主要内容为在信息化时代,随着数据获取能力的提升和存储技术的进步,如何从数据中获取有价值的信息成为很多行业的研究热点问题。然而在现实世界中,很多数据存在类别不平衡问题。传统机器学习算法对不平衡数据分类性能不佳,而集成分类器因其良好的泛化能力,降低了不平衡数据对单个分类器的影响,成为不平衡数据分类问题中的研究热点。本文从重采样和多目标优化集成两个角度提出两种不平衡数据分类方法,并应用到乳腺癌辅助诊断中。本文的主要工作如下:(1)为了在过采样过程中更加重视重叠样本并降低分类器对重叠少数类样本的过拟合问题,提出一种基于局部采样的不平衡数据集成分类方法(BLS-IE)。首先引入一种基于难学系数的加权枚举采样策略,利用难学系数标记重叠样本的难学程度,并通过迭代生成空间分布不同的质点,用于引导构建多样性的样本子集。然后利用提出的基于高斯扰动的数据处理策略,对样本子集中重复选择的少数类样本进行扰动,降低分类器对重复选择的重叠少数类样本过拟合。在多个真实不平衡数据集上的实验结果表明,BLS-IE能够从数据层面提高分类器在不平衡数据上的分类性能。(2)为了缓解欠采样方法容易丢失重要信息以及单个分类器的弱稳定性造成多目标优化集成不是最优集成的问题,提出一种基于多目标优化层次集成的不平衡数据分类方法(MOILE)。首先基于BLS-IE中的思想改进一种基于密度的欠采样方法,在减小多数类样本丢失重要信息风险的同时,提高样本子集的多样性。然后结合基于多目标优化的层次集成策略,将样本子集训练得到的异质基分类器进行集成作为子集成分类器,并使用多目标优化算法以精确率与召回率为优化目标,选择多个子集成分类器做非线性集成。在大量不平衡数据集上进行实验,并且将本算法与现有的主流不平衡算法进行比较,全面系统的证明了本算法的有效性。(3)设计并实现基于多目标优化层次集成方法的乳腺癌辅助诊断系统。使用Vue技术设计人机交互界面,利用Java和Python实现系统的业务逻辑和核心算法,使用My SQL实现数据库存储。原型系统包括用户登录模块,数据管理模块和基于多目标优化层次集成方法的乳腺癌辅助诊断模块。该系统可以有效的实现对乳腺癌辅助诊断。
针对复杂场景的TSK模糊分类器集成方法研究
这是一篇关于集成分类器,TSK模糊分类器,不平衡数据,可解释性,大规模数据的论文, 主要内容为近年来,随着科技水平的快速发展,社会上的各个领域都在积极的与人工智能领域进行融合,例如智慧校园、智能化医疗系统、电子警察等等。在人工智能快速发展的背景下,机器学习作为人工智能的诸多领域之中最能够体现智能的分支,更是在推荐系统、人脸识别、疾病检测等诸多应用场景中得到了成功且广泛的应用。对于传统的机器学习算法而言,在各种不同应用场景中的使用既是机遇,更是挑战。TSK模糊系统和传统的神经网络面对这些不同数据场景时,往往会出现如下的问题:在使用类别不平衡的原始数据进行学习建模时,得到的模型往往会忽略少数类样本;在使用复杂的原始数据进行学习建模时,模型从复杂数据中获得的知识难以通过现实语义进行解释。在使用大规模的原始数据进行学习建模时,模型的性能通常较差而且训练时间往往过长。针对上述问题,本文将在现有经典机器学习领域的基础上,通过构建不同的集成架构以及改良特征选择算法,以期提高TSK模糊系统和传统的神经网络对复杂数据的适应能力。主要内容如下:(1)提出一种基于粒子群优化特征选择算法(Particle Swarm Optimization Feature Selection,PSOFS)和Takagi-Sugeno-Kang(TSK)模糊系统的集成模糊分类器(Parallel Ensemble Fuzzy Neural Network based on PSOFS and TSK,PE_PT_FN),用于处理不平衡数据。首先对训练集中各类样本都进行随机放回抽样,然后将抽样得到的样本并在一起,再独立并行的通过PSOFS算法进行特征选择。PSOFS中不同的位置表示不同的特征子集,初始位置随机的粒子经过多次迭代收敛至最佳位置。每个子集得到一个特征子集用于并行训练多组独立的小型TSK模糊神经网络(TSK Fuzzy Neural Network,TSK_FN)。在样本不平衡的数据场景中,PE_PT_FN能够准确的从数据中获取所需知识。(2)提出一种新型的深度集成TSK模糊分类器(Deep Ensemble TSK Fuzzy Classifier based on Feature Selection of Multi-label and Mutual Information,FMMI_TSK),首先利用基于多标签和互信息的特征选择算法(Feature Selection of Multi-label and Mutual Information,FMMI)从数据集中获得蕴含不同特征信息的特征子集的集合。集合中每个特征子集与对应标签的输出结果相关性最大,特征子集之间相关性最小。然后对每个特征子集进行标签重设,由于每个特征子集中的特征信息都对应着某一类标签,将属于该类标签的数据样本的标签设为1,属于其他标签的数据样本的标签均设为0。对多余数据进行随机删减,得到样本平衡的特征子集。接着通过经典神经网络算法径向基神经网络从特征子集中获取隶属函数,从而获得模糊规则中的前件参数。最后将求解模糊规则中后件参数视为线性回归问题,利用传统神经网络算法极限学习机从模糊隶属值中获得后件参数。FMMI_TSK以人类能够理解的方式从繁杂的数据中提取知识。(3)提出一种基于K-d Tree和K近邻(K Nearest Neighbor,KNN)的并行式集成模糊神经网络(Parallel Ensemble Fuzzy Neural Network based on K-d Tree and KNN,PE_TSK_FN),首先利用K-d Tree算法在数据空间层面将原始数据空间划分成多个独立的矩形子空间,即表现为将原始数据划分成多个子数据集,然后用这些数据集去并行的训练独立的模糊子分类器,最后通过KNN算法从子分类器中挑选出K个最近邻的子分类器进行投票得出最终输出。在大规模数据场景中,PE_TSK_FN的集成结构既能加快模型的训练速度,更能避免模型产生过拟合现象。
生成对抗网络在跨境支付欺诈识别的应用
这是一篇关于生成对抗网络,不平衡数据,跨境欺诈,TOPSIS的论文, 主要内容为近年来我国跨境电商发展趋势迅猛,从国家政策角度看,我国将大力促进跨境电商的发展。随着互联网的发展,信用卡支付作为一种支付方式,越来越多境外用户通过办理信用卡来购买所需商品,由于跨境业务具有数字化、便捷、资金流转迅速等特点,信用卡盗刷等欺诈现象层出不穷,这严重损害了商家和电商平台的利益,影响信用卡行业的健康发展。以往的信用卡欺诈检测主要涉及机器学习算法,常见分类算法对数据要求很高,要求数据集中欺诈样本和正常样本数量相差不大,但现实生活中,跨境电商盗卡盗刷欺诈交易占总体比例很低,要提升预测效果,增强对小样本的识别率非常重要。本文以M公司为例,介绍该公司目前使用的基于规则的交易欺诈风险管理措施,同时使用M公司实际交易数据,采用查准率和查全率两个指标评价专家规则的预测效果,发现效果最优的规则——黑名单的查准率仅为31.91%,查全率为71.99%。针对M公司实际交易数据,本文尝试使用生成对抗网络(GAN)进行数据不平衡处理,同时设置两组对比实验,一组将CNN、SMOTE-CNN、AD ASYN-CNN、Random Under Sampler-CNN与GAN-CNN做对比;另一组将常见的分类算法Random Forest、SVM、Logistic回归与GAN-CNN的效果做对比,以测试集的查全率、查准率、AUC值、F1值、Kappa系数为评估指标,并根据改进的TOPSIS法结合熵值法赋权的效果评价方法综合评价各模型效果。另外本文根据GAN-CNN模型的效果提升和随机森林算法度量的变量重要性为电商平台提出改进建议。研究发现:(1)基于生成对抗网络的预测模型比基于传统不平衡数据处理方法的预测模型效果更好。从实证结果可见,GAN-CNN方法的查准率为1,查全率为0.999632。(2)基于生成对抗网络的预测模型的查全率和查准率比前文实验中提到的效果最好的规则——黑名单规则均有大幅提升,查准率提高了0.6809,查全率提高了0.2797。
面向不平衡数据分类的数据重采样技术研究
这是一篇关于不平衡数据,多分类,时间序列,数据重采样,集成学习的论文, 主要内容为随着信息化技术和计算机硬件的发展,各领域产生并存储了大量数据,研究人员致力于从海量数据中提取出对人类社会有价值的信息,却一直受到数据不平衡问题的困扰。所谓的不平衡数据就是指数据集中某一类样本的数量与其他类别样本数量差距较大,不平衡数据问题广泛存在于恶意流量检测、故障检测、疾病诊断、金融诈骗检测等领域。在处理不平衡数据时,现有的机器学习方法大多性能较差,直接使用以总体分类精度最大为目标的传统分类算法处理不平衡数据,最终训练出的分类模型会偏向于样本数量众多的多数类而忽略少数类,导致少数类的分类精度较低,如何正确分类不平衡数据面临着巨大的挑战。本文围绕不平衡分类问题展开深入的研究,取得的主要研究进展如下:(1)针对不平衡二分类问题,设计开发了基于样本分类困难度的过采样集成算法OSEA。本文引入样本分类困难度这一概念,它反映的是所有影响分类准确的因素对分类器的综合影响。OSEA算法采用过采样算法与集成学习算法结合的方法,用样本分类困难度作为采样权重指导分类器训练过程。在人工合成数据集和现实世界数据集上测试算法性能,OSEA的AUCPRC指标达到91.1%。相比于多个目前性能优良的通用不平衡分类算法,OSEA的多个评价指标有明显提高。(2)针对不平衡多分类问题,设计开发了基于分解策略的混合重采样集成算法MC-HSEA。本文引入球形邻域清理技术,可以在保留邻域样本信息的基础上缓解样本重叠问题。算法应用OVO分解策略简化多分类问题,然后应用球形邻域清理技术对样本进行数据清理,使用过采样集成算法在少数类样本周围的球形区域内进行过采样。在多个不平衡多分类数据集上测试算法性能,相比于4个通用不平衡多分类算法,MC-HSEA算法的m GM平均提高9.93%,Av Acc平均提高9.33%。(3)针对不平衡时间序列分类问题,设计开发了基于共享最近邻相似性的密度聚类欠采样算法SNN-DCUS。本文使用共享最近邻相似性来缓解时间序列数据维度灾难的问题,用密度聚类中核点的概念去处理聚类数据存在不同大小和形状的簇的问题。在多个不平衡时间序列数据集上测试算法,SNN-DCUS算法的F1-score平均提升5.4%,G-mean平均提升7.45%,AUCPRC平均提升7.55%。
基于文本相似度和危险性评估的社区矫正方案推荐技术研究与实现
这是一篇关于社区矫正方案推荐,Word2Vec,关联规则,危险性评估,不平衡数据的论文, 主要内容为社区矫正是我国一项重要制度,对优化刑罚资源配置、提升教育改造质量大有裨益。社区矫正工作能否取得良好成效很大程度上取决于社区矫正工作人员制定的矫正方案是否合理。随着社区矫正工作在全国的推广普及,社区服刑人员数量大幅增加,同时因为社区矫正制度的日趋完善,采集到的社区服刑人员信息也愈发丰富,这都使得矫正工作人员制定矫正方案变得更加困难。目前矫正方案的制定完全依赖于人工对社区服刑人员的信息进行综合分析,需要花费大量的时间和精力,但现阶段司法所配备的矫正工作人员有限,可能因工作任务繁重,不能深入了解社区服刑人员的情况,导致制定的矫正方案流于形式,实施效果较差。另一方面,矫正方案的制定严重依赖矫正工作人员自身的经验,存在较强的主观性,可能因矫正工作人员理论及实践经验的不足,导致制定的矫正方案千篇一律,缺乏针对性。针对上述问题,本文提出了一种个性化社区矫正方案推荐方法,所做的主要工作如下:首先提出了一种基于文本相似度和关联规则的矫正方案推荐方法。通过对社区矫正典型案例进行分析,将其内容分为两部分。第一部分基本情况信息属于短文本,利用基于信息熵和逆文档频率加权的Word2Vec进行向量化表示。第二部分犯罪情况及生活环境信息属于长文本,经过特定文本预处理后使用Doc2Vec建模。根据两部分内容对整体信息的贡献度不同,提出基于权重分配的相似性度量方法,分别计算两部分内容的相似度并赋予不同的权重。之后基于协同过滤思想将相似度最高的社区服刑人员所接受的矫正方案作为推荐方案。通过对矫正方案进行分析,发现其中有些矫正措施经常一起出现,存在着一定的关联关系,提出了一种由频繁项集挖掘关联规则的方法,通过分析矫正措施之间协同出现的规律,挖掘出有价值的关联规则,对已有的推荐结果进行补充。其次提出了一种社区服刑人员危险性评估方法。针对再犯罪数据集涉及敏感信息多、特征多等实际问题,对数据集进行了预处理和特征选择。为了解决再犯罪数据集的不平衡问题,先利用SMOTE算法进行过采样,再引入数据清洗技术Tomek links删除噪声点,之后基于XGBoost算法建立危险性评估模型。根据评估结果,对危险性较高的社区服刑人员补充更为严格的监督管理相关矫正措施。最后在上述研究的基础上,通过对社区矫正工作的实际需求进行分析,设计并实现了社区矫正方案推荐系统。该系统能够为指定社区服刑人员推荐矫正方案,并支持矫正工作人员对给出的方案进行审核和修改。
生成对抗网络在跨境支付欺诈识别的应用
这是一篇关于生成对抗网络,不平衡数据,跨境欺诈,TOPSIS的论文, 主要内容为近年来我国跨境电商发展趋势迅猛,从国家政策角度看,我国将大力促进跨境电商的发展。随着互联网的发展,信用卡支付作为一种支付方式,越来越多境外用户通过办理信用卡来购买所需商品,由于跨境业务具有数字化、便捷、资金流转迅速等特点,信用卡盗刷等欺诈现象层出不穷,这严重损害了商家和电商平台的利益,影响信用卡行业的健康发展。以往的信用卡欺诈检测主要涉及机器学习算法,常见分类算法对数据要求很高,要求数据集中欺诈样本和正常样本数量相差不大,但现实生活中,跨境电商盗卡盗刷欺诈交易占总体比例很低,要提升预测效果,增强对小样本的识别率非常重要。本文以M公司为例,介绍该公司目前使用的基于规则的交易欺诈风险管理措施,同时使用M公司实际交易数据,采用查准率和查全率两个指标评价专家规则的预测效果,发现效果最优的规则——黑名单的查准率仅为31.91%,查全率为71.99%。针对M公司实际交易数据,本文尝试使用生成对抗网络(GAN)进行数据不平衡处理,同时设置两组对比实验,一组将CNN、SMOTE-CNN、AD ASYN-CNN、Random Under Sampler-CNN与GAN-CNN做对比;另一组将常见的分类算法Random Forest、SVM、Logistic回归与GAN-CNN的效果做对比,以测试集的查全率、查准率、AUC值、F1值、Kappa系数为评估指标,并根据改进的TOPSIS法结合熵值法赋权的效果评价方法综合评价各模型效果。另外本文根据GAN-CNN模型的效果提升和随机森林算法度量的变量重要性为电商平台提出改进建议。研究发现:(1)基于生成对抗网络的预测模型比基于传统不平衡数据处理方法的预测模型效果更好。从实证结果可见,GAN-CNN方法的查准率为1,查全率为0.999632。(2)基于生成对抗网络的预测模型的查全率和查准率比前文实验中提到的效果最好的规则——黑名单规则均有大幅提升,查准率提高了0.6809,查全率提高了0.2797。
基于生成对抗网络的在线交易反欺诈方法研究
这是一篇关于交易反欺诈,生成对抗网络(GAN),Wasserstein GAN(WGAN),Gumbel-softmax技巧,不平衡数据的论文, 主要内容为随着全世界都致力于互联网金融和网络贸易的推进,物流、电商和在线交易已经融入到人们生活生产的每一个部分。第三方支付交易平台已经成为连接零售商、消费者和银行的媒介,互联网金融和电子商务的发展使人们足不出户就能够进行交易和买卖。但是随着在线交易的人数和规模的不断激增,不同形式的在线交易欺诈行为也层出不穷。因此如何能够提前发现在线交易欺诈行为和发出预警已经非常重要,这对于保护消费者和商家的利益有非常重大的意义。对于在线交易欺诈检测研究的主要难点和问题:一是欺诈数据的严重不平衡问题,二是传统重采样方法过度依赖原始数据以及存在随机性地问题。针对这些问题,本文从数据的角度出发,对在线交易数据的不平衡分类问题创新性地提出了两种解决方法。本文的主要研究工作如下,其中(2)和(3)为本文的创新性工作。(1)介绍了在线交易反欺诈的研究背景以及目前的解决方法以及理论基础。(2)针对在线交易反欺诈中的数据严重不平衡以及传统采样方法存在随机性的问题,基于传统的SMOTE算法和逻辑回归算法提出的一种欺诈检测方法KSK-LR,其主要思想就是结合逻辑回归算法的结构简单、分类效果好和SMOTE算法的重采样效果好的优点,再结合数据的特点进行Key特征提取,减少重采样的随机性和提高分类器的分类效果。(3)针对KSK-LR方法以及传统重采样方法只是对原始数据进行加权合成生成新的样本,存在过度依赖原始数据的问题,将对抗生成网络GAN应用到在线交易数据的少数类样本的生成,提出了 KGC-WGAN模型,其核心思想是通过GAN中的生成器和训练器的对抗训练,生成出高质量的欺诈样本,减少生成过程中原始信息的丢失。该方法结合WGAN和CGAN,并将Key特征应用于数据生成,克服了 GAN难以生成离散数据的不足,生成出高质量的欺诈数据。通过实验结果看出本文提出KGC-WGAN的AUC明显高于SMOTE及其变种的重采样方法。(4)基于理论研究和方法设计的基础上,设计并实现了在线交易反欺诈系统。在线交易反欺诈系统由数据发布处理子系统和欺诈检测子系统构成。数据发布处理子系统主要进行数据的上传、处理和展示,欺诈检测子系统主要进行模型训练过程、数据生成质量和检测结果的展示。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码港湾 ,原文地址:https://bishedaima.com/lunwen/47850.html