广义线性模型基于Elastic Net的变量选择方法研究
这是一篇关于广义线性模型,变量选择,Lasso,Elastic Net,Logistic回归,Poisson回归的论文, 主要内容为模型的变量选择是统计建模中很重要的问题之一,关于线性模型的变量选择研究,前人已经做了很多工作,尤其引人注目的是1996年Tibshirani提出的Lasso方法,它可以同时做到变量的选择和参数的估计。随着解决此类问题的有效算法LARS的提出,Lasso及其相关改进方法的研究已经成为了当今统计学界的热门问题。Elastic Net是Lasso的一种有效改进方法,它在处理微阵列数据方面要显著优于Lasso法,即当数据中的变量间存在组效应时,ElasticNet方法能够将群变量全部选出。本文将该方法应用于广义线性模型,分别在Logistic模型和Poisson模型中推广了Elastic Net估计的这一性质,证明了这两种模型在研究数据存在组效应情况下,Elastic Net方法同样可以将群变量全部选出。另外,本文还通过实际的和模拟的数据例子,分析验证了Elastic Net方法相比于Lasso方法和Ridge方法在模型变量选择方面的良好表现。 本文第一章回顾了普通线性模型和广义线性模型在变量选择方面的研究进展,第二章介绍了广义线性模型和Elastic Net方法的一些相关预备知识,第三章和第四章则将Elastic Net分别应用于Logistic模型和Poisson模型,给出了两种模型下Elastic Net估计的定义,讨论了该估计的组效应性质,并通过数据例子进行了分析和验证,文章最后对全文进行了总结并提出了一些有待进一步研究的问题。
计算机校准模型的变量选择
这是一篇关于变量选择,计算机校准模型,惩罚似然,高斯随机过程的论文, 主要内容为随着科技的不断更新与创造,越来越多的计算机模型被应用于处理现实问题。为了更好地对真实系统进行模拟,对不精确的计算机模型进行校准也深受研究者们的关注。变量选择方法可以将对计算机的输出值影响显著的变量选择出来,利用变量选择方法对计算机模型进行校准,可进一步提高计算机模型的准确性以及可解释性。本文首先研究了一般计算机校准模型,提出了利用惩罚似然下的变量选择方法对不精确的计算机模型进行校准,选取了Lasso、Adaptive Lasso以及Elastic Net这三种方法。并证明了在一定条件下,此种方法所获得校准参数的估计是一致的并满足渐近正态性。对于计算机校准模型存在的参数可识别性问题,本文提出了正交计算机校准模型。最后通过Lasso、Adaptive Lasso以及Elastic Net三种方法分别对一般计算机校准模型和正交计算机校准模型进行校准,比较这三种方法校准后模型模拟的性能。数值模拟结果以及实例分析均表明,运用Lasso、Adaptive Lasso以及Elastic Net三种方法的正交计算机校准模型,在模拟的准确性以及稳定程度上均优于运用以上三种方法的一般计算机校准模型,从而解决了参数的可识别性问题,提高了模型的可解释性。
选矿生产指标预测系统的设计与实现
这是一篇关于选矿生产,变量选择,神经网络,指标预测,预报系统的论文, 主要内容为选矿过程即为将矿山开采的原矿石经过生产加工,使得有用矿物富集的流程工业过程。选矿过程成功将有用矿物和脉石充分分离,生产出的精矿为钢铁行业提供重要的原材料。选矿过程通常包括原矿筛分、竖炉焙烧、磨矿、磁选、浮选等工艺过程,其中各个工序所涉及的衡量不同产品质量或生产效率的指标,称为工艺指标;而衡量一天或一个班组时间内完成的整个选矿全流程的指标,称为选矿全流程生产指标;生产工况条件表示生产工序中相关设备所涉及的原料的台时处理量、设备运行时间及后续的设备台时产量等约束条件。其中精矿作为选矿过程的终极产品,其质量的好坏将直接影响选矿厂的经济效益。而选矿工艺过程相对复杂,无法实现综合精矿产量的在线实时检测。现阶段选矿厂通常采用离线统计方式对综合精矿产量进行检测。随着选矿工艺的不断优化,传统的方式已不再满足选矿厂对精矿产量实时检测的要求。因此有必要实现一种综合精矿产量的实时预报方法。由此,选矿厂可实现对精矿产量的实时获取,并依据结果及时优化调整工序过程指标和操作变量,从而实现整个选矿厂的效益最大化。目前虽然算法研究人员也会根据自身需求开发预测软件,但这些软件的交互性、可复用性以及实用性相对较差,通常为某一工艺过程量身设定,平台的可复用性有待提高。因此有效的将理论研究成功应用于选矿过程制造执行系统,并将预测平台服务化,将会极大丰富选矿过程制造执行系统平台软件的功能,同时为其他算法研究人员提供服务化平台设计思路。随着互联网技术的不断发展,相比于传统的客户端服务方式,web系统显得更加灵活、方便且易用。不需用户安装任何程序原件,随时随地都可通过浏览器访问系统。部署在服务器上的web系统可以租用的方式满足任何企业需求,系统的维护也变得相对简单。建立基于web技术的服务化软件平台,必将可以更好的服务于选矿工业。本文依托国家高技术研究发展计划(863计划)课题“基于物联网的选矿生产执行系统技术研究与示范应用”,根据需求设计开发了用于选矿生产综合铁精矿产量预报的软件平台,并将研究理论成功应用于我国西部某大型选矿厂。论文主要包括以下工作:(1)对选矿生产指标预报方法及系统的研究现状做了详细的分析。并针对选矿工艺过程的典型特点,对选矿生产指标预报系统的实现进行了详细的需求分析,包括:功能需求、性能需求以及系统的运行需求。(2)针对选矿生产指标预报的问题,本文提出一种灰色关联分析和改进随机权神经网络的选矿生产指标预测方法,采用基于PCA和基于灰色关联的变量选择方法来选择模型输入,采用基于随机权神经网络和基于改进随机权神经网络的模型建立四种指标预测方法。并采用工业实际数据进行仿真实验验证,实验结果表明本文所提方法的有效性。该方法在运行时间代价不大的前提下,充分满足了选矿厂对指标预测精度的要求。(3)设计开发了安全、可靠的选矿生产指标预报系统。对系统的整体架构、软件架构以及功能架构进行了详细的设计。系统功能模块主要包括系统管理模块、基础信息模块以及指标预测三大功能模块。前端开发采用“vue+webpack”框架并通过“html+Javascript+css”语言实现、后端预报算法服务采用ASP.NET Web Api封装服务并通过c#调用matlab封装的dll文件实现、后端数据服务采用Spring+Spring Mvc+Mybatis的java开源框架封装服务并通过java语言实现。该系统的实现充分考虑内部数据的交互性、开发平台的可复用性以及用户操作的友好性,采用前后端分离的开发技术,将后端代码封装成restful风格服务供前端平台调用。系统前端实现充分应用Element封装的强大的组件库,实现了系统稳定、友好的运行。(4)以酒钢选矿厂实际生产数据为依据对选矿生产指标预报系统进行了实际验证。通过对指标预报模块中特征提取及指标预报模块基本功能的验证,证明系统指标预报模块实现的有效性;通过对基础信息及系统管理中各个模块基本功能的验证,证明了系统基础服务及系统安全功能实现的有效性。
基于支持向量分位数回归的笔记本电脑网购销量影响因素研究
这是一篇关于支持向量,分位数回归,变量选择,笔记本电脑销量,影响因素的论文, 主要内容为随着互联网的快速发展,笔记本电脑以高效、便携的优势成为人们娱乐和工作的首选设备。相比传统的实体店,电商平台更便于消费者进行商品价格和配置的对比,越来越多的消费者选择网购笔记本电脑。在电商充分竞争的背景下,探究影响笔记本电脑网购销量的因素,对消费者和商家都有着重要的现实意义。本文以笔记本电脑销量为研究对象,从我国影响力最大的电子产品电商平台——京东商城挖掘笔记本电脑销量的相关数据,通过清洗整理数据、变量选择、统计建模分析等步骤,进行笔记本电脑网购销量影响因素的研究。根据样本数据的分布特征,本文在分位数回归理论的基础上,选择模型评价指标(平均绝对误差MAE和均方根误差RMSE)对线性分位数回归、神经网络分位数回归以及支持向量分位数回归的预测效果进行对比分析。研究结果表明,在方法层面上,相比线性分位数回归及神经网络分位数回归,支持向量分位数回归在模型的构建上有更高的准确性;在影响因素层面上,因为笔记本电脑具有品牌效应,所以品牌知名度越高,越能促进销量的增长。价格对销量的影响随着分位点的提高产生了不同的变化趋势,在低分位区间内价格的提升可以带来销量的增加,而高分位区间相反。笔记本电脑属性中的理论续航时间对销量有着正向的促进作用;屏幕尺寸和厚度的增加,在一定区间内能够促进笔记本电脑销量的增长,但是当数值过大的时候,销量反而会减少;对于核心数,其数量的多少会直接导致价格的不同,一般情况下,消费者更容易优先考虑价格因素,而不会过多关注这个属性因素。另外,店铺的服务因素(主要包括商品评分、物流评分和售后评分)也能正向促进销量的变化。由此可知,消费者除了关注商品本身之外,也比较重视商家提供的服务以及信誉度。因此,商家可以在保证商品品质的前提下,提升自身的服务质量,以此保持良好的市场竞争力。
选矿生产指标预测系统的设计与实现
这是一篇关于选矿生产,变量选择,神经网络,指标预测,预报系统的论文, 主要内容为选矿过程即为将矿山开采的原矿石经过生产加工,使得有用矿物富集的流程工业过程。选矿过程成功将有用矿物和脉石充分分离,生产出的精矿为钢铁行业提供重要的原材料。选矿过程通常包括原矿筛分、竖炉焙烧、磨矿、磁选、浮选等工艺过程,其中各个工序所涉及的衡量不同产品质量或生产效率的指标,称为工艺指标;而衡量一天或一个班组时间内完成的整个选矿全流程的指标,称为选矿全流程生产指标;生产工况条件表示生产工序中相关设备所涉及的原料的台时处理量、设备运行时间及后续的设备台时产量等约束条件。其中精矿作为选矿过程的终极产品,其质量的好坏将直接影响选矿厂的经济效益。而选矿工艺过程相对复杂,无法实现综合精矿产量的在线实时检测。现阶段选矿厂通常采用离线统计方式对综合精矿产量进行检测。随着选矿工艺的不断优化,传统的方式已不再满足选矿厂对精矿产量实时检测的要求。因此有必要实现一种综合精矿产量的实时预报方法。由此,选矿厂可实现对精矿产量的实时获取,并依据结果及时优化调整工序过程指标和操作变量,从而实现整个选矿厂的效益最大化。目前虽然算法研究人员也会根据自身需求开发预测软件,但这些软件的交互性、可复用性以及实用性相对较差,通常为某一工艺过程量身设定,平台的可复用性有待提高。因此有效的将理论研究成功应用于选矿过程制造执行系统,并将预测平台服务化,将会极大丰富选矿过程制造执行系统平台软件的功能,同时为其他算法研究人员提供服务化平台设计思路。随着互联网技术的不断发展,相比于传统的客户端服务方式,web系统显得更加灵活、方便且易用。不需用户安装任何程序原件,随时随地都可通过浏览器访问系统。部署在服务器上的web系统可以租用的方式满足任何企业需求,系统的维护也变得相对简单。建立基于web技术的服务化软件平台,必将可以更好的服务于选矿工业。本文依托国家高技术研究发展计划(863计划)课题“基于物联网的选矿生产执行系统技术研究与示范应用”,根据需求设计开发了用于选矿生产综合铁精矿产量预报的软件平台,并将研究理论成功应用于我国西部某大型选矿厂。论文主要包括以下工作:(1)对选矿生产指标预报方法及系统的研究现状做了详细的分析。并针对选矿工艺过程的典型特点,对选矿生产指标预报系统的实现进行了详细的需求分析,包括:功能需求、性能需求以及系统的运行需求。(2)针对选矿生产指标预报的问题,本文提出一种灰色关联分析和改进随机权神经网络的选矿生产指标预测方法,采用基于PCA和基于灰色关联的变量选择方法来选择模型输入,采用基于随机权神经网络和基于改进随机权神经网络的模型建立四种指标预测方法。并采用工业实际数据进行仿真实验验证,实验结果表明本文所提方法的有效性。该方法在运行时间代价不大的前提下,充分满足了选矿厂对指标预测精度的要求。(3)设计开发了安全、可靠的选矿生产指标预报系统。对系统的整体架构、软件架构以及功能架构进行了详细的设计。系统功能模块主要包括系统管理模块、基础信息模块以及指标预测三大功能模块。前端开发采用“vue+webpack”框架并通过“html+Javascript+css”语言实现、后端预报算法服务采用ASP.NET Web Api封装服务并通过c#调用matlab封装的dll文件实现、后端数据服务采用Spring+Spring Mvc+Mybatis的java开源框架封装服务并通过java语言实现。该系统的实现充分考虑内部数据的交互性、开发平台的可复用性以及用户操作的友好性,采用前后端分离的开发技术,将后端代码封装成restful风格服务供前端平台调用。系统前端实现充分应用Element封装的强大的组件库,实现了系统稳定、友好的运行。(4)以酒钢选矿厂实际生产数据为依据对选矿生产指标预报系统进行了实际验证。通过对指标预报模块中特征提取及指标预报模块基本功能的验证,证明系统指标预报模块实现的有效性;通过对基础信息及系统管理中各个模块基本功能的验证,证明了系统基础服务及系统安全功能实现的有效性。
先验信息下Elastic Net方法的改进及应用
这是一篇关于Elastic Net,先验信息,稀疏框架,变量选择的论文, 主要内容为随着近年来大数据相关技术的兴起,数据收集技术的进一步的发展,高维数据大量出现在自然科学、生物医药、信息科学等领域。处理高维数据时,变量选择是一种行之有效的方法,能够减少无关变量的影响从而达到降低维度的效果。在众多变量选择方法中,Elastic Net方法可以高效处理带有强相关变量组的高维数据,得到可靠的参数估计。因此,Elastic Net方法的相关研究在统计学领域中得到很大的关注。针对如何改进Elastic Net方法这个问题,本文提出了一种新的改进方法,即基于先验信息的Elastic Net方法。具体而言,借助稀疏框架将先验信息融入到Elastic Net模型中,从而提高模型的拟合效果。本文在给出该方法的定义之后,在理论层面上给出了相应的求解算法,并证明了基于先验信息的Elastic Net方法同样具有组效应性质。之后通过多组数值模拟表明基于先验信息的Elastic Net较于Elastic Net方法有着更好的稳定性和精确度。针对基于先验信息的Elastic Net方法的应用问题,本文考虑将基于先验信息的Elastic Net方法应用于缺失数据领域。常规的缺失数据处理方法在处理缺失比率较大的缺失数据时一般不能起到良好的效果。本文提出的基于先验信息的Elastic Net方法能够为其提供另外一种思路。首先从存在缺失现象的样本中提取先验信息,之后再利用这些先验信息来提高模型的拟合效果。本文最后分别在模拟数据以及真实数据上进行实验,结果表明基于先验信息的Elastic Net方法确实能够利用从缺失数据中提取的先验信息来提升模型效果。
基于复合MCP的Factorization Machine算法及其在稀疏数据的应用
这是一篇关于因子分解机,变量选择,参数压缩,复合MCP的论文, 主要内容为现如今,随着大数据的蓬勃发展,越来越庞大和复杂的数据成为人们不得不面对的问题,其中一个显著的问题就是数据的稀疏性。例如在推荐系统领域,数据主要包括用户和商品(包括其他物品,如视频、音乐、网页等等),它们的数目动辄数以百万千万计,而且两个用户之间选择的重叠往往非常少,若将一个用户选择一个商品记为1,没有选择则记为0,那么最终产生的数据集将是非常庞大而又稀疏的。还有在一些传统统计分析领域,当数据中的分类变量和分类的类别很多的时候,比如人们的职业、居住地区、兴趣爱好等等,为了充分挖掘特征所包含的信息,我们通常要使用one-hot编码来处理大量的分类变量,而这也会导致非常稀疏的数据的产生,此时若直接使用传统的统计学方法进行学习(如逻辑回归(LR)、支持向量机(SVM)等等),可能会效果不佳,又或者需要进行大量的特征工程,由人工生成衍生特征来进行模型的训练,这样既耗时又可能无法充分挖掘特征之间的组合信息。随着机器学习和深度学习的发展以及计算能力的提升,许多优秀的算法被提出并用来解决各式各样的数据场景。Factorization Machine(FM)算法即因子分解机便是一个被提出的主要用于解决大规模数据稀疏场景的算法,它本质上是一种对一阶特征进行交叉组合的二阶特征多项式模型。它通过对每个特征学习一个隐向量,然后对两两特征的隐向量相乘得到二阶特征组合项,从而能直接从中学到隐藏的变量间的关系(所有的两两变量之间的关系),从而相比传统的逻辑回归(LR)和支持向量机(SVM)等模型,它对于稀疏数据具有更强的学习和预估能力,因此被广泛的用于广告等点击率预测(CTR)、推荐系统等多个领域。但加入二阶特征组合后产生的问题就是维度爆增,FM模型本身并未考虑许多特征本身是冗余的,也无法直接对冗余的特征进行选择。因此可以考虑借鉴传统模型中的通过添加惩罚项的方式(如L1正则项等)将无用的变量压缩为0,起到变量选择的目的。经典的变量选择方法主要可以分为单变量选择法(如Lasso,SCAD,MCP等)、组变量选择法(如Group Lasso,Group SCAD,Group MCP等)和双层变量选择法(如Sparse Group Lasso和Composite MCP等)。目前应用在FM算法上的还主要是传统的L1和L2正则项。但是Lasso对每个变量施加同样的惩罚,只能实现单变量的选择而不能进行群组变量的选择,同时Lasso的估计也是有偏的,会导致模型的精度降低。然而考虑到FM的参数系数却具有明显的分组特性,对于同一个特征,它的一阶项的系数和它的隐向量系数应该被视作同一组而不应该全部割裂开来来看待,如果这个特征属于噪音,那么它的一阶项系数和隐向量系数应该都被压缩至0从而移除模型之外,因此可以考虑到组变量选择法。但是当某一特征不属于噪音并不代表它的一阶项和隐向量系数都为非零(譬如一个特征本身与其他特征就没有交互效应那么它的隐向量系数也应该为0),尤其在数据规模比较庞大时,为了充分挖掘数据的特征往往一开始将因子分解维度k(即隐向量的维度)设置的很大,我们最好对隐向量的系数也做一个参数选择来防止过拟合的产生。因此本文在之前研究的基础上,选择了在bi-level selection中理论效果优于Sparse Group Lasso的双层变量选择方法,即Composite MCP惩罚项与FM算法结合起来,提出了CMCP-FM复合方法,它能对FM的一阶项和隐向量的系数同时进行组间和组内压缩,组间压缩能起到变量选择的作用而组内压缩又能起到优化参数结构提高参数稀疏度的作用,同时又因为CMCP正则项相对于Lasso系列正则项具有渐近无偏的优点,系数的估计更为精确。本文将CMCP正则项与FM算法结合起来,同时将FM视为一种特殊结构的神经网络,借鉴神经网络剪枝的思想,提出了CMCP-FM算法。新的算法过程为:基于CMCP正则项的预训练过程来完成参数的压缩、使用阈值剪枝过程来移除不重要的参数、重训练的过程训练得到最优的参数结构。本文进行了数据的模拟验证,在模拟的稀疏数据集上,CMCP-FM方法的预测和变量选择方面对比另外几个模型表现的都更好。同时还在两个实际稀疏数据集上进行了实验,CMCP-FM方法在特征意义明晰的数据集上可以准确的选出有意义的变量,提高了参数的稀疏度,而且预测效果相比对比方法更为精确,而在特征含义不明晰的推荐系统数据集上,在提高模型的稀疏度和预测精度两方面CMCP-FM也表现的更好。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码港湾 ,原文地址:https://bishedaima.com/lunwen/50856.html