毕业论文

打赏
当前位置: 毕业论文 > 数学论文 >

稳健变量选择方法研究(2)

时间:2021-12-25 15:44来源:毕业论文
变量选择的实质是从所获得的回归模型中各个可能的子回归模型中选择最 优的变量。变量选择主要从下面两个角度来考虑:模型解释性。即对于多解释变

变量选择的实质是从所获得的回归模型中各个可能的子回归模型中选择最 优的变量。变量选择主要从下面两个角度来考虑:模型解释性。即对于多解释变 量的模型,通过某种方法来获得影响显著的变量使得模型更易解释和控制;预测 精确度。有些模型有小的偏差,大的方差,这时便可以通过变量选择删除小影响 变量,从而牺牲偏差来获取稳定性。变量选择的传统方法研究可以追溯到 20 世

纪 60 年代。 

早期的变量选择的理论和方法主要集中在低维情况,面对最小二乘法的缺陷, 统计学门提出了许多有效的方法。其中,逐步回归法,岭回归方法是比较经典的 方法,在变量选择中取得了较好的效果,并得到了广泛应用。即便如此,这两种 方法也不是完美的。逐步回归方法并不能很好地保持变量选择结果的稳定,有时 较小的数据改变就会导致模型的改变。而岭回归只是使某些较大的变量系数变小, 但是却会使得所有的变量系数同比例变小,从而影响了模型的可解释。 

之后,统计学家基于最小化预测误差变量而提出了C�准则[17],该方法通过

研究子模型的均方差来获得模型选择的标准。另外,一些基于似然惩罚函数的方

法也得到广泛关注,其中最著名的包括 AIC 准则[15]和 BIC 准则[18]。AIC 准则 是通过比较与真实模型之间的 K-L 距离得到的,而 BIC 准则是通过假定参数的先 验分布,从 Bayes 的观点得到的。这几种方法都可以归结为基于信息准则的不连

续惩罚方法。其主要是基于假设检验产生一系列模型,并利用拟合优度统计量来 选出最优的模型。但是这种检验方法要求误差服从正态分布,这在实际问题中可 能不成立,导致了模型参数的估计不是那么准确。另外,对于高维数据或数据量 很大时,这几种方法在数据计算处理时便会遇到障碍。

近年来,随着科学技术的发展以及计算机等现代化技术被广泛使用,海量数 据开始充斥我们的生活,数据收集的方法也越简便,可供研究的数据越来越丰富。 在一些研究模型中大量的高维度数据非常普遍,这样就给模型选择和变量选择带 来巨大困难和挑战。这种情况在一些前沿学科如遗传学、经济学、医学以及工程 等方面更加普遍。正因如此,高维数据的处理促进了统计思想和数据分析方法的 变革,对高维数据提取特征进行降维处理则成了研究重点。此时,科学家们希望 找到新的变量选择方法,以谋求好的效果。一些学者对回归系数施加连续惩罚, 从而得到了新的变量选择方法。 

另外,包括交叉验证、广义交叉验证等统计学习方法被提出使用。此外统计

学家提出了许多同时进行变量选择和参数估计的方法。如对目标函数加入 稳健变量选择方法研究(2):http://www.youerw.com/shuxue/lunwen_87273.html

------分隔线----------------------------
推荐内容