概率密度函数的非参数估计及R语言图形展示(2)

1.1 研究现状
1.2 背景知识
统计学的研究内容大体上包括描述性统计和推断性统计两部分。描述性统计主要通过收集、处理、汇总，把数据用图表描述出来，并结合实际问题进行概括和分析；推断性统计主要考虑到一些实际问题的可测性及测量难度，以小见大，以样本反映总体，抽取部分样本进行测量，然后根据样本数据的特征推断总体的特征。推断性统计的方法很多，应用也十分广泛。下面我们先简单回顾概率论与数理统计的一些知识。
设为随机变量，对任意的，令，则称为随机变量的分布函数。分布函数具有以下性质：
（1）为不减函数，即任取，则有；
（2）为左连续函数，即；
（3）满足归一性：，。
随机变量的分布函数为，若存在非负函数，使得对任意实数，都有，则称为连续型随机变量，为概率密度函数。具有以下性质：
（1）；
（2）；
（3）任取，；
（4）在的连续点处，有。
概率密度函数能够反映随机变量的统计特征以及分布情况，并能计算相应的期望、方差等数字特征，进而更好的研究该随机变量的实际意义。常见的连续型随机变量有：
均匀分布；
正态分布；
指数分布。
在实际问题中，有些分布函数的参数未知，这时就需要根据样本数据估计总体，对总体的分布进行推断是反映总体特征的根本。典型的统计推断是参数估计与假设检验，大致步骤是从根据实际问题假定分布族开始的，事先假定总体的分布情况，抽取样本数据，然后通过样本数据计算必要的统计量，进而估计出总体分布中的参数，最后通过假设检验研究其估计的可信度。常用的参数估计方法有矩估计法和极大似然估计法。
矩估计法：设总体的分布函数中有个未知参数，假设的阶原点矩存在，并记，记，其中。令，解得的就是的矩估计量。
极大似然估计法：设总体的概率密度函数为，为总体中的一个样本，相应的观察值为，定义样本的似然函数为
，
使最大的称为的极大似然估计量。
然而，随着研究问题的复杂化以及数据量的膨胀，事先对总体做出必要的具体的假定越来越困难，不仅需要大量的背景知识，而且探索性问题的研究中总体的信息较为匮乏，例如在影响因素很多的经济学问题和社会问题。这就使得我们不能明确的假定出总体的分布形式，或者对总体的假定不合理从而造成损失，这时我们就要用到非参数统计方法，即不假设总体分布的具体形式，尽量从数据本身获取必要信息，进而估计出分布的结构。
2 非参数密度估计方法
概率分布是统计推断的核心，从某种意义上看，联合概率密度提供了关于所要分析变量的全部信息，有了联合密度，则可以回答变量子集之间的任何问题。概率密度函数的非参数估计方法就是在尽可能少的假定密度函数的情况下来对进行估计，记估计量为，而估计结果的质量将取决于带宽或窗宽，所以选择合适的很关键。
2.1 直方图密度估计
直方图密度估计是最简单的非参数密度估计方法，应用广泛，类似于用直方图来描述数据的频率，因此而得名。
2.1.1 基本概念
以一元随机变量为例，假设在区间上有个数据，将区间划分为，那么有令为落在中的数据个数[2]。概率密度函数的非参数估计及R语言图形展示(2):http://www.youerw.com/shuxue/lunwen_29784.html