研究者使用多种不同的方法来选择样本,有时研究者会使用典型抽样(判断抽样的一种),即从总体中选择若干个典型的单位进行深入调研,目的是通过典型单位来描述或揭示所研究问题的本质和规律,因此选择典型单位应该具...

什么是分位数检验:分位数检验的三种形式
X 1 , X 2 ,…, X n 是一组随机样本,数据由 X i 的观测值组成。假定这些 X i 是随机样本,度量尺度至少是次序的。检验过程中用到两个检验统计量 T 1 , T 2 。令 T 1 等...
什么是渐近相对效率(Pitman效率)
相对效率依赖 α 和 β 的选择,以及复合假设 H 1 中的特定备择假设,为了让一检验与其他检验进行全面的比较,相对效率显然依赖很多参数。我们更希望对比不依赖 α , β ,以及当 H 1 是复合假设...

什么是样本量检验的相对效率
效率是一个相对的术语,它被用来比较在相同条件下两种检验的样本容量,假定有两个检验被用来检验特定的假设,而且它们有相同的 α 和 β 值,因此关于显著性水平和功效,它们是“可比的”。(注意,两种检验的 ...
什么是无偏检验和相合检验
无偏检验 显然,我们希望拒绝 H 0 的可能性,在 H 0 不成立时要比 H 0 成立时大。 【定义】无偏检验(unbiased test)是 H 0 不成立时拒绝 H 0 的概率大于等于 H 0 ...

什么是检验统计量的零分布
在统计假设检验中,了解当零假设成立时检验统计量的概率分布是非常必要的,这称为检验统计量的零分布(null distribution)。 【定义】检验统计量的零分布是当零假设成立时,检验统计量的概率分布...
什么是临界域(拒绝域)和接受域
【定义】临界域(critical region)是样本空间中导致拒绝零假设的全体样本点的集合。 有时临界域亦称为拒绝域(rejection region),所以很明显样本空间中不在临界域的全体样本点的...

什么是经验分布函数
一个随机变量的真实分布函数一般是未知的,有时我们只能够推测分布函数的形式,或将推测作为真实分布函数的一个近似。根据样本的观测值作经验分布函数图,以此来作为整个未知分布函数 F ( x )的估计,这是推...
四种度量尺度:包括名义、次序、区间、比率尺度
度量的类型通常被称为度量尺度(scale of measurement),各种不同的出版物都详尽地讨论过,其中包括Stevens(1946)的一篇优秀论文。 我们将逐一介绍名义尺度(即“最弱”的度量尺...

什么是K 近邻估计:基本原理
K 近邻估计是无论欧氏距离多少,只要是 x 点的最近的 k 个点之一就可以参与加权。一种具体的 K 近邻估计( K -nearest neighbor estimation)为 令 d 1 ( x )...

什么是非参数核密度估计:基本原理
核密度估计的原理和直方图有些类似,它也是计算某一点周围的点的个数,只不过是对于近处的点的考虑多一点,对于远处的点的考虑少一些(甚至不考虑)。 下面给出非参数核密度估计的正式定义: 设 K ( g )为...
什么是非参数密度估计
现实生活中,由于研究对象的复杂性、对事物认识的不断加深以及随机抽样的时间性,要使某些随机变量满足某种给定的密度函数已经变得越来越难以实现。这就需要人们能够通过从随机变量中抽取样本来研究随机变量的密度分...
直方图密度估计的优点缺点
现实生活中,由于研究对象的复杂性、对事物认识的不断加深以及随机抽样的时间性,要使某些随机变量满足某种给定的密度函数已经变得越来越难以实现。这就需要人们能够通过从随机变量中抽取样本来研究随机变量的密度分...

什么是密度聚类与DBSCAN算法
利用K均值算法进行聚类时需要事先知道簇的个数,也就是 k 值。不同的是,基于密度聚类的算法却可以在无需事先获知聚类个数的情况下找出形状不规则的簇,例如图10-11所示的情况。 图10-11 密度聚类 ...

什么是自适应的拒绝采样
拒绝采样的方法确实可以解决我们的问题,但是它的一个不足涉及其采样效率的问题。 针对拒绝采样的例子而言,我们选择了离目标函数最近的参考函数,就均匀分布而言,已经不能有更进一步的方法了。但即使这种,在这个...

什么是拒绝采样:拒绝采样的基本思想
逆变换采样的方法确实有效,但其实它的缺点也是很明显的,那就是有些分布的CDF可能很难通过对PDF的积分得到,再或者CDF的反函数也很不容易求。这时可能需要用到另外一种采样方法,这就是下面即将要介绍的拒...

什么是博克斯-穆勒变换(Box-Muller变换)
博克斯-穆勒变换(Box-Muller Transform)最初由乔治·博克斯(George Box)与默文·穆勒(Mervin Muller)在1958年共同提出。博克斯是统计学的一代大师,统计学中...

举例说明什么是逆变换采样
实际应用中,所要面对的第一个问题就是如何抽样? 注意,在计算机模拟时,这里所说的抽样其实是指从一个概率分布中生成观察值(observations)的方法。而这个分布通常是由其概率密度函数来表示的。即使...
简单直线回归分析的特点
相关系数可以用来说明在直线相关条件下,两个现象相关关系的方向和程度,但不能指出两变量相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。而研究变量之间的一般数量关系十分必要,因为它是...
什么是马尔可夫链:马尔可夫链的定义
定义 设随机过程{ X ( t ), t ∈ T }的状态空间 S 是有限集或可列集,对于 T 内任意 n +1个参数 t 1 < t 2 <…< t n < t n +1 和...