导航菜单
首页 >  统计基础  > 第 1 章 绪论

第 1 章 绪论

第 1 章 绪论1.1 学科介绍

数理统计学是探讨随机现象统计规律的一门学科。它使用概率论和其它数学方法,研究怎样收集带有随机误差的数据,并在设定的统计模型下,对这种随机数据进行统计分析,以对所研究的问题作出统计推断。由于所收集的统计数据只能反映问题的局部特征,数理统计的任务就在于从统计资料所反映的局部特征以概率论作为理论基础去推断事物的整体特征。一言以蔽之,由局部推断整体,如下图所示。

图 1.1: 统计推断示意图

数据是什么?本课程所涉及的数据是指带有随机性质的数据。随机性来源于数据产生机制的不确定性。在数据没有观测之前是不可以预知的。例如,测量数据是带有随机误差的,每次测量的结果不是固定的、可预测的数据。股票价格同样是不可以预知的。事实上,随机数据可以分成两种类型,一种是现实生活中收集到的真实数据,另一种是通过计算机模拟出来的数据。在一般情况下,我们并不完全知道真实数据是如何产生的,因此我们要通过统计的方法来研究产生该数据的机制,即背后的统计模型。模拟数据则是通过具体的统计模型来产生的数据,也就是蒙特卡罗方法抽样。这种方法常用于随机模拟计算,检验和比较统计方法的稳健性和优越性。

模型是什么?这里的模型是指产生随机数据的机制。一个很关键的问题是我们对这种机制的认知有多少?一无所知抑或了如指掌?实际上,我们不可能对这种机制百分之百地了解,否则就没有必要对数据进行分析。相反,由于我们对实际问题有或多或少的客观或者主观认识,所以我们对这种机制是有一定认识的。什么是客观认知?比如,我们得到了一枚硬币抛10次的数据(1代表正面朝上,0表示反面朝上):1001001001。假如你的问题是研究这枚硬币的均匀性。此时,你会毫不犹豫假设这个数据来自一个二项分布\(B(1,p)\)模型,其中\(p\)是硬币正面朝上的概率,也就是所关心的均匀性。这里的客观性体现在此问题的分布类型是明确的——伯努利分布,你永远不会用正态分布或者其他连续型分布来刻画这种数据。尽管如此,我们对这种数据产生机制还不是100%确定的,未知部分在于\(p\)的取值。所以,对于一些问题,我们可以利用常见的概率分布客观地刻画随机数据的产生机制。然而,对于大部分实际问题,现有的分布并不能完美地刻画随机数据的产生机制。我们往往需要根据问题的特征进行统计建模,选择恰当的模型,此时就不可避免一些主观因素。统计分析是允许这种不完美性的。正如著名统计学家乔治·博克斯(1919—2013)所言,“本质上,所有模型都是错的,但有一些是有用的。” 作为一门实用的学科,我们尤其关注统计方法的实用性。

Essentially, all models are wrong, but some are useful. —— George Box

什么样的推断?由数据到整体的推理称为统计推断,有两种基本形式:

参数估计

假设模型可以表示成参数形式\(M(\theta)\),其中\(M\)的形式已知,可以为简单的一类分布(如二项分布、正态分布),也可以为复杂的模型(如线性回归模型),但\(\theta\)是未知参数。现有来自该模型的数据\(X_1,X_2,\dots,X_n\)。一个基本问题是如何通过这些数据估计未知参数\(\theta\)。更一般地,我们希望估计形如\(g(\theta)\)的未知量,其中\(g(\cdot)\)为给定的函数。例如,考虑估计一个与模型相关事件\(A\)的概率\(P_\theta(A)\),显然该概率可表示为参数\(\theta\)的函数\(g(\theta)\)。无论是估计模型中未知参数还是与模型参数相关的未知量都统称为参数估计问题。参数估计问题分为两种类型:点估计和区间估计,相应统计方法见第2章。

例 1.1 某品牌灯泡的平均寿命是多少?使用超过1年的可能性是多少?

图 1.2: 灯泡寿命估计

假设检验

有时候我们不一定迫切想知道未知参数的具体值,而是想得到一个“真”或“假”的答案。比如,我们关心一个硬币是否均匀,这对“用抛硬币来做决定”的公平性至关重要。假设\(\theta\)表示这枚硬币正面朝上的概率,该问题也就变成判断\(\theta=0.5\)是否成立,而不是关心\(\theta\)的具体值是多少。诸如此类的问题数不胜数,比如,一种新药对某疾病是否凑效?这种新药是不是比传统药物更能缓解病情?在第4章的线性回归分析中,我们经常要判断回归方程是否显著,回归系数是否显著?这些判断命题真假的问题称为假设检验,严格的数学描述和检验方法见第3章。

例 1.2 OPPO手机真的能做到充电五分钟通话两小时吗?

图 1.3: 知乎上有关OPPO手机通话时间的问题

1.1.1 统计学的发展简史

统计学作为一门学科已有三百多年的历史。按统计方法及历史的演变顺序,通常可以将统计学的发展史分为三个阶段,分别是古典统计学时期、近代统计学时期和现代统计学时期。

第一个时期(古典统计学时期)

古典统计学的萌芽最早可以追溯到17世纪中叶,此时的欧洲正处于封建社会解体和资本主义兴起的阶段,工业、手工业快速增长,社会经历着重大变革。政治改革家们急需辅助国家经营和管理的数据证据以适应经济发展需要,此时一系列统计学的奠基工作在欧洲各国相继展开。这个阶段以描述性统计为主。代表性人物:高斯(C. F. Gauss, 1777-1855), 皮尔逊(K. Pearson, 1857-1936)等。

第二个时期(近代统计学时期)

20世纪初至第二次世界大战为近代统计学发展时期。科学技术开始进入全面繁荣时期,天文、气象、社会人口等领域的数据资料达到一定规模的积累,对统计的需求已从国家层面扩展至社会科学各个领域。对事物现象静态性的描述也已不能满足社会需求。一些重要的统计概念也在这一时期提出,误差测定、正态分布曲线、最小二乘法、大数定律等理论方法的大量运用为社会、经济、人口、法律等领域的研究提供了大量宝贵的指导。代表性人物:费希尔(R. A. Fisher, 1890-1962), 奈曼(J. Neyman, 1894-1981), 小皮尔逊(E. S. Pearson, 1895-1980), 许宝騄(1910-1970)等。

第三个时期(现代统计学时期)

二战后至今,得益于计算机的发展,统计方法渗透许多学科。这一阶段,统计在毒理学、分子生物学、临床试验等生物医学领域获得了大量应用,这些领域的发展又带动统计方法不断创新,主成分估计、非参数估计等方法应运而生。得益于高性能计算,贝叶斯学派蓬勃发展。

20世纪80年代开始,随着现代生物医学的发展,计算机技术的进步,人类对健康的管理和疾病的治疗已进入基因领域,对基因数据分析产生了大量需求。高维海量的基因数据具有全新的数据特征,变量维度远远大于样本数,传统的统计方法失效了,因此一系列面向高维数据的统计分析方法相继产生,比如著名的Lasso方法。

20世纪90年代以来,随着互联网的发展,数据库中积累了海量的数据,进入大数据时代。如何从海量的数据中挖掘有用的信息就变得越来越重要了,数据挖掘也就应运而生了。与数据挖掘比较接近的名词是机器学习, 机器学习被看作是人工智能的一个分支,主要是研究一些让计算机可以自动“学习”的算法,是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为机器学习算法中涉及了很多的统计学理论,与统计学的关系密切,也被称为统计学习。

1.1.2 频率学派与贝叶斯学派

在统计学领域,存在两大学派,频率学派和贝叶斯学派。他们的分歧在于未知参数是否随机变量。这种分歧衍生出两种截然不同的统计思想。

频率学派(传统学派)

频率学派认为样本信息来自总体,仅通过研究样本信息可以对总体信息做出合理的推断和估计,并且样本越多,就越准确。

代表性人物:费希尔 (R. A. Fisher, 1890-1962)

贝叶斯学派

起源于英国学者贝叶斯(T. Bayes, 1702-1761)在1763年发表的著名论文《论有关机遇问题的求解》最基本观点:任何一个未知量都可以看作是随机的,应该用一个概率分布去描述未知参数,而不是频率派认为的固定值。这种信息称为先验信息,是主观信息。

Good (1973)评价道:

“主观主义者直抒他们的判断,而客观主义者以假设来掩盖其判断,并以此享受科学客观性的荣耀。”

图 1.4: 生活大爆炸中的贝叶斯公式

贝叶斯统计的发展

自然语言处理:计算机翻译语言、识别语音、认识文字和海量文献的检索

南京市长江大桥欢迎您!

人工智能、无人驾驶

垃圾短信、垃圾邮件识别

如何在一个陌生的地方找餐馆吃饭?

1.1.3 统计学专业

统计学的应用涉及金融、经济、社会学、工程学、环境等多个领域,从而形成的相应的研究分支。其特点是多学科交叉、实用为主。

统计学专业包含理论统计和应用统计两方面

理论统计:模型选择,非参统计方法,贝叶斯统计,时间序列与生存分析,高维数据分析与机器学习,数据挖掘等等。

应用统计:目前发展最为突出的是生物统计,金融统计等等。

统计学经过漫长的发展,尤其是计算机的大量应用,目前包括但不限于下面这些分支(或者交叉领域)。目前最火热的学科都是跟计算机结合比较紧密的。统计理论研究:大样本性质、各种渐近理论分析等高维(超高维)统计推断:变量选择、大规模假设检验统计计算方法:蒙特卡罗模拟、卡尔曼滤波算法、近似贝叶斯算法、自助法生物统计:纵向分析、空间分析统计学习:数据挖掘、人工智能1.2 基本概念

本节介绍数理统计中一些基本概念:总体、样本、随机抽样。

1.2.1 总体

我们把研究对象的全体(包括有形的和潜在的)称作总体,其中每个成员称为个体。常用随机变量\(X\)来刻画一个总体(或者总体的特征值)。

例 1.3 考虑以下三个总体:

网上购物居民占全市居民的比例过去一年内网购居民的购物次数某品牌灯泡的寿命

总体\(X\)的分布函数\(F(x)\)未知或者部分未知,统计学的核心任务就是要对总体进行观测,并对所得数据推断总体的分布信息。

1.2.2 样本

研究总体可分为普查和抽样这两种方法。

普查(全数检查)对总体中的每个个体进行观察,如我国每十年一次的人口普查缺点:费用高、时间长、不适合破坏性试验抽样从总体中抽取若干个体进行观察,用所获得数据对总体进行统计推断优点:费用低、时间短抽取的部分组成的集合\((X_1,\dots,X_n)\)称为样本,\(X_i\)称为样品样品个数\(n\)称为样本量或者样本容量1.2.3 简单随机抽样

简单随机抽样满足以下两个特征:

随机性:每个个体都有相同的机会选中(有放回随机抽取/独立重复观测),即\(X_i\)与总体\(X\)同分布独立性:每个样本的选取是独立的

这种方式得到的样本也称为简单随机样本。本课程所研究的均为简单随机样本,简称样本。常用记号\(X_i\stackrel{iid}{\sim} F\)表示独立同分布\(F\),其中“iid”为independent and identically distributed 的缩写。

样本具有两重性

抽取之前无法预知它们的数值,故\((X_1,\dots,X_n)\)为\(n\)维随机向量抽取后样本为具体的数,用小写字母\((x_1,\dots,x_n)\)表示,称为样本观测值

注:所有的统计分析都是基于随机变量,统计推断结论基于样本观测值(数据)。

1.2.4 案例

2018年高考全国II卷作文(适用地区: 内蒙古、黑龙江、辽宁、吉林、重庆、陕西、甘肃、宁夏、青海、新疆、西藏、海南)

“二战”期间,为了加强对战机的防护,英美军方调查了作战后幸存飞机上弹痕的分布,决定哪里弹痕多就加强哪里,然而统计学家瓦尔德(Abrahom Wald, 1902–1950)力排众议,指出更应该注意弹痕少的部位,因为这些部位受到重创的战机,很难有机会返航,而这部分数据被忽略了。事实证明沃德是正确的。

要求: 综合材料内容及含义,选好角度,确定立意,明确文体,自拟标题; 不要套作,不得抄袭; 不少于800字。

图 1.5: 幸存者偏见

在这个案例中,我们关心的总体是飞机的弹痕分布。那么,哪些是样本?是顺利返航飞机的弹痕?还是应该包含失事飞机的弹痕数据?显然后者不可忽略,否则推断总体就会出现很大偏差。在心理学上,这就是著名的“幸存者偏见”。

1.3 概率分布族

一般情况下,由于一些主观和客观的认识,我们都会对统计模型(总体)做出一些假定。通常地,假设总体\(X\)分布\(F(x)\)属于某个分布族\(\mathcal{F}\). 分为以下三类:

参数族\(\mathcal{F}\)中的分布的一般数学形式已知,但包含若干未知参数\(\theta=(\theta_1,\dots,\theta_m)\)\(\mathcal{F}:=\{F_\theta,\theta\in\Theta\}\), 其中\(\Theta\subset \mathbb{R}^m\)称为参数空间该模型为参数统计问题,\(m\)为模型的维数\(m=1\)为单参数统计问题,\(m>1\)为多参数统计问题非参数族当\(\mathcal{F}\)中的分布不能通过有限个未知参数来刻画该模型为非参数统计问题半参数族\(\mathcal{F}\)中的分布有一部分可以用参数刻画,一部分则不可以。

为什么要引进分布族的概念?原因是我们不知道总体确切的分布,但基于部分信息,我们可以把考虑的范围缩小到一个明确的集合里面进行分析。在给定的集合里面,我们就可以讨论最优性,比较不同统计方法的优越等等。而缩小的幅度取决于对总体的了解程度。但值得注意的是,虽然总体有未知参数,但该总体对应的分布族应是明确的。对于参数分布族而言,分布类型是确定的,参数空间也是给定的范围。

1.3.1 常用的参数族离散型二项分布族\(\{b(n,p);0

相关推荐: