导航菜单
首页 >  考研人数分布图表  > 【应统考研必看!】统计学笔记

【应统考研必看!】统计学笔记

1、数据的预处理包括内容:

        数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。

(1)数据审核就是检查数据中是否有错误。对于通过调查取得的原始数据,主要从完整性和准确性两个方面去审核;对于通过其他渠道取得的二手数据,则应着重审核数据的适用性和时效性。

(2)数据筛选是根据需要找出符合特定条件的某类数据。

(3)数据排序是按一定顺序将数据排列。以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。除此之外,排序还有助于数据检查纠错,以及为重新归类或分组等提供方便。

2、条形图与直方图的区别和联系

联系:都用来展示数据分布情况。

区别:(1)条形图宽度固定且无意义,长度(高度)表示频数多少;直方图宽度表示组距;高度表示每组的频数;面积表示各组频数。

(2)条形图是分散排列的;直方图是连续排列的。

(3)条形图主要用于展示分类数据;直方图主要用于展示数值型数据(其中的分组数据)。

3、茎叶图与直方图的区别和联系:

联系:都用来展示数据分布情况。

区别:(1)茎叶图主要用于展示未分组数据;直方图主要用于展示分组数据。

(2)茎叶图保留了原属数据;直方图不能表示出原始数据。

(3)茎叶图适用于小批量数据;直方图适用于大批量数据。

4、数值型数据的分组方法有哪些?简述组矩分组的步骤。        数值型数据分组的方法有单变量值分组和组距分组,单变值分组是保证每一个变量值作为一组,适合于离散分布且变量值个数较少时,连 续型变量或离散变量且变量值个数较多时,通常做组距分组,是将全 部变量划分为若干个区间,并将一个区间的变量值作为一组。         组距分组的步骤如下:第一步,确定组数。组数的多少与数据的多少 以及数据自身的特点等决定。第二步,确定各组组距。组距是一个组 的上限与下限的差,可以根据最大值,最小值以及组数来确定组距, 即组距=(最大值一最小值)÷组数,可以用等距分组,也可以根据数据 的特点采用不等距分组。第三步,根据分组整理出频数分布表,并注 意遵循“不重不漏”和“上下限不在内”的原则。

最后附上该章节的思维导图:

 

相关推荐: