任务三 数据整理与显示

任务三 数据整理与显示

【知识目标】

1.数据整理的程序

2.统计分组的概念、品质数据分组与数值型数据分组

3.频数分布的概念和常见形式

4.统计表

5.统计图

【能力目标】

1.能够正确理解统计分组的意义并实现对数据的合理分组

2.能够利用Excel对分类数据、顺序数据和数值型数据进行分组

3.能够利用Excel对分类数据、顺序数据和数值型数据绘制合适的图形

【任务引入】

见证奇迹

一个什么样的群体,其规模能在15年里增长800多倍?一个什么样的产品,其数量能在15年里增长1 000倍?一个什么样的应用,其覆盖范围能在15年里增长1 700倍?一条什么样的路径,其容量能在15年里拓展60 000倍?答案就是:网民、.cn域名、网站、国际出口带宽。

2012年7月19日,中国互联网络信息中心(CNNIC)在京发布了截至2012年6月的《第30次中国互联网络发展状况统计报告》。以下是用3种方式对调查结果的描述。

1.文字描述

在网民方面,1997年我国上网用户数仅为62万人,现在已经达到了5.38亿人,是15年前的867倍,年复合增长率高达57%。从国际对比来看,早在4年前,即2008年6月底,我国上网用户数已超过美国,跃居世界第一位;目前,全球每100个网民中,就有24个是中国人。截至2012年6月,我国手机网民规模达到3.88亿,网民中用手机接入互联网的用户占比已达到72.2%,手机首次超过台式计算机,成为我国网民的第一大上网终端。在域名方面,1997年我国CN域名仅有4 066个,2012年接近400万个,大约是15年前的1 000倍。此外,为降低中国人上网难度,2010年6月25日“.中国”作为中文顶级域名,正式纳入全球互联网根域名体系,中文上网不再是梦想。网站方面,1997年中国网站仅有1 500个,2012年网站数约为250万个,接近15年前的1 700倍,中国网页数已达到866亿个,这些网站和网页记载着整个中国和每个网民的昨天和今天。国际出口带宽方面,截至2012年6月,我国国际出口带宽的总容量为1 548811Mbit/s,与1997年25.408Mbit/s相比,是15年前的60 000多倍。

2.表格描述

表3-0-1所示为1997年和2012年我国互联网调查结果。

表3-0-1  中国互联网调查结果

调 查 项 目 1997年 2012年6月
网民数 62万人 5.38亿人
CN域名数 4 066个 398万个
网站数 1 500个 250万个
国际出口带宽(Mbit/s) 25.408 1 548 811
3.图形描述

图3-0-1和图3-0-2分别用圆形图和条形图对网民构成进行了描述。

..\13-0072 统计与分析tu\0301.tif

图3-0-1 2012年6月我国网民性别构成

..\13-0072 统计与分析tu\0302.tif

图3-0-2 2012年6月我国网民上网场所的人数比例

请思考,在完成一项调查之后,怎样进行数据的整理?以什么形式展示整理的结果?

【知识链接】

3.1 数据整理的程序

收集来的原始数据必须经过加工整理才能用于分析,数据整理既是数据收集工作的继续,又是数据分析工作的前提。调查所获得的原始资料是个体的、零散和不系统的,整理可以使资料系统化、条理化,并过渡到反应总体特征的资料。数据整理一般包括数据的预处理、数据分类或分组、数据汇总及数据的图表显示等内容,如图3-1-1所示。

..\13-0072 统计与分析(改一校)改(重画4个)\030101.tif

图3-1-1 数据整理的程序

1.数据预处理

数据预处理包括对个体资料的编码、审核、排序、筛选等内容。

(1)编码

编码就是给变量值以数字代码,便于计算机识别。

(2)审核

对原始数据的审核主要是审核其完整性和准确性。

① 完整性审核是指检查调查单位是否遗漏,调查项目填写是否齐全。

② 准确性审核是检查填写的数据是否有错误。对二手数据除了审核其完整性和准确性之外,主要审核其适用性和时效性,确保二手数据的口径与分析的任务相一致。在对原始数据进行审核和处理时,有时需要对某些数据进行折算、差分,将数据标准化,剔除极值,用插值的方法补齐空缺的数据等,以减少数据的计量单位、极值、确失值等因素对分析结果的影响。

(3)排序

数据排序就是按一定顺序排列数据。排序有助于数据的检查和纠错,也能为分类或分组提供依据。

(4)筛选

数据筛选是将符合某种特定条件的数据筛选出来,通过筛选还可以剔除明显有错误的数据。

2.数据分类或分组

数据整理的关键是数据的分类或分组。

3.图表显示

表格和图形是展示数据整理结果的主要表现形式。

3.2 数据的分组

3.2.1 统计分组的概念

统计分组是数据整理的一项重要工作,分组是否恰当直接影响到统计分析的质量。

统计分组就是根据研究的目的,选择合适的分组标志将原始数据分成不同的组别。通过分组,可以将总体分为性质相异的不同组别,同时又将性质相同的个体单位归到某一组中。统计分组的主要目的是观察数据的分布特征。分组时应坚持以下原则。

① 各组的划分应能体现出总体内部各组成部分之间的性质差别。

② 要坚持互斥和穷尽的原则,“互斥”是指一个个体只能归属于某一组,而不能同时归属于几个组;“穷尽”是指总体中的每一个个体都必须有组可归。

③ 应能比较准确地反映出总体的分布特征。

统计分组所依据的标志有两类:品质标志和数量标志。品质标志的特点是其标志值用文字表示;数量标志的特点是其标志值用数字表示。

3.2.2 品质数据分组

按品质标志分组就是选择反映事物属性差异的品质标志作为分组标志,分组过程相对比较简单,因为事物的属性差异是客观存在的。有些品质标志分组界限清晰,所以分组标志有几种表现,就可以分成几组,如人口按性别、民族、职业、文化程度等标志分组,企业按所有制分组等。有些品质标志分组较为复杂,在实际社会经济生活中难以分辨,为此,联合国及各个国家都制定有适合一般情况的标准分类目录,如我国制定有《国民经济行业分类》《关于统计上划分经济成分的规定》《统计用产品分类目录》《文化及相关产业分类(2012)》《高技术产业统计分类目录》等。品质标志有两种表现,即分类数据和顺序数据。表3-2-1中的网民职业是分类数据,该分组表就是按分类数据分组,表3-2-2中的网民学历是顺序数据,该分组表就是按顺序数据分组。

表3-2-1  我国网民按职业分组

网民按职业分组

人数(人)

学生

 

党政机关事业单位领导干部

 

党政机关事业单位一般职员

 

企业/公司管理者

 

企业、公司一般职员

 

专业技术人员

 

商业服务业职工

 

制造生产型企业工人

 

个体户/自由职业者

 

农村外出务工人员

 

农林牧渔劳动者

 

退休

 

无业/下岗/失业

 

其他

 

表3-2-2  我国网民按学历分组

网民按学历分组

人数(人)

小学及以下

 

初中

 

高中/中专/技校

 

大专

 

大学本科及以上

 

3.2.3 数值型数据分组

数值型数据是用数字表示的,对数值型数据分组其分组过程要比分类数据和顺序数据复杂,分组时既要考虑研究对象的特点还要考虑变量的特点。具体分组形式有两种,即单项式分组和组距式分组。

1.单项式分组

单项式分组的特点是一个变量值作为一组。这种分组通常只适用于离散变量,且变量值较少的情况下。表3-2-3所示对城市居民家庭按家庭成员数进行分组,属于单项式分组。

表3-2-3  城市家庭按家庭成员数分组

按家庭成员人数分组

家庭数(个)

1

 

2

 

3

 

4及4以上

 

2.组距式分组

组距式分组是将全部变量值依次划分为若干个区间,一个区间的变量值作为一组。对于连续变量或者是变量值变化范围较大的离散变量,通常采用组距式分组的形式。表3-2-4所示为对网民按年龄分组,就属于组距式分组。

表3-2-4  我国网民按年龄分组

网民按年龄分组

人数(人)

10岁以下

 

10~19岁

 

20~29岁

 

30~39岁

 

40~49岁

 

50~59岁

 

60岁及以上

 

组距式分组需要依次确定组数、组距、组限等问题。

① 组数。一组原始资料应分多少组,这需要根据资料的特点来决定,应以能够显示数据的分布特征和规律为目的。若组数太少,数据的分布就会过于集中;组数太多,则数据的分布就会过于分散,不便于观察数据的分布特征。一般情况下,组数不少于5组,不多于15组。可参照美国学者斯特奇斯(H.A.Sturges)的经验公式计算,即

K=1+\frac{\lg n}{\lg 2}

式中,K为组数,n为数据个数。

实际应用时,要考虑数据本身的特点、数据的多少和分析的目的。

② 组距。组距是每一组上限与下限之差。上限是一组的最大值,下限是一组的最小值。组距大小与组数有关,组数增多,组距必然变小;组数减少,组距变大。组距可以根据全部数据的最大值与最小值之差和组数来决定,即

组距 =(最大值−最小值)/组数

实际中获得一个满意的组数和组距往往要经过反复尝试。各组组距相等时,称为等距分组;各组组距不相等时,称为不等距分组。通常情况下采用等距分组。组距宜取整数,如5或10的倍数。

③ 组限。组限是指每一组的上限和下限。组限的确定以保证变量值“不重不漏”为原则,即同一个变量值既不能被重复统计也不能被遗漏。组限的形式有两种,即重叠组限和不重叠组限。重叠组限是指将同一个变量值分别作为顺序两组的上限和下限,如表3-2-5所示我国网民按收入分组,1 000既是500~1 000这一组的上限,又是1 000~1 500这一组的下限。在重叠组限中应坚持“上限不在内”的原则,以解决“不重”的问题,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组。

表3-2-5  我国网民按收入分组

网民按年龄分组

人数(人)

无收入

 

500元以下

 

500~1 000元

 

1 000~1 500元

 

1 500~2 000元

 

2 000~3 000元

 

3 000~5 000元

 

5 000~8 000元

 

8 000元以上

 

采用何种组限形式应考虑变量的类型,对于离散变量,两个整数变量之间没有小数,既可以采用不重叠组限形式也可采用重叠组限形式;对于连续变量,由于两个整数之间有小数,所以为避免遗漏通常采用重叠组限的形式。

④ 组中值。组中值是组距式分组中每个组的代表值,这个代表值一般取每一组中点位置的值。组中值是每一组中上限与下限中间的值。使用组中值代表一组数据的条件是,各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。如果实际数据分布不符合这一假定,用组中值作为一组数据的代表值就会有一定误差产生。

组中值= 图像说明文字

缺下限组的组中值= 图像说明文字

缺上限组的组中值= 图像说明文字

3.2.4 统计分组的形式

统计分组按分组标志的多少及其排列形式可分为简单分组、平行分组体系和复合分组体系。在现实经济生活中,这3种形式都有广泛的应用价值。

1.简单分组

简单分组就是对被研究现象总体仅按一个标志所进行的分组。这种分组比较简单,它只能说明社会经济现象某一方面的状况。例如,表3-2-1至表3-2-5都是简单分组。

2.平行分组体系

对同一总体同时选择两个或两个以上的标志分别进行简单分组,然后并列在一起就形成了平行分组体系。表3-2-6所示为我国年末人口统计分组表,它采用了平行分组的形式。

表3-2-6  我国年末人口数

    指    标           年   末  数     
全国总人口
   其中:
      城镇
      乡村
   其中:
      男性
      女性
   其中:
      0~14岁
      15~59岁
      60~64岁
      65岁及以上
 
3.复合分组体系

将总体按两个或两个以上的标志结合起来进行层叠分组,形成复合分组体系。具体来说,它是先按一个标志分组,再按另一个标志对已经分好的各个组进行再分组。复合分组体系可以更深入细致地研究总体的内部结构,反映问题全面深入。但其组数会随着分组标志的增加而成倍地增加,使各组的单位数减少,次数分布不集中,不易揭示总体的本质特征。因此,复合分组体系不宜采用过多的分组标志,也不宜对较小总体进行复合分组。如表3-2-7所示,对某校学生先按专业分组,再按性别分组,就形成了复合分组体系。

表3-2-7  对某校学生进行分组

   按专业分组     人 数     
工商管理  
 
市场营销专业  
 
物流专业  
 
金融与实务专业  
 
会计专业  
 

3.3 频数分布

3.3.1 频数分布的概念

在分组的基础上,计算出各类别或数据在各组中出现的次数或频数,就形成了频数分布。频数分布又称次数分布或次数分布数列,包括两个要素:总体分组和各组的频数。频数是统计分组后各组数据出现的次数;频率是某一类别或组出现的次数占总次数的比重,通常用百分数(%)表示,各组频率之和等于1或100%。对数据进行分组的过程也就是频数分布的形成过程。

当需要观察某一数值以下或某一数值以上的频数之和时,就需要在分组的基础上计算累积频数。累积频数就是将各组别的频数逐级累加起来。累积的方法有两种,一种是向上累积,另一种是向下累积。从变量值小的一方向变量值大的一方累加频数,称为向上累积;从变量值大的一方向变量值小的一方累加频数,称为向下累积。分类数据计算累积频数是没有意义的,顺序数据和数值型数据在需要时可以计算累积频数。累积频率就是将各组的频率逐级累加起来,也有向上累积和向下累积两种方法。

3.3.2 频数分布的编制

【例3-3-1】 在一项关于“中国式过马路”的调查中,调查了126个人。在问及“您在等红灯的时候一般会做什么事?”时,回答“拿出手机,无目的地翻看”的人有13个,“打电话”的有6人,“手机上网”的有6人,“手机打游戏”的有2人,“听音乐”的有7人,“看报纸、杂志等”的有2人,“静静等待红灯”的有85人,“其他”有5人。

在本例中,等红灯时所做的事情属于分类数据,分项列出后,再列出每一项的人数,就形成了频数分布数列,如表3-3-1所示。

表3-3-1  等红灯的时候做什么

等红灯的时候做什么

人数(人)

拿出手机,无目的地翻看

13

打电话

6

手机上网

6

手机打游戏

2

听音乐

7

看报纸、杂志等

2

静静等待红灯

85

其他

5

合计

126

【例3-3-2】 某公司在进行客户满意度调查中,调查了300名顾客,在问及“在了解我公司产品的过程中,您觉得我公司的市场人员在充分了解客户需求方面是否令您满意?”时,有77人回答“非常满意”,132人回答“比较满意”,56人回答“一般”,31人回答“比较不满意”,4人回答“非常不满意”。

本例中,满意度属于顺序数据,分组时应将顺序数据的选项顺序列出,再列出每一组的人数,形成频数分布后,还可以计算累积频数,如表3-3-2所示。

表3-3-2  某公司客户满意度调查结果

满意程度 人数(人) 比重% 向上累积 向 下 累 积
人数(人) 比重% 人数(人) 比重%
非常不满意 4 1 4 1 300 100
比较不满意 31 10 35 11 296 99
一般 56 19 91 30 265 88
比较满意 132 44 223 74 209 70
非常满意 77 26 300 100 77 26
合计 126 100

【例3-3-3】 根据表3-3-3中某公司45名员工的月工资收入资料编制频数分布表。

本例中,工资水平属于数值型数据,且工资水平是连续变量,因此分组应采用组距式。具体步骤如下。

确定组数、组距和组限。

极差=最大值−最小值=12 999−2 300=10 699(元),假设组数为7组,则组距=极差÷组数= 10 699÷7≈1 500(元),各组组限确定为:2 500以下、2 500~4 000、4 000~5 500、5 500~7 000、7 000~8 500、8 500~10 000、10 000以上。

计算各组人数,形成频数分布,如表3-3-4所示。

表3-3-3  某公司45名员工月工资收入资料   单位:元

编  号    工 资 水 平
1    7 900
2   3 700
3   3 000
4   3 800
5   5 000
6   4 100
7   5 200
8   2 800
9   3 500
10   4 400
11   2 500
12   4 600
13   2 400
14   5 700
15   3 400
16   3 000
17   6 500
18   6 000
19   8 900
20   4 900
21   4 500
22   5 500
23   9 400
24   3 500
25   4 700
26   8 200
27   2 300
28   3 400
29   3 300
30   2 500
31   2 700
32   2 700
33   6 400
34   4 900
35   4 900
36   6 300
37   5 400
38   7 500
39   5 800
40   4 600
41   3 100
42   11 700
43   12 999
44   2 600
45   3 600
  —
  —
  —

表3-3-4  某公司员工的月工资收入分布情况

按工资水平分组(元)

人数(人)

2 500以下

2

2 500~4 000

17

4 000~5 500

12

5 500~7 000

7

7 000~8 500

3

8 500~10 000

2

10 000以上

2

合计

45

3.3.3 频数分布的常见形式

将频数分布表绘制成图形,横轴是总体分组,纵轴是频数或频率,可以直观地看出频数分布的形态。在日常生活和社会经济管理中,常见的频数分布形态主要有钟形分布、J形分布、U形分布等几种类型,如图3-3-1所示。

..\13-0072 统计与分析(改一校)改(重画4个)\030301.tif

图3-3-1 频数分布图

① 钟形分布的特征是“两头小,中间大”,即靠近中间的变量值频数多,两边的变量值频数少,其分布宛如一口古钟。如果以中心变量值为核心,左右两侧变量值的频数呈对称分布,这种分布在统计学中被称为正态分布,如图3-3-1(a)所示;非对称的钟形分布是偏态分布,如图3-3-1(b)所示。大量社会经济现象和自然现象的频数分布都趋向于正态分布。

② J形分布有两种类型,正J形和反J形,如图3-3-1(c)所示,如经济学中供给曲线,随着价格的提高供给量以更快的速度增加,呈现为正J形;而需求曲线则表现为随着价格的提高需求量以较快的速度减少,呈现为反J形。

③ U形分布的特征是两端的频数分布多,中间的频数分布少,如图3-3-1(d)所示,如人和动物的死亡率分布就近似服从U形分布,因为人口中婴幼儿和老年人的死亡率较高,而中青年的死亡率则较低。

3.3.4 Excel操作

在Excel中对数据进行分组并编制频数分布表,有4种途径,分别是“分类汇总”、“数据透视表”、“数据分析”中的“直方图”和频数函数“FREQUENCY”。

1.分类汇总

① 将【例3-3-1】中的原始资料录入到Excel表格中,并按“等红灯的时候做什么”排序,如图3-3-2所示。

图片 97

图3-3-2 Excel表格中的原始资料

② 用鼠标单击数据区域的任意单元格后,单击“数据”→“分类汇总”命令,如图3-3-3所示。在弹出的“分类汇总”对话框中,“分类字段”选择“等红灯的时候做什么”,“汇总方式”选择“计数”,“选择定汇总项”选择“等红灯的时候做什么”,其他默认,单击“确定”按钮,出现左侧带有三级目录的分类汇总结果,如图3-3-4所示。

图片 105

图3-3-3 分类汇总路径

③ 单击图3-3-4中左侧三级目录中的“2”,即得到频数分布表,将A列标题改为“等红灯的时候做什么”,将B列标题改为“人数(人)”,如图3-3-5所示。

图片 13

图3-3-4 分类汇总结果

图片 107

图3-3-5 频数分布

2.数据透视表

① 将【例3-3-2】中的原始资料录入到Excel表格中,为选项确定代码,“非常满意”为5,“比较满意”为4,“一般”为3,“比较不满意”为2,“非常不满意”为1,如图3-3-6所示。

图片 109

图3-3-6 Excel表格中的原始资料

② 用鼠标单击“数据”→“数据透视表和数据透视图”命令,进入“数据透视表和数据透视图向导——3步骤之1”,如图3-3-7所示。单击“下一步”按钮,进入“数据透视表和数据透视图向导——3步骤之2”,在“选定区域”选中数据区域,这里为A1:C301单元格区域,如图3-3-8所示。单击“下一步”按钮,进入“数据透视表和数据透视图向导——3步骤之3”,如图3-3-9所示。单击“布局”按钮,进入布局对话框,将“代码”分别拖入“行”和“数据”的位置,双击“数据”中的“代码”,将“求和”改成“计数”,如图3-3-10所示,然后单击“确定”按钮。

图片 15

图3-3-7 数据透视表和数据透视图向导——3步骤之1

图片 115

图3-3-8 数据透视表和数据透视图向导——3步骤之2

图片 17

图3-3-9 数据透视表和数据透视图向导——3步骤之3

图片 118

图3-3-10 数据透视表和数据透视图向导——布局

③ 单击步骤之3中的“完成”按钮,即得到满意度的频数分布表,如图3-3-11所示。

图片 19

图3-3-11  满意度频数分布表

3.数据分析——直方图

① 将【例3-3-3】中的原始资料录入到Excel表格中,并按“工资”排序,如图3-3-12所示。

图片 121

图3-3-12 Excel表格中的原始资料

如果“工具”菜单中没有“数据分析”,需要使用“加载宏”加载。步骤是:单击“工具”菜单中的“加载宏”选项,弹出“加载宏”对话框;选中“分析工具库”,再单击“确定”按钮,系统则自动加载上“数据分析”。

② 确定分组的组数、组距和组限(参见例3-3-3)。组数为7,组距为1 500,各组组限为:2 500以下、2 500~4 000、4 000~5 500、5 500~7 000、7 000~8 500、8 500~10 000、10 000以上。将各组的最大变量值输入Excel表格中的任意一列(注意:上限不在内),这里是C2:C9,如图3-3-12所示。

③ 用鼠标单击“工具”→“数据分析”命令,在“数据分析”对话框中选择“直方图”,如图3-3-13所示,单击“确定”按钮。在直方图对话框中,“输入区域”选中工资原始数据所在区域,这里是B2:B46;“接收区域”选中C3:C9;“输出区域”选择任意单元格,这里是D2,如图3-3-14所示。单击“确定”按钮,得到图3-3-15。

图片 124

图3-3-13 选择“直方图”

图像说明文字

图3-3-14 “直方图”对话框

④ 在图3-3-15中,将“接收”改为“按工资分组(元)”,将各组单变量值改为组距式;将“频率”改为“人数(人)”;将“其他”改为“合计”,并填上合计人数,得到图3-3-16。

图片 128

图3-3-15 Excel输出的频数分布

图片 23

图3-3-16 工资频数分布表

4.函数“FREQUENCY”

① 以【例3-3-2】中的原始资料为例,将原始资料输入到Excel表格中,为选项确定代码,参见图3-3-6。

② 将满意度代码1~5输入到Excel表格的任意一列中,这里是D2:D6单元格;鼠标拖动选定将要存放频数分布的单元格,这里是E2:E6;单击图片 24按钮,出现“插入函数”对话框,函数类别选择“统计”,函数选择“FREQUENCY”,如图3-3-17所示;单击“确定”按钮,出现“函数参数”对话框,在“Data_array”框中输入“C2:C301”,在“Bins_array”框中输入“D2:D6”,如图3-3-18所示。

图片 25

图3-3-17 选择“FREQUENCY”函数

图片 130

图3-3-18 “函数参数”对话框

③ 使用“Ctrl+Shift+Enter”组合键,得到各组频数,如图3-3-19所示。

图片 27

图3-3-19 满意度的各组频数

3.3.5 习题与实训

一、选择题

1.数据整理后落在某一特定类别或组中的数据个数称为(  )。

  A.频率    B.频数    C.频数分布表    D.累积频数

2.总体中各组的数据个数与全部数据个数之比称为(  )。

  A.频率    B.频数    C.累积频率     D.累积频数

3.将各有序类别或组的频数逐级累加起来称为(  )。

  A.频数    B.频率    C.累积频率     D.累积频数

4.按年收入分组,其分组依次为10万元以下,10万~20万元,20万~30万元,30万元以上,则(  )。

  A.10万元应归入第一组    B.20万元应归入第二组

  C.20万元应归入第三组    D.30万元应归入第三组

5.频数分布数列中各组频率之和(  )。

  A.大于100%    B.小于100%    C.不等于100%    D.等于100%

6.组中值是(  )。

  A.一个组的上限与下限之差        B.一个组的最小值

  C.一组的上限与下限之间的中点值    D.一个组的最大值

7.若按年收入分为10万元以下、10万~20万元、20万~30万元、30万元以上几组。最末一组的组中值近似值为(  )。

  A.30万元    B.35万元     C.40万元    D.45万元

二、思考题

1.简述数据整理的意义和程序。

2.简述统计分组的概念和统计分组应遵循的原则。

3.数值型数据分组有哪两种形式?各有什么特点?

4.统计分组从形式上有哪几种类型?

5.什么是频数分布?频数分布有哪几种常见的分布类型?

三、综合应用题

1.30位用户在被问到对某品牌手机质量的态度时,回答有很好(5)、较好(4)、一般(3)、较差(2)、很差(1)5种态度,资料如下。要求:①指出数据的类型;②对30位用户态度的资料进行分组,形成频数分布表并计算累积频数。

5 1 3 4 5 2 3 4 1 2 1 5 2 4 4
1 4 3 2 3 2 4 3 4 3 2 3 4 2 4

2.某公司所属38个企业某月的产品销收入如下(单位:万元)。试对该公司下属企业的销售收入进行分组整理,编制频数分布表。

165 100 172 165 270 180 278 155 265 182 295 187 230
258 182 120 174 202 410 223 352 179 246 256 260 220
268 247 230 190 245 310 230 236 248 330 244 219

3.4 统计表和统计图

3.4.1 统计表

统计表是以纵横交叉的线条绘制出的用以表现数据资料的表格。统计表是表现统计数据最基本的形式。利用统计表来表现统计资料,可以使数据更有条理,使人一目了然,便于阅读和检查,也便于计算和分析。在数据的收集、整理、描述和分析的每一个环节都要使用统计表,但这里探讨的主要是整理和分析所用的统计表。

1.统计表的构成

统计表从形式上看,一般由总标题、行标题、列标题和数字资料4部分组成,如表3-4-1所示。

表3-4-1 我国2011年规模以上工业企业实现利润    单位:亿元←总标题

图像说明文字

注:数据来自我国2011年统计公报。

总标题位于表的上方,包括表号和表的名称,当表中数据的计量单位相同时,可将计量单位放在表的右上角;行标题是横行的名称,在统计表中通常用以代表统计表所要说明的对象,一般写在表的左方;列标题是纵列的名称,在统计表中通常用来放置统计指标,一般位于表的右上方;数字资料是由行标题和列标题交叉所决定的指标值。另外,有些统计表在表下还需列出资料来源、指标注解等。

2.统计表的种类

整理后的统计表可以分为两类,即简单汇总表和分组表。

① 简单汇总表按总体单位的名称排列,也可按地区或时间顺序排列,并列出相应的指标值或根据专题列出汇总指标所形成的表格,如表3-4-2所示。

表3-4-2  2011年我国部分工业产品产量

产 品 名 称

单   位

产  量

亿米

837.0

化学纤维

万吨

3 390.0

成品糖

万吨

1 187.4

卷 烟

亿支

24 474.0

彩色电视机

万台

12 231.4

家用电冰箱

万台

8 699.2

汽 车

万辆

1 841.6

移动通信手持机

万台

113 257.6

微型计算机设备

万台

32 036.7

② 分组表的常见形式有简单分组表、复合分组表和交叉分组表。

简单分组是按一个标志分组所形成的表格,如表3-4-1所示。

复合分组表和交叉分组表都是同时按两个或两个以上的标志分组。复合分组是同时按两个或两个以上的标志重叠分组,如表3-4-3所示;交叉分组是同时在横栏和纵栏按不同的标志进行分组,如表3-4-4所示。

表3-4-3  复合分组表

按职工收入分组(元)   人数(人)  
2 500以下 男  30
36
2 500~3 500 42
50
3 500~4 500 33
26
4 500以上 25
10
合计 252

表3-4-4  交叉分组表

按职工收入分组(元)   人数(人)
合  计
2 500以下 30 36 66
2 500~3 500 42 50 92
3 500~4 500 33 26 59
4 500以上 25 10 35
   合计 130 122 252
3.编制统计表应注意的问题

由于使用者的目的和数据的特点不同,统计表在结构和形式上会表现出一些变化,但在设计上的基本要求是一致的,具体来说应注意以下几点。

① 表的整体结构应合理。从形式上,统计表的横竖长度比例适当,应避免过高或过宽的表格形式;从内容上,对行标题、列标题和数字资料位置的安排要合理。

② 表头的设计。表头一般包括表号和总标题。若表中全部数据的计量单位相同,也可将数据的计量单位置于表头(表的右上角);若计量单位不同,则将各计量单位放在相应变量的后面,或将所有计量单位单独列出一列标明。总标题应简明扼要地概括出统计表的内容,一般应包括统计数据的时间、地点和何种数据。

③ 表格线的使用。表格的上基线和下基线一般用粗线;表中的其他线用细线,列标题之间可用竖线分开,行标题之间尽量减少横线;表的左右两端不用竖线封口,采用“开口式”。

④ 数据的填写。表中数据一般是右对齐,有小数点的数据应统一小数点位数,并以小数点对齐;不应有数据的表格单元用“—”表示;缺少数据的表格单元用“…”表示。一张填好的统计表不应有空白单元格。

⑤ 表的注释。必要时应在表下方注明数据来源,这样既能方便读者查阅,也体现了对他人劳动成果的尊重;如果需要对表中指标进行解释的话,也可将其置于表的下方。

3.4.2 统计图

统计图是指利用几何图形(点、线、面、形)或其他图形来表现研究对象的特征、内部结构、相互关系等的一种图形,在社会经济现象分析中使用非常广泛。

“一图抵千字”是说一张精心设计的统计图能更有效地表达数据所传递的信息。计算机的普及以及图表软件的使用,可以帮助人们轻松地制作出花样繁多且质量上乘的统计图形。常用的统计图形有:条形图、圆形图、环形图、茎叶图、箱线图、直方图、线图、散点图、统计地图等。

在选择图形时,应考虑数据的类型。分类数据只表达数据之间的类别,显示分类数据可供选择的图形比较少,通常使用饼图(或称圆形图)和条形图。在对比两个或多个总体内部结构时可使用环形图。顺序数据不仅反映变量的类别,还能反映变量之间的顺序。分类数据适用的条形图、圆形图、环形图,顺序数据都适用,而且顺序数据还可以绘制累积频数(或频率)图。显示数值型数据的图形很多,适用于分类数据和顺序数据的图形也适用于数值型数据,同时,对数值型数据还可绘制出更多样的图形。

1.圆形图

圆形图也称饼图,是指使用圆形及圆内扇形的面积来表示数值大小的图形。圆形图如图3-4-1所示,主要用于表示总体中各部分所占的比例,对于研究结构性问题十分有用。

..\13-0072 统计与分析tu\030401.tif

图3-4-1 某通信公司某年长途通话方式构成

2.条形图

条形图是指使用宽度相同的条形的高度或长短来表示数据多少的图形。绘图时,各条形如果横置,称为条形图(见图3-4-2),如果纵置,称为柱形图(见图3-4-3)。条形图还可分为简单条形图和复合条形图,图3-4-2所示为是简单条形图,图3-4-3所示为是复合条形图。另外,条形图还可以绘制成分段条形图的形式,如图3-4-4所示。

如果您有孩子,您会给自已的小孩买iPad吗?

..\13-0072 统计与分析tu\030402.tif

图3-4-2 条形图

..\13-0072 统计与分析tu\030403.tif

图3-4-3 我国网民城乡分布柱形图

..\13-0072 统计与分析tu\030404.tif

图3-4-4 我国城镇居民收入结构变化情况

3.环形图

环形图与圆形图类似,但又有区别。圆形图只能显示一个总体各部分所占的比例,而环形图则可以同时显示多个总体内部各部分所占的比例,有利于进行对比研究,如图3-4-5所示。

..\13-0072 统计与分析tu\030405.tif

图3-4-5 甲乙两地对某通信公司服务的满意程度

4.茎叶图

茎叶图是由“茎”和“叶”两部分组成、显示原始数据分布状况的一种图形。通过茎叶图,可以观察数据的分布状况及数据的离散状况,如数据分布是否对称,是否有极端值存在等。茎叶图不同于其他图形的一点,就是在反映数据分布状况的同时保留了原始数据的信息,如图3-4-6所示。

图像说明文字

图3-4-6 茎叶图

从图3-4-6中可以看出,茎叶图由3列构成,“频数”列,表示所在行的数据个数;“树茎”列,以图中数据为例,表示“十位数”上的数据,茎都是“1”; “树叶”列,以图中数据为例,表示“个位数”上的数据。

制作茎叶图时,应首先把一个数字分成两部分,通常以该数据的高位数值作为树的“茎”,树的“叶”只保留该数值的最后一位数字。实际应用中,茎叶图行数的确定需要根据数据的分散状况及数据的数量来决定,以充分显示出数据的分布特征为目的。

茎叶图与直方图的形状与功能非常相似,茎叶图实际上可以近似地被看成是直方图横向放置的结果。二者的主要差异是,茎叶图既反映出了数据的分布状况,又保留了原始数据的信息,而直方图虽然能很好地显示数据的分布,但不能保留原始数据;直方图一般适用于数据量较大的情况,茎叶图在数据量较小时优势非常明显。

5.箱线图

箱线图由一个箱子、箱子中间的竖线、外延出来的两条线及最外端可能有的表示异常值的点组成。箱子中间的竖线表示该组数据的中位数,箱子两端分别代表了上四分位数(即75%百分位数)和下四分位数(即25%的百分位数),外延线两端是最大值和最小值。箱子中间包含了总体50%的数据。上四分位数和下四分位数之间的距离称为四分位数间距,如果一个数据离箱子两端的距离超过四分位数间距的1.5倍以上,通常被认为是异常值。如图3-4-7所示,箱线图中包含了一组数据的5个点:最大值、上四分位数、中位数、下四分位数、最小值。

图像说明文字

图3-4-7 箱线图

6.直方图

直方图是用来显示分组后的数值型数据频数分布的图形。如图3-4-8所示,横轴表示数据分组,纵轴表示频数或频率,各矩形(直条)的面积表示各组的频数(或频率),各矩形的面积之和为总频数(或总频率)。若各组组距不等,则用各组组距除以该组频数的商为矩形的高度,该组的组距为矩形的宽度,以保证矩形的面积等于该组的频数。对于等距分组数据,可以用矩形的高度直接表示频数的多少。

..\13-0072 统计与分析tu\030408.tif

图3-4-8 某公司员工月加工量(件)直方图

直方图与条形图很相似,二者的主要区别是:①条形图主要用于显示分类数据和顺序数据的分布,直方图主要用于显示数值型数据的分布;②条形图各条是分开排列的,直方图各矩形通常是连续排列的;③条形图是用条形的长度表示各类别频数的多少,直方图是用矩形的面积表示各组频数的多少。

7.线图

线图是在平面坐标上用折线表现数据变化特征和规律的图形。折线图适用于显示随时间而变化的连续数据,反映在相等时间间隔下数据发展变化的规律和趋势。如图3-4-9所示,图中手机网民占整体网民比例就是折线图,反映手机网民规模的部分则是一个面积图。

..\13-0072 统计与分析(改一校)改(重画4个)\030409.TIF

图3-4-9 中国手机网民规模及其占网民比例

8.散点图

前述图形主要是反映一个变量的分布状况(如直方图、茎叶图、箱线图等)或一个变量的变化趋势(如线图)。散点图常被用来表现两个变量或多个变量之间的关系,用在二维坐标或三维坐标中散点的密集程度和形态表示两个变量之间或多个变量之间的相关关系。这里主要介绍常用的反映两个变量之间相关关系的二维散点图(或称简单散点图),如图3-4-10所示的居民收入与社会商品零售额的关系。

..\13-0072 统计与分析tu\030410.tif

图3-4-10 某市居民收入与社会商品零售额的相关图

9.统计地图

统计地图是借助于地图反映研究对象数量特征的一种图型。它可形象地反映、对比统计对象之间的差异性,表现各种社会经济现象的特征、规模、水平、结构、地理分布、相互依存关系及其发展趋势。

3.4.3 Excel操作

使用Excel中的“图表向导”可绘制各种统计图。在Excel界面,单击“插入”→“图表”命令,就可以跟随“图表向导”完成统计图的绘制了。

【例3-4-1】 以表3-3-1所示资料为例,说明条形图的绘制。

①将表3-3-1中的资料输入到Excel表格中,如图3-4-11所示。

图片 134

图3-4-11 Excel中的频数分布资料

②单击“插入”→“图表”命令,进入“图表向导”步骤1—图表类型,选择“条形图”,单击“下一步”按钮;进入“图表向导”步骤2—图表源数据,选中数据,这里选择是A2:B9,单击“下一步”按钮;进入“图表向导”步骤3—图表选项,在“数据标志”项中勾选“值”,其他选项默认,单击“下一步”按钮;进入“图表向导”步骤4—图表位置,选中“作为其中的对象插入”。

③单击“完成”按钮,输出条形图,如图 3-4-12所示。

..\13-0072 统计与分析tu\030413.tif

图3-4-12 条形图

【例3-4-2】 以表3-3-2所示资料为例,说明饼图的绘制。

将表3-3-2中的资料输入到Excel表格中,如图3-4-13所示。

图片 140

图3-4-13 Excel中的频数分布资料

绘图路径同【例3-4-1】,唯一的区别是在选择图表类型时选择“饼图”。输出饼图如图3-4-14所示。

..\13-0072 统计与分析tu\030415.tif

图3-4-14 饼图

【例3-4-3】以表3-3-3所示资料为例,说明直方图的绘制。

将表3-3-3中的原始资料录入到Excel表格中,并按“工资”排序,如图3-3-12所示。

确定分组的组数、组距和组限,并将各组的最大变量值输入Excel表格中的任意一列,这里是C3:C9,如图3-3-12所示。

用鼠标单击“工具”→“数据分析”→“直方图”→“确定”。在“直方图”对话框中,其他操作同前面所述,为了得到直方图,这里勾选“图表输出”。单击“确定”按钮,Excel连同频数分布一起输出了直方图。如图3-4-15所示,对该图编辑后得到图3-4-16。

..\13-0072 统计与分析(改一校)改(重画4个)\030416.tif

图3-4-15 Excel输出的直方图

..\13-0072 统计与分析tu\030417.tif

图3-4-16 直方图

3.4.4 习题与实训

一、选择题

1.以竖条的高低代表各类别数据出现频数多少的图形称为(  )。

  A.条形图    B.饼形图    C.对比条形图     D.直方图

2.适合于比较研究两个或多个总体结构性问题的图形是(  )。

  A.饼形图    B.条形图    C.环形图     D.累积频数图

3.顺序数据适合绘制的图形有(  )。

  A.饼形图   B.条形图    C.环形图     D.累积频数图

4.对于时间序列数据,用于描述其变化趋势的图形通常是(  )。

  A.条形图    B.直方图    C.箱线图     D.线图

5.由一组数据的最大值、最小值、中位数和两个四分位数绘制而成的,反映一组数据分布的图形称为(  )。

  A.条形图   B.茎叶图     C.直方图     D.箱线图

6.考察两个变量之间是否存在某种关系时,适合采用的图形是(  )。

  A.条形图    B.散点图     C.箱线图     D.环形图

7.与直方图相比,茎叶图(  )。

  A.没有保留原始数据的信息     B.保留了原始数据的信息

  C.适合于描述小批量数据的分布   D.更适合描述分类数据

8.对已分组的数据通常使用(  )来显示其分布。

  A.茎叶图    B.直方图    C.线图    D.箱线图

9.统计表从形式上看,一般包括(  )。

  A.总标题    B.行标题    C.列标题

  D.指标数值   E.调查单位

二、思考题

1.适合分类数据和顺序数据的图示方法有哪些?

2.描述数值型数据常用的图形有哪些?

3.统计表主要由哪几部分组成?编制统计表需要注意哪些问题?

三、综合应用题

1.据调查,某地消费者主要使用的银行机构集中在5家,依次是:中国工商银行(38.9%)、中国建设银行(19.4%)、中国农业银行(13.3%)、招商银行(10.8%)、中国银行(8.2%),其余的只占9.4%。指出上述数据的类型,并绘制饼图显示该数据。

2.某公司三月份31天的销售额(单位:万元)资料如下,指出数据的类型,根据数据绘制茎叶图、箱线图和直方图。

41 46 35 42 25 36 28 36 29 45 46 37 47 37 34 37
38 37 30 49 34 36 37 39 30 45 44 42 38 43 26  

3.某公司45名员工的教育程度资料如下,绘制一个饼图反映该公司员工的教育程度构成。

本科 高中 高中 本科 初中 高中 高中 高中 高中 大专 大专 大专
本科 大专 硕士 高中 大专 大专 初中 本科 高中 大专 本科 硕士
本科 大专 大专 高中 高中 硕士 高中 大专 本科 高中 高中 大专
初中 本科 本科 硕士 大专 高中 大专 大专 初中 大专 初中 高中

【任务解析】

该任务引自中国互联网络信息中心(CNNIC)2012年7月19日在京发布的《第30次中国互联网络发展状况统计报告》。中国互联网络信息中心自1997年开始,对我国网民规模、结构特征、接入方式和网络应用情况进行了连续的调查研究,并于每年1月和7月定期发布《中国互联网络发展状况统计报告》。

那么,在完成一项调查之后,应怎样进行数据的整理?以什么形式展示整理的结果呢?本任务解答的就是这个问题。数据整理的目标是将调查所获得的大量零散的个体资料转化成内部结构和分布比较清晰的总体资料,数据整理的基本方法就是统计分组,即将个体资料归到不同的组或类别,分组后形成的频数分布可以让研究者清晰地看出总体内部的结构或分布特征。一项调查会涉及很多问题,而一次只能整理一个问题,每一个问题的调查数据都能归属于某一个数据类别,即分类数据、顺序数据或数值型数据,如网民的性别是一个分类数据,网民的文化程度是一个顺序数据,网民的收入水平是一个数值数据。不同类别数据的整理方法又有所不同,本任务分别介绍了分类数据、顺序数据和数值型数据的整理过程。《中国互联网络发展状况统计报告》就是由一个个问题的整理结果组成的。另外,图、表是展示统计整理结果必不可少的工具,是简明、高效地表现统计数据的重要方式。本任务介绍了统计表的基本结构和类型、统计图的常见形式及适用条件。《中国互联网络发展状况统计报告》图文并茂,充分运用了图表的表现形式。

【相关知识图示】

图像说明文字

目录

同系列书

  • 税务会计(第2版)——全面支持“营改增”

    梁伟样

    本书根据高职院校以培养高技能人才为主的教学目标,按照工作过程,以项目导向、任务驱动来设计教材体例...

    ¥48.00
  • 会计电算化——用友ERP-U8 V10.1版(附微课视频 第2版)

    王珠强 陶克三 牛永芹

    主要内容包括:会计电算化理论认知、账套和用户管理、公共基础信息设置、总账系统核算与管理、应收款系统核算与管理、...

    ¥56.00
  • 会计基础与实务(第2版)

    程淮中 李群 赵燕

    全书分十个项目,包括:了解企业、会计工作组织与会计职业;描述会计、会计目标和会计方法;划分会计要素,建立会计等...

    ¥49.80
  • 公共关系实务(微课案例版 第2版)

    赵轶

    本书是“十二”职业教育国家规划教材。全书深入贯彻教育部《关于深化职业教育教学改革全面提高人才培养质量的若干意见...

    ¥39.80
  • 会计电算化——用友ERP-U8 V10.1版

    王珠强 秦雨虹 牛永芹

    本书以用友ERP-U8V10.1软件为平台,以某企业经济业务活动为主线,采用“任务描述与分析→相关知识→任务实...

    ¥46.00
  • 公共关系实务

    赵轶

      本书是全国首批28所高职示范性院校建设项目成果,全书深入贯彻教育部2006年第16号《教育部关于全面提高高...

    ¥29.80
  • 中国税收

    王碧秀

      本书依据教育部《关于全面提高高等职业教育教学质量的若干意见》精神要求,针对高职培养高端技能型人才的目标,根...

    ¥36.00
  • 会计电算化实务

    徐文杰 黄敏

      本书以“基于工作过程”和“项目化”的职教理念为基础,针对中小企业电算会计岗位职业需要而开发,打破以知识传授...

    ¥36.00
人邮微信
本地服务
教师服务
教师服务
读者服务
读者服务
返回顶部
返回顶部