1.什么是统计数据[1]
统计数据是统计工作活动过程中所取得的反映国民经济和社会现象的数字资料以及与之相联系的其他资料的总称。统计研究客观事物的数量方面,离不开统计数据,统计数据是对客观现象进行计量的结果。
2.统计数据的类型
统计数据是采用某种计量尺度对事物进行计量的结果,采用不同的计量尺度会得到不同类型的统计数据。从上述四种计量尺度计量的结果来看,可以将统计数据分为以下四种类型:
- 定类数据——表现为类别,但不区分顺序,是由定类尺度计量形成的。
- 定序数据——表现为类别,但有顺序,是由定序尺度计量形成的。
- 定距数据——表现为数值,可进行加、减运算,是由定距尺度计量形成的。
- 定比数据——表现为数值,可进行加、减、乘、除运算,是由定比尺度计量形成的。
前两类数据说明的是事物的品质特征,不能用数据表示,其结果均表现为类别,也称为定性数据或品质数据(Oualitative data);后两类数据说明的是现象的数量特征,能够用数值来表现,因此也称为定量数据或数量数据(Quantitative data)。由于定距尺度和定比尺度属于同一测度层次,所以可以把后两种数据看作是同一类数据,统称为定量数据或数值型数据。
区分测量的层次和数据的类型是十分重要的,因为对不同类型的数据将采用不同的统计方法来处理和分析。比如,对定类数据,通常计算出各组的频数或频率,计算其众数和异众比率,进行列联表分析和x2检验等;对定序数据,可以计算其中位数和四分位差,计算等级相关系数等非参数分析;对定距或定比数据还可以用更多的统计方法进行处理,如计算各种统计量、进行参数估计和检验等。我们所处理的大多为数量数据。
这里需要特别指出的是,适用于低层次测量数据的统计方法,也适用于较高层次的测量数据,因为后者具有前者的数学特性。比如:在描述数据的集中趋势时,对定类数据通常是计算众数,对定序数据通常是计算中位数,但对定距和定比数据同样也可以计算众数和中位数。反之,适用于高层次测量数据的统计方法,则不能用于较低层次的测量数据,因为低层次数据不具有高层次测量数据的数学特性。比如,对于定距和定比数据可以计算平均数,但对于定类数据和定序数据则不能计算平均数。理解这一点,对于选择统计分析方法是十分有用的。
3.统计数据的计量尺度
对统计数据的属性、特征进行分类、标示和计算,称为统计计量或统计量度。例如,对工业企业经济效益的统计,对居民生活水平的统计,也可以说是对工业企业经济效益的计量,对居民生活水平的计量,如此等等。由于客观事物有的比较简单,有的比较复杂,有的特征和属性是可见的(如人的外貌体征),有的则是不可见的(如人的偏好和信仰),有的表现为数量差异,有的表现为品质差异。因此,统计计量也就有定性计量和定量计量的区别,并且可分不同的层次。美国社会学家、统计学家史蒂文斯(S.S.Stevens)1968年按照变量的性质和数学运算的功能特点,将统计计量划分为四个层次或四种计量尺度:
1、定类尺度
将数字作为现象总体中不同类别或不同组别的代码,这是最低层次的尺度。在这种情况下,不同的数字仅表示不同类(组)别的品质差别,而不表示它们之间量的顺序或量的大小。定类尺度的主要数学特征是“=”或 “≠”。
例如将国民经济按其经济类型,可以分为国有经济、集体经济、私营经济、个体经济等类,并用(01)代码表示国有经济,(02)表示集体经济,(03)表示私营经济,(04)表示个体经济。并且用(011)代表国有经济中的国有企业,(012)代表国有联营企业;用(021)表示集体经济中集体企业,(022)表示集体联营企业;用(031)表示私营经济中的私营独资企业,(032)表示私人合伙企业,(033)表示私营有限责任公司;用(041)表示个体经济中的个体工商户,(042)表示个人合伙等等。其中两位代码表示经济大类,而三位代码则表示各类中的构成。不同代码反映同一水平的各类(组)别,并不反映其大小顺序。各类中虽然可以计算它的单位数,但不能反映第一类的一个单位可以相当于第二类的几个单位等等。
2、定序尺度
定序尺度不但可以用数表示量的不同类(组)别,而且也反映量的大小顺序关系,从而可以列出各单位、各类(组)的次序。定序尺度的主要数学特征是“>”或“<”。在统计的变量数列中可以确定其中位数、分位数等指标的位置。
例如对合格产品按其性能和好坏,分成优等品、一等品、合格品等等。这种尺度虽然也不能表明一个单位一等品等于几个单位二等品,但却明确表示一等品性能高于二等品,而二等品性能又高于三等品等等。定序尺度除了用于分类(组)外,在变量数列分析中还可以确定中位数、四分位数、众数等指标的位置。
3、定距尺度
定距尺度也称间隔尺度,是对事物类别或次序之间间距的计量,它通常使用自然或度量衡单位作为计量尺度。定距尺度是比定序尺度高一层次的计量尺度。它不仅能将事物区分为不同类型并进行排序,而且可以准确地指出类别之间的差距是多少。定距尺度的主要数学特征是“+”或“-”。定距尺度在统计数据中,占据重要的低位,统计中的#REDIRECT总量指标就是运用定距尺度为计量尺度的。
例如,学生某门课程的考分,可以从高到低分类排序,形成90分、80分、70分,直到零分的序列。它们不仅有明确的高低之分,而且可以计算差距,90分比80分高10分,比70分高20分等等。定距尺度的计量结果表现为数值,可以进行加或减的运算,但却不能进行乘或除的运算,其原因是在等级序列中没有固定的、有确定意义的“零”位。例如,学生甲得分90分,学生乙得0分,可以说甲比乙多得90分,却不能说甲的成绩是乙的90倍或无穷大。因为“0”分在这里不是一个绝对的标准,并不意味着乙学生毫无知识。恰如我们不能说40℃比20℃暖和2倍一样。没有确定的标准的“零”位,但有基本的确定的测量单位,如学生成绩的测量单位是1分,质量价差的测量单位量1元,温度的测量单位是1℃等等,这是定距尺度的显著特点。
4、定比尺度
定比尺度是在定距尺度的基础上,确定可以作为比较的基数,将两种相关的数加以对比,而形成新的相对数,用以反映现象的构成、比重、速度、密度等数量关系。由于它是在比较基数上形成的尺度,所以能够显示更加深刻的意义。定比尺度的主要数学特征是“÷”或“×”。在统计的对比分析中,广泛地运用定比尺度进行计量。
例如将某地区人口数和土地面积对比计算人口密度指标,说明人口相对的密集程度。甲地区人口可能比乙地区多,但甲地区的土地更广阔,用人口密度指标就可以说明相对说来甲地区人口不是多了,而是少了。又如将一个国家(地区)的国内生产总值与该国(地区)居民对比。计算人均国内生产总值,可以反映国家(地区)的综合经济能力。1998年我国国内生产总值约占世界生产总值的12%,排列世界第七位,堪称世界经济大国,但我国人口占世界总人口的21.2%,如果按人均国内生产总值计算,在世界各国中又居于比较落后的位次,说明我国仍属于发展中国家。
上述四种计量尺度对事物的计量层次是由低级到高级、由粗略到精确逐步递进的。高层次的计量尺度具有低层次计量尺度的全部特性,但不能反过来。显然,我们可以很容易地将高层次计量尺度的测量结果转化为低层次计量尺度的测量结果,比如将考试成绩的百分制转化为五等级分制。在统计分析中,一般要求测量的层次越高越好,因为高层次的计量尺度包含更多的数学特性,所运用的统计分析方法越多,分析时也就越方便,因此应尽可能使用高层次的计量尺度。
4.统计数据的表现形式
统计数据通常表现为:绝对数,相对数,平均数。
5.统计数据的质量
统计数据质量是一个具有丰富内涵的综合性概念。具体来说,它包括统计数据的内容质量、表述质量及约束标准这三大方面。
(一)统计数据的内容质量
统计数据的内容质量是统计数据最基本的特征,它包括相关性、准确性与及时性。一旦缺少了其中任何一个,统计数据就失去了转化为信息的性质和基本作用。因此,这三个特征也可称为统计数据质量的主要特征。
1、相关性
相关性是指统计机构所生产的数据是否正是用户感兴趣的统计数据。统计数据的相关性反映了它满足用户需求的程度,它与所提供的可利用数据是否关注了对用户来说最重要的主题有关。由于对相关性的评价是主观的,会随用户需求目标的改变而改变,所以统计机构所要做的是平衡不同用户的互相矛盾的需求目标,在给定的资源条件限制下,尽可能的满足大部分用户的大部分需求。
2、准确性
准确性指观测值或估计值与未知的真值之间的距离(接近程度),通常用统计误差来衡量。它是统计数据质量的基础和核心内容,也是传统的“统计数据质量”概念所考虑的主要问题。一般来讲,误差分为系统误差和随机误差两部分,有时也用引起不准确性的主要潜在原因(如抽样误差、无回答误差等)来分类描述。完全准确的测量经常受到成本的限制,有时甚至是不可能的。所以关键的是误差是否已降低到用户可以接受的地步。
3、及时性
与用户需求相关的准确的统计数据如果没有在用户做出决策之前传递给用户,那么该数据对用户来说,是没有用的。所以,及时性也是统计数据能否满足用户需求的重要特征。如果该现象本身变化比较迅速,则对该类统计数据的及时性要求高;如果该现象本身变化比较缓慢,则对及时性要求不高。
(二)统计数据的表述质量
对统计数据质量来说,仅考虑其内容方面的质量是不够的。统计数据需要表述,特别是将某个统计数据同其他相关统计数据相互联系地加以表述时,要考虑表述的质量问题。比如单个数据的内容是正确的,但表述不清晰、不充分,就会影响整套数据的质量,甚至引起误解。所以,统计数据质量必须考虑其表述质量。统计数据的表述质量包括可比性、可衔接性和可理解性。
1、可比性
可比性是指同一项目的统计数据在时间上和空间上的可比程度。这要求统计的概念和方法在时间上保持相对稳定,在不同地区使用统一的统计制度方法和分类标准,保持统计数据的口径范围、计算方法在时间上一致衔接,在地区之间可比。
2、可衔接性
可衔接性是指同一统计机构内部不同统计调查项目之间、不同机构之间以及与国际组织之间统计数据的衔接程度。这要求全国范围内所有专业统计项目在统一的统计框架体系、分类标准下,按统一的方法编制统计数据,在统计调查和数据加工整理中使用统一的方法和程序,同时采用国际统计标准,如联合国1993年SNA的框架体系等。
3、可理解性
可理解性是指统计数据便于用户正确理解并使用的程度。统计数据是提供给用户使用的,如果某些用户不能理解,看不懂统计数据和统计分析报告,当然也就谈不上使用数据。为了恰如其分地使用从统计机构那里得到的统计数据,用户必须了解他们所获得数据的性质。这就要求统计机构在提供统计数据的同时附带提供对数据的补充说明,如提供隐含在有关概念下面的说明、已使用的分类法、数据收集和加工过程中所使用的方法以及统计机构自身对数据质量的评价。
(三)统计数据的约束标准
在实现统计数据目标的过程中,除了注意统计数据的内容质量和表述质量这两方面外,还必须注意以下两项具有普遍意义的约束标准,这也体现了统计数据的质量特征。
1、可取得性
可取得性是指用户从统计部门取得统计数据的便利程度。对于有用的统计数据,用户必然要考虑:能得到哪些数据,如何得到这些数据。因此,统计数据必须以一种用户能够使用(搜寻方便)而且能够负担的形式提供给用户。这要求提供统计数据时,必须列明用户从统计机构可以取得的统计数据内容,同时要应用先进便捷的统计数据服务方式,使用户取得数据更为便利。
2、有效性
有效性是指统计数据的利用所产生的效益要大于提供该数据的成本。如果情况相反,则提供这种数据对提供方和使用方来说都是不值得的。虽然目前统计数据的效益和成本特别是前者不容易准确地计量,但是,保持这样一种基本的指导思想是十分必要的。这要求在统计数据的其他质量不受大的影响的前提下,尽可能降低统计数据的生产费用,提高效率。