1.什么是组距式变量数列
2.组距式变量数列的编制
在编制过程中,要正确处理的具体问题。
①组数与组距
编制组距数列,必须对总体进行分组,针对一个总体,应将其分为多少组,这要根据研究的目的来确定,同时要本着以能简单明了地反映问题为原则。如果组数过多,必然会造成总体单位分布分散,同时还有可能把属于同类的单位归到不同的组中,不能真实反映出事物的本质特点和规律性;如果组数过少,又会造成把不同性质的单位归到同一个组内,失去区别事物的界限,达不到正确反映客观事实的目的。因此,必须恰当地确定组数。美国学者斯特奇斯 (HASturges)提出,在总体各单位标志值分布趋于正态的情况下,可根据总体单位数(N)来确定应分组数(n),公式为:
n=1+3.322lgN
上式可供分组时参考,但也不能生搬硬套。当总体单位数过少时,按上述公式计算的组数可能偏多;而当总体单位数很多时,计算的组数又可能偏少。
确定组数后,还应确定组距。组数和组距之间存在着密切关系。在全距(最大变量值与最小变量值之差)一定的情况下,组距的大小和标志变量数列的全距大小成正比变化,与组数多少成反比变化。
组数越多,组距越小;组数越少,组距越大。由于组距数列有等距数列与异距数列之分,在采用等距分组的情况下,变量数列编制的组距(d)可采用下列公式确定:
组距数列中,每个组都有两个端点,这两个端点称为组限。数值小的端点称为组的下限,数值大的端点称为组的上限。
若一组内有上限缺下限,或有下限缺上限称为开口组;
若一组内的上限、下限都齐全称为闭口组。
组距数列掩盖了组内各单位的实际变量值,通常用组中值近似地代替每组变量值的一般水平。
注意:用组中值来代表各组的一般水平时,变量值在该组应呈均匀分布,或在组中值两侧呈对称分布,否则,用组中值作为一组的代表值会有一定的误差。