数据的收集方法
本次在线英才薪资调查,被测试者不需填写姓名,系统只将e-mail地址作为唯一识别号,这就减小了被测试者的作弊动机,并且通过技术手段,三层筛选,确保同一回答者不能回答同一问卷两次及更多次。
本期2003年下半年(7月1日--12月31日)收集的原始数据总量为49377条。
数据的探索方法
逻辑规则探索——排除不合理数据
说明:我们对不符合逻辑规则的数据做相应的处理,以保证数据的有效性。所有的逻辑规则按照序号由小到大执行;如果某个纪录中含有多个逻辑错误,那么,它将被序号最小的规则所处理。
例子:某纪录中年薪大于月薪的100倍,而且月薪小于200元(规则5、8),那么它将由规则5来处理。
规则
序号
|
逻辑错误类别
|
本期发生记录数(条)
|
1
|
对本期数据按照e-mail地址排序,相同e-mail地址的数据只保留最早的一条记录,删除其余重复记录
|
362
|
2
|
未满18岁就已工作
|
199
|
3
|
前一职位薪资大于现职位薪资的10倍
|
35
|
4
|
现职位薪资大于前一职位的50倍
|
30
|
5
|
年薪大于月薪的100倍
|
55
|
6
|
工龄一年以下,但年薪超过240000(上期99%分位点)
|
42
|
7
|
北京地区月薪少于260元
|
21
|
8
|
其他地区月薪小于200元
|
38
|
9
|
年薪高于240000元(上期99%分位点值),工龄少于5年
|
149
|
10
|
本科学历以上,但年薪少于6000元
|
122
|
11
|
有过海外经历,但年薪少于10000元
|
116
|
12
|
年薪高于240000元,工作单位性质为'政府机关'
|
4
|
13
|
行业累计任职时间1年以下,年薪超过240000(上期99%分位点)
|
107
|
14
|
薪资各位数数字相同,如111111
|
0
|
15
|
行业涂鸦(如“什么也不是”)
|
414
|
|
总计
|
1694
|
排除非研究范围数据
类别
|
本期发生数(条)
|
(1)职业类别为'学生/无工作/下岗’
|
335
|
(2)行业为'学生/无工作/下岗’
|
158
|
经过数据的探索阶段,提出不合理数据2187条,得到符合研究范围的合理数据为47190条记录。
均值的计算方法
数据探索后,符合研究范围内的合理数据为47190条记录。针对这47190个合格参加者的年薪收入水平作频数分布分析,均值受高值影响显著(高出中位数55.2%—见下表)。为了体现大多数被调查者的真实年薪收入水平,取年薪收入位于99%分位点以下的人进行均值分析。因此,据此得出的年薪均值代表了至少99%的被调查者的平均水平(见4.3部分)。
总体样本目前税后年薪
(RMB 元)
|
样本数n
|
47190
|
均值
|
40676
|
中位数
|
26200
|
众数
|
24000
|
1%分位点值
|
9600
|
25%分位点
|
16800
|
50%分位点值
|
26200
|
75%分位点值
|
45500
|
95%分位点值
|
102000
|
99%分位点值
|
240000
|
从上面的表格可知,大于240000元年薪的人数只占全体参加调查者的1%。对比上期的调查结果,平均薪资下降了将近1/6(上期均值48275元)!
指数的计算方法
为了清楚明了的反应各个层次参加此次调查网民的薪资水平,即不仅体现大众薪资水平,同时反应高收入者的薪资状况,本次分析同时给出大众指数和高薪指数,均采用稳定性强的百分位数进行计算。
大众指数:用全体参与者的薪资中位数做分母,各分类的中位数做分子
高薪指数:用全体参与者的薪资95%分位点数做分母,各分类的95%分位点数做分子,用来体现高收入人群在各行各业的相对可比状况。
|