说明:我们对不符合逻辑规则的数据做相应的处理,以保证数据的有效性。所有的逻辑规则按照序号由小到大执行;如果某个纪录中含有多个逻辑错误,那么,它将被序号最小的规则所处理。
例子:某纪录中年薪大于月薪的100倍,而且月薪小于200元(规则5、8),那么它将由规则5来处理。
规则
序号
|
逻辑错误类别
|
本期发生记录数(条)
|
1
|
对本期数据按照E-mail地址排序,相同E-mail地址的数据只保留最早的一条记录,删除其余重复记录
|
216
|
2
|
未满18岁就已工作
|
77
|
3
|
前一职位薪资大于现职位薪资的10倍
|
13
|
4
|
现职位薪资大于前一职位的50倍
|
23
|
5
|
年薪大于月薪的100倍
|
44
|
6
|
工龄一年以下,但年薪超过240000(上期99%分位点)
|
47
|
7
|
北京地区月薪少于260元
|
13
|
8
|
其他地区月薪小于200元
|
29
|
9
|
年薪高于240000元(上期99%分位点值),工龄少于5年
|
106
|
10
|
本科学历以上,但年薪少于6000元
|
153
|
11
|
有过海外经历,但年薪少于10000元
|
76
|
12
|
年薪高于240000元,工作单位性质为'政府机关'
|
3
|
13
|
行业累计任职时间1年以下,年薪超过240000(上期99%分位点)
|
91
|
14
|
薪资各位数数字相同,如111111
|
0
|
15
|
行业涂鸦(如“什么也不是”)
|
333
|
|
总计
|
1224
|
类别
|
本期发生数(条)
|
(1)职业类别为'学生/无工作/下岗’
|
284
|
(2)行业为'学生/无工作/下岗’
|
126
|
经过数据的探索阶段,提出不合理数据1634条,得到符合研究范围的合理数据为37564条记录。