钱多事少离家近,到底是什么样的工作?

前几天学姐来找我:“小团啊,我想换一个工作。你用数据帮我看看什么行业好?”

我说:“好呀。学姐你对工作有什么要求呢?”

学姐说:“钱多事少离家近。”

虽然我不相信有这样好的工作,但看看总没有坏处嘛。于是我打开电脑,开始对行业一项一项进行筛选。

第一项,钱多。这个容易。根据《上海统计年鉴2017》,各行业平均年收入如下图所示:

钱多事少离家近,到底是什么样的工作?

根据上图,可将20个行业大项分为四类:

显然,在“钱多”的标准下,金融、水电气生产供应、采矿信息服务等都是不错的选择。

第二项,事少。数据论证有点麻烦,姑且跳过吧。

第三项,离家近。由于学姐不肯透露她住在哪里,我只好假设学姐住在上海各地的概率与上海人口总体分布概率相同。然后,我以人口密度最高处(市中心)为原点,绘制出各个行业企业的密度衰减曲线。

钱多事少离家近,到底是什么样的工作?

上图中,离市中心距离为0处的企业密度越高,说明该行业在市中心的密集度越高。假如学姐从事了该行业的工作,那么工作地点离学姐家近的概率也越高。(学姐明确表示:一些行业她没有进入渠道(如水电生产供应),另一些行业她没有能力从事(如农业、卫生),因此,图中只保留了像学姐这样的大多数普通人有一定选择空间的10个行业大类;其中,信息服务业和科研服务业进行了合并。)

根据上图,从行业密集(离家近概率)的角度,我们再次将行业分为四类:

我指着图说:“学姐,同时符合钱多和离家两个要求的只有金融了。次优的选择是信息科技服务业,钱多,但离市中心不算近;商务服务、文化娱乐的距离比较适中,但收入就不算太高了。”

学姐皱眉思考了片刻:“金融虽然很好,但据说加班很厉害。我可不想把美好的青春年华都奉献给工作。你再帮我看看哪些行业不加班吧。”

我叹了口气,看来“事少”的研究是逃不掉了。

怎么衡量“事少”呢?从常识来看,事少的行业应该符合以下表现中的至少一个:上班晚、下班早、工作时间短。而为了找到大家都在什么时候上下班,我不得不搬出了前几天 延华智能 提供的建筑用电量数据

钱多事少离家近,到底是什么样的工作?

(说明:这是一张“城市呼吸”图。图中白金色线条代表道路和来往人流,柱子代表建筑,红色柱子为我们的样本建筑。用电量越大的时刻,红色越深。每一天随着时间的变化,人来人往,灯亮灯灭。)

我们的建筑样本全部位于上海市黄浦区。用电数据为2017年全年、每隔15分钟记录一次的用电量。其中,我们用于研究的是办公建筑(写字楼),样本数量约100个(注:由于样本数量、抽样规则和推算方法的不完善,我们的结论与实际情况将存在一定偏差。不过,依然不失为一次有趣的尝试)。

从时间上看,写字楼用电具有明显的周期性规律:

钱多事少离家近,到底是什么样的工作?
钱多事少离家近,到底是什么样的工作?

可以看到,写字楼的三个周期规律为:

  • 1.季节周期:用电量与气温高度相关。4-6月和9-11月的用电量相对稳定,在最热的7-8月和最冷的12-1月,用电量有显著增加。
  • 2.节假日周期:以年为周期,春节、国庆等法定节日用电量减少;以星期为周期,周末用电量为工作日的1/2-2/3。
  • 3.天周期:每天的零点到6点用电量处于低谷,从7点开始用电量飙升,于10点达到最高峰,其后缓慢下降,下午5点开始剧烈下降。

根据上述规律,我们制定如下研究思路:

由于时间序列上的用电量绝对值不仅仅由工作用电决定,还受到基础用电、气温等多重因素的影响(本文最后的彩蛋有更为具体的解释),为了减少这些干扰,我们将用电量处理为相对值,并由此引申出上班时间、下班时间、工作时长的概念:

钱多事少离家近,到底是什么样的工作?

上图中:

  • 1.相对用电量 = (当前时间分段用电量-当日分段用电量最小值) / (当日分段用电量最大值-当日分段用电量最小值)
  • 2.上班时间为相对用电量第一次达到最高峰值70%的时刻,下班时间为相对用电量最后一次达到最高峰值70%的时刻,工作时长为下班时间与上班时间之差。
  • 3.每幢写字楼的上下班时间和工作时长各不相同。总体水平为8:30上班,6:00下班,工作时长9.5小时(含午休)。

接下来,我们要找到每幢写字楼里都有哪些企业。我们以 启信宝 提供的企业经营地址,与写字楼地址进行了匹配,从而获得了写字楼中企业的规模和行业信息

钱多事少离家近,到底是什么样的工作?

现在,我们可以展开回归分析了。以行业结构(某行业占该写字楼中所有企业的比例)为自变量,以工作时长、上班时间、下班时间为因变量标准化处理后进行三次回归分析,模型的平均误差在5%左右,R2介于0.7-0.8。

根据回归系数的大小,我们对各行业的工作状况进行了推算:

钱多事少离家近,到底是什么样的工作?

(注:回归系数反映的是各行业对 工作时长/上下班时间 的贡献大小和方向。本图是根据系数大小的推算结果,不能等同于 工作时长/上下班时间 的排名。)

根据上图,从“事少”的角度,我们再次将行业分类:

至此,我们可以从“钱多事少离家近”三个角度给出十大行业的综合排名了:

  • 金融收入超高-离家近概率很大-工作状态普通;
  • 信息科技服务业:收入较高-离家近概率一般-早起早归;
  • 文化体育娱乐业:收入中等-离家近概率较大-工作状态普通;
  • 商务服务业:收入中等-离家近概率较大-起早贪黑;
  • 房地产业:收入中等-离家近概率较大-起早贪黑;
  • 交运仓储业:收入中等-离家近概率一般-早起早归;
  • 批发零售业:收入中等-离家近概率一般-早起早归;
  • 制造业:收入中等-离家近概率较低-工作状态普通
  • 住宿餐饮业:收入较低-离家近概率很大-起早贪黑。
  • 建筑业:收入较低-离家近概率较低-晚起晚归。

看着这个榜单,我恍然大悟:“居然真的有钱多事少离家近的工作呀!……唉,学姐你去哪?”

“买两本CFA教程。”


彩蛋:一年之中,何时加班最疯狂?

钱多事少离家近,到底是什么样的工作?

学姐走后,我觉得这个小研究做得还不过瘾。不妨顺便用这组数据再看一看,大家都在什么时候加班多,什么时候休假多?

个人的加班或休假行为很难在用电数据层面体现。但群体的加班或休假将使得用电发生相应变化:

  • 1.大量员工休假→在岗员工数量减少→工作用电量减少
  • 2.大量员工加班→夜间用电比例增加→工作用电量增加

由此可以推知,工作用电量是衡量员工工作状态的重要指标。然而,工作用电只是建筑用电的一部分。因此,需要从建筑用电量中剥离出工作用电量,再判断其数值是否处于合理区间。

一般来说,办公建筑用电可以粗略分为三个部分:基础用电、空调用电和工作用电。

钱多事少离家近,到底是什么样的工作?

基础用电。办公楼正常运转的基础消耗,如通风用电、电梯用电、走廊灯光用电等。 假设每日基础耗电量是一个常数,以Β表示。

钱多事少离家近,到底是什么样的工作?

空调暖气用电。温度偏离适宜温度越远,空调需求量越大。

空调暖气用电量与气温(t)有显著相关性,空调积温指数(T)是一种常见的测算方法,T=max(thigh-27,0) max(10-tavg,0)。该部分用电量与空调积温指数呈线性相关,假设其形式为α1T。(参考文献:chenqin《上海用电量一年降了30多亿度,其实原因很简单》。)

钱多事少离家近,到底是什么样的工作?

理想状态下的工作用电。假设一年中员工数量没有大规模变动,则工作日的正常工作时间内(8-18点)、正常工作强度下为一个常数,表示为α2。

设定一个虚拟变量W,工作日W=1,节假日W=0,则每日的常规工作耗电量为α2W。

由此可以构建回归方程:

  • e = Β α1T α2W ε

上式中,e表示每日总用电量,Β表示基础用电,α1T表示空调用电,α2W表示理想状态下的工作用电;ε表示回归模型的残差,也就是预测用电量与实际用电量的差值,(α2W ε)近似代表实际的工作用电量。

若实际用电量小于预测用电量(ε<0),很可能意味着在岗员工数量较少、大量员工处于休假状态;若实际用电量大于预测用电量(ε>0),则有着员工数量增加、工作时间延长、工作强度增大等多种可能,需要进一步验证。

接下来,我们采用线性回归,求出Β、 α1、α2三个参数的值(模型的平均误差为9.5%,R2为84.4%)。将参数值代入到方程中,将可以分别模拟得到每日的各项用电量及总用电量,并从而得到预测用电量与实际用电量的残差ε。如下图所示:

钱多事少离家近,到底是什么样的工作?

上图中,黑色实线表示实际用电总量,深蓝色区域表示预测基础用电量、天蓝色区域表示预测空调用电量,浅蓝色区域表示理想工作用电量,绿色区域表示超额工作用电量(实际值高于预测值,ε>0),橙色区域表示不足工作用电量(实际值低于预测值,ε<0)。(注:图中橙色和绿色区域为选择性展示,实质为A与B的交集。A:实际用电量与预测用电量的差值大于平均误差水平的日期。B:使用随机森林模型进行每天每小时用电量预测,其中全天用电量偏低(橙)/或夜间用电量比例偏高(绿)的日期;该部分方法本文中不再展开。)

由图可知,用电超额的时段(绿色),也就是大家最可能在疯狂加班的时段,可以分为两类:

  • 1.第一类零星分布在3月、5月、6月、9月的许多周末。
  • 2.第二类集中分布在6月中下旬、8月到9月中旬。

而用电不足的时段(橙色),则可以分为三类:

  • 1.第一类为春节前两周、春节后一周,此类用电不足主要是因为员工数量不足;这反映出春节前提前休假、春节后推后上班,是较为普遍的做法。
  • 2.第二类用电不足时段分布在清明节-劳动节、以及国庆节后;这两个时段是一年中不需要开空调、气候最为适宜的时节,也是旅游度假的最好时机。
  • 3.第三类则零散分布在某些工作日的周四、周五,原因嘛,大家都懂的……

说明:

  • 文 / 若木、团支书
  • 来源 / 微信公众号:城市数据团(ID:metrodatateam)

【原文标题为《什么工作最是“钱多事少离家近”?》,本文已获作者授权,如需转载请自行联系作者,谢谢合作】

声明:本文观点仅代表作者观点,不代表MBA智库立场。
15+1