为什么说“不靠谱”

  • 我们爬取的数据是每个学校公布在其就业信息网上的,这些招聘信息并不是很全,因为很多企业会直接到学院进行招聘。
  • 我们爬取的数据是学校明确说明了“这些企业会到我们学校里面来招聘”的招聘信息,不包括各种网申的,大多是各种宣讲会和大型招聘会,但是很多学校没有公开大型招聘会的信息
  • 我们的数据分析是基于“假设所有的大学在对上面两点都有相同的保留”,那么把他们放在一起比较才有价值。如果你非要说这样没意思,额,那你可以走了

项目介绍

  • 根据各个高校在其就业信息网上公布的数据,根据一定的标准(比如世界五百强、中国五百强)统计这些公司的类别,同时将高校按照一定标准进行划分(比如985、211),进行关联分析,最终得出结论,“什么样的企业会到什么样的大学去招聘”。

一.数据来源

1.公司的分类(点击可查看数据来源)

2.高校招聘数据的来源

  • 各个高校的就业信息网,高校名单可以点击这里查看
  • 想查看原始json数据请戳这里

二.数据分析的基本标准

本文的各种分析结果都是基于这几条标准进行的:

  • 世界500强、中国500强、美国500强等公司名单来源于财富网、中华工商网等网站,均是2017年最新数据
  • 比较特殊的是世界投资机构100强咨询业75强,相关数据来源已给出,如有错误,欢迎指正
  • 各种500强的子公司/下属机构,依然判断为500强,所以会出现中南大学的中国500强数量超过500的情况,比如中建一局和中建二局分别到中南大学开宣讲会,那么算两次
  • 所有数据截止至12月2日更新在各大网站的数据
  • 大学层次划分为5层,C9\985\211\一本\二本, 不重复排名,记最高的层次,如哈尔滨工业大学算在C9里,不在985、211、一本里重复统计

三. 数据分析结果

其实排名的意义不大,但是毕竟有这么多数据,不整个排名出来我心里过意不去,所以有了下面这些:

1. 2017年中国500强到部分高校的招聘次数

2. 2017年世界500强到部分高校的招聘次数

3. 2017年美国500强到部分高校的招聘次数

4. 2017年中国民营企业500强到部分高校的招聘次数

5. 2017年中国民营企业制造业500强到部分高校的招聘次数

6. 2017年中国互联网企业100强到部分高校的招聘次数

7. 2017年中国民营企业服务业100强到部分高校的招聘次数

8. 2017年世界投资机构100强到部分高校的招聘次数

9. 2017年世界咨询业75强到部分高校的招聘次数

10. 2017年部分高校校园招聘会次数

这么多排名可能有点乱,所以按照规矩,我又整了一个综合排名: 将上述所有企业的权重设置为1,将到校招聘的其他企业设置为2,最终得到了下面的综合排名(我曾经尝试写一个10层for循环,来调整各种权重,试图将我川排到第一,然而失败了…):

其实这样排下来之后我对结果是比较诧异的,C9\985\211之间招聘数据并没有明显的差距,身为211的中央财经大学多项数据排在各大985前面。几乎各大榜单的前两名都是中南大学和电子科技大学,这真的十分意外,吓得我赶紧去中南大学的就业信息网重新看了几下数据…

比较意外的是,C9高校的数据都不是很显眼,我在想是不是只有一些很厉害的企业才能去这些学校招聘,所以我又搞了一个比例排名,计算上述的9种公司在来校招聘的企业总数量的百分比,又排了一下,嗯,果然发现我猜的不对。

由于针对每个大学的数据,不可避免的存在误差,所以我就将大学分为了5类,C9, 985, 211, 普通一本, 普通二本,以此来统计各个大学中的招聘情况。得到下面几张图。

 

可以发现,985高校与C9高校的数据差距不大,但C9高校与普通二本之间,招聘会总数差了近7倍。 为了更直观的看出这些差距,我又画了一个曲线图,2013-2017年之间平均每天不同高校的招聘会数量差别(16年之前的数据由于不是很完整,所以误差较大):

– 2013-2017年 不同层次高校的招聘会平均分布情况

2017年部分的数据

上面的数据有点凌乱,所以我又单独的取了985高校和二本高校作对比(2017年数据)

可以发现这个差距十分明显,并且我十分不明白为啥寒暑假期间都有开招聘会的。

四、什么样的企业会到什么的高校去招聘?

世界五百强、中国五百强也会到二本去招聘,但是这个平均数量只有985的十分之一!
所以,学历重要吗?
我觉得还是挺重要的

写在后面的废话

  • 特别感谢川大计算机学院2016级的同学冉哲东和2014级制造学院刘航同学,感谢你们无私贡献的代码,也欢迎更多的同学一起来写爬虫和分析。这个项目我后面会考虑从更多的角度来分析,比如政府机关招聘、学校招聘,以及地理位置对招聘的影响等等,如果你也有兴趣的话,欢迎一起来做。UniversityRecruitment-sSurvey,或者你不懂编程,但想知道某些数据分析结果,可以留言,我会补上分析。
  • 从第一次提交这个项目的代码到现在已经过去了一个多月了,期间因为各种各样的事情耽搁了很久,但断断续续的还是爬了十万多条数据,有了一点分析的价值。项目最大的难点在于如何从各种各样的奇葩文章标题中截取出准确的公司名称,比如类似“京东方科技集团近期到我校招聘”这样标题里如何获取“京东方”而不是“京东”,“蓝思科技有限公司”不被误判为“思科”(某美国500强)……这一块代码我写了很久,反复尝试了很多方法,最终得到了一个自己比较满意的结果(具体的算法后面有时间再写篇博客吧)。
  • 这是我第一次发起一个开源项目,因为不想一个人写100所学校的爬虫,以往的项目都是互相比较熟悉的同学一起参与的,主要的讨论工作都在QQ或面对面交流。但是一次我尽量将全部工作都放在github上完成,通过issue来表示要爬取的学校,通过pull requests提交代码,不断的重构项目,封装了大量接口,添加注释,只是希望自己的代码能被别人更轻松一点看懂。
  • 说实话,一有时间写这个项目的代码的时候就觉得很爽,因为我是在用自己的能力做一件很有趣的事情。特别是当寝室没有人的时候,打开网易云,外放,一边哼歌一边写代码,偶尔吐槽一下有些大学网站写得好垃圾(很多网站只需要一条请求就能拿到所有历史数据)。当我沉迷于创造各种数据结构和算法的时候,我觉得这就是我喜欢这个专业的原因。

点击量:59174


5 条评论

wy · 2017年12月3日 上午9:21

兴趣就来源于不断尝试用不同方法解决问题(挑战),未来也需要这样的人。做自己喜欢的事情,才是自在的。

    maicius · 2017年12月4日 下午7:57

    谢谢鼓励

odin · 2017年12月4日 上午10:11

挺好的一个点子,能做下来也不容易,很棒,加油!

    maicius · 2017年12月4日 下午7:57

    谢谢支持

黄春超 · 2019年3月30日 下午3:36

厉害

wy进行回复 取消回复

电子邮件地址不会被公开。 必填项已用*标注