數據分析師薪資有多高?爬了29個城市的數據告訴你答案



錢塘號官網:www.qthmedia.com

本文作者: 魏凱

錢塘號期待您的入駐和來稿

微信後台回複:“sq”,進入資料分享社群

熱門推薦:【幹貨】45G微信小程序開發合集 

12種思維導圖工具,助你成為結構化思維專家


想要從事數據分析師這個崗位,那自然首先需要對這個崗位有所了解。最直接、最真實的方式就是從企業那裏獲得需求訊息,這樣才最能夠指導自己的學習方向和簡曆準備。本文即是要利用爬蟲爬取拉勾網上數據分析這一崗位的信息,然後進行一些探索和分析,以數據分析來了解‘數據分析’。


數據來源

本項目所使用的數據集全部來自拉勾網,是通過集搜客這一網絡爬蟲工具來爬取的。之所以選擇拉勾網作為本項目的數據源,主要是因為相對於其他招聘網站,拉鉤網上的崗位信息非常完整、整潔,極少存在信息的缺漏。並且幾乎所有展現出來的信息都是非常規範化的,極大的減少了前期數據清理和數據整理的工作量。(筆者畢竟是工作之餘完成,時間有限,能省則省)本次爬取信息的時候,主要獲得了以下信息:


內容

字段

崗位名稱

title

月薪

month_salary

公司名稱

company

所屬行業

industry

公司規模

scale

融資階段

phase

投資人

investors

所在城市

city

經驗要求

experience

學曆要求

qualification

全職/兼職

full_or_parttime

職位描述及任職要求

deion


項目目的

主要是希望通過實際的數據來解答針對數據分析崗位的一些疑惑,具體來說,主要針對以下幾個問題:


- 數據分析師崗位需求的地域性分布;

- 整個群體中薪酬分布的情況;

- 不同城市數據分析師的薪酬情況是怎樣的;

- 該崗位對於工作經驗的要求是怎樣的;

- 根據工作經驗的不同,薪酬是怎樣變化的;

- 從用人單位的角度看,數據分析師應當具備哪些技能?

- 掌握不同技能是否會對薪酬有影響?影響是怎樣的?


技術和工具

本項目主要分為兩大部分,第一部分是數據爬取,采用的是集搜客網絡爬蟲工具。第二部分是數據分析,以python編程語言為基礎。數據分析部分主要使用pandas作為數據整理和統計分析的工具,matplotlib用於圖形的可視化,seaborn庫包用於圖形美化。在進行技能需求分析的時候,使用了jieba作為分詞工具包,並使用wordcloud包製作詞雲。


數據整理

加載和清理

* 點擊圖片縮略圖可放大,下同。

可以看到,經過初步清理後,數據集中有效變量為13個,數據記錄575條。除了投資人這一項之外,其他各字段的數據完整度非常好,幾乎沒有缺失值。這對於後麵的分析來說是個大大的好消息。


數據分析

地域性分布

<matplotlib.text.Text at 0x1102e1f90>


在拉勾網上,全國有29個城市的企業郵數據分析師的人才需求,其中將近一半需求產生在北京市,需求量全國第一。排在前5的分別是:北京、上海、深圳、杭州、廣州。數據分析這一職業大量集中在北上廣深四大一線城市,以及杭州這個互聯網和電子商務企業的聚集地。北京市巨大的需求比重令我稍感意外,不過,考慮到拉勾網是一個偏重互聯網相關行業的招聘平台,而我國大量互聯網企業在北京聚集,這個結果倒也算合理。以後有時間,可以對全國互聯網行業分布特點做個分析。


總而言之,可以得出一個清晰的結論:數據分析這一崗位,有大量的工作機會集中在北上廣深以及杭州,期待往這個方向發展的同學還是要到這些城市去多多嚐試。當然,從另一個方麵說,這些城市也都集中了大量的各行業人才,競爭壓力想必也是很大的。


總體薪酬情況

如同大多數其他工作一樣,數據分析師的薪酬也是一個右偏分布。大多數人的收入集中在5k-20k每月,隻有少數人能夠獲得更高的薪酬,但有極少數人薪酬極高,讓人充滿期待。需要說明的是,拉勾網上的薪酬值是一個區間值,並且相互之間互有重疊,為了便於分析,我取區間的中值作為代表值進行的分析。因此,實際的薪酬分布情況可能會比圖中的情況更好一些。總是有人能夠拿到薪酬的上限。綜合來看,數據分析師的薪酬收入整體還是可觀的,從這方麵說,選擇這個職業還是不錯的。


不同城市薪酬分布情況

<matplotlib.text.Text at 0x115796650>


忽略掉那些人才需求量比較小的城市,我重點關注排名前六的城市。從圖上看,這六大城市的薪酬分布情況總體來說都比較集中,這和我們前麵看到的全國的薪酬總體情況分布是一致的。深圳市薪酬分布中位數大約在15k,居全國首位。其次是北京,約12.5k,之後是上海和杭州。深圳確實是個創造奇跡的城市,在這裏也給了我一個小小的驚喜。從待遇上看,數據分析師留在深圳發展是個不錯的選擇。


工作經驗需求

<matplotlib.text.Text at 0x110577dd0>


不出所料的,工作經驗的需求分布近似於正態分布。工作1-3年經驗的熟手需求量最大,其次是3-5年工作經驗的資深分析師。工作經驗不足1年的新人,市場需求量比較少。另外,工作經驗要5-10年的需求量非常稀少,而10年以上的更是鳳毛麟角。


從這個分布我們大致可以猜測出:


數據分析是個年輕的職業方向,大量的工作經驗需求集中在1-3年;對於數據分析師來說,5年是個瓶頸期,如果在5年之內沒有轉型或者質的提升,大概以後的競爭壓力會比較大。


不同工作經驗的薪酬分布


<matplotlib.text.Text at 0x11cc58f50>


毫無疑問的,隨著經驗的提升,數據分析師的薪酬也在不斷提高。另外,從現有數據來看,數據分析師似乎是個常青的職業方向,在10年內大概不會因為年齡的增長導致收入下降。


職業技能關鍵詞


詞雲顯示出的情況,有點超出了我的預料。對於數據分析師這一崗位,企業需求頻率最高的技能並不是Python語言和R語言等如今非常時髦的數據分析語言,而是傳統的結構化查詢語言SQL和表格神器Excel。這一點需要各位小夥伴注意,要想從事數據分析師崗位,SQL和Excel看起來是必備技能。 從詞雲上看出,數據分析師技能需求頻率排在前列的有:SQL,Excel, SAS,SPSS, Python, Hadoop和MySQL等。另外,Java, PPT, BI軟件等屬於第二梯隊。


掌握不同技能對薪酬收入的影響

<matplotlib.text.Text at 0x11f59b890>


我對需求頻率最高的前15個技能進行統計計算,得出每一個技能對應的平均薪酬水平,如上圖。點的大小代表該技能需求量的多少。


在前15項技能中,shell,Hive, Spark這三者的平均薪酬水平最高,並且相對其他技能來說有比較大的差異。對數據分析師工作有所了解的人應該都知道,這三個工具中,Hive和Spark都是應用於分布式數據處理,而shell腳本則是Linux係統下工作的必須技能。這三者共同指向了一個方向,那就是海量數據的分布式處理!


所以,想要拿高薪的小夥伴注意了,海量數據處理、分布式處理框架是走向高薪的正確方向。 另外值得注意的是,在數據分析領域,Python語言的平均薪酬水平要高於目前如日中天的Java語言。而SQL語言和傳統的SAS,SPSS兩大數據分析軟件,則能夠讓你在保證中等收入的條件下,能夠適應更多企業的要求,也就意味著更多的工作機會。


分析結論

通過上麵的分析,我們可以得到的結論有這些: 數據分析這一崗位,有大量的工作機會集中在北上廣深以及杭州。 大多數據分析師的收入集中在5k-20k每月,隻有少數人能夠獲得更高的薪酬,但有極少數人薪酬極高,讓人充滿期待。


從待遇上看,數據分析師留在深圳發展是個不錯的選擇,其次是北京、上海。 數據分析是個年輕的職業方向,大量的工作經驗需求集中在1-3年。


對於數據分析師來說,5年似乎是個瓶頸期,如果在5年之內沒有轉型或者質的提升,大概以後的競爭壓力會比較大。 隨著經驗的提升,數據分析師的薪酬也在不斷提高,10年以上工作經驗的人,能獲得相當豐厚的薪酬。


數據分析師需求頻率排在前列的技能有:SQL,Excel, SAS,SPSS, Python, Hadoop和MySQL等,其中SQL和Excel簡直可以說是必備技能。 海量數據、分布式處理框架是走向高薪的正確方向。 SQL語言和傳統的SAS,SPSS兩大數據分析軟件,能夠讓你在保證中等收入的條件下,能夠適應更多企業的要求,也就意味著更多的工作機會。


思考和總結

對於數據分析師技能的分析是比較簡陋的,在本次分析過程中,僅針對工具型的技能進行了分析。但其實,數據分析師所需要具備的素質遠不止這些,還需要有紮實的數學、統計學基礎,良好的數據敏感度,開拓但嚴謹的思維等。如果要對這些內容進行深入挖掘的話,應該會更加有趣。不過,要進行這項內容的話,需要掌握大量中文分詞、關鍵字提取等方麵的知識和技能,難度也會更高。時間所限,在這裏不再進一步展開了,希望以後有時間再做一個專項分析吧。 讓人忍不住吐槽的是,Python2.X環境對中文編碼的支持著實不夠好,在處理數據的時候消耗了大量的時間和精力,也犯了不少錯,走了很多彎路。以後這一塊的內容要找時間專門攻堅一下,也可以考慮換到python3平台去。


特別說明:本次數據源完全來自拉勾網,但拉勾網本身是專注於互聯網相關行業的招聘平台,所以本次分析出的結論更加適用於互聯網行業的相關企業,對於其他行業的企業,未必合適。


相關閱讀:

大數據時代,軟件工程師漸退,算法工程師崛起

【PPT下載】企業級大數據平台實踐之路

【PPT】2016中國大數據產業地圖




微信推送意猶未盡?

下載錢塘號,悅覽更多精彩資訊

錢塘號官網:www.qthmedia.com


往期熱文:

【幹貨】67頁PPT,終於把大數據大趨勢講清楚了

大數據時代,軟件工程師漸退,算法工程師崛起

2017年第一季度中國互聯網"死亡名單"

【推薦閱讀】如何用大數據構建精準用戶畫像?

“預言帝”凱文·凱利:未來25年八大技術發展趨勢


往期PPT、報告下載:

【PPT下載】企業級大數據平台實踐之路

麥肯錫報告:中國人工智能的未來之路

【PPT下載】徐工集團的工業大數據之路

麥肯錫演講:數字革命新浪潮(附麥肯錫全年報告下載)

【幹貨】45G微信小程序開發合集 


掃碼進入知識分享社群

不錯過任何幹貨

後台回複“sq”,加入社群


下一篇 : 全城尋找:唐河肇事逃逸紅三輪,至人左膝蓋碎裂...


微信掃一掃
分享文章到朋友圈