當前位置:旅游攻略大全網 - 租房 - 數據分析的步驟是什麽?

數據分析的步驟是什麽?

1.問題定義

比較典型的場景是我們需要針對企業的數據進行分析,比如公司通常會有銷售數據、用戶數據、運營數據、產品生產數據……妳需要從這些數據裏獲得哪些有用的信息,對策略的制定進行指導呢?又比如妳需要做的是壹份市場調研或者行業分析,那麽妳需要知道妳需要獲得關於這個行業的哪些信息。

首先妳需要確定去分析的問題是什麽?妳想得出哪些結論?

比如某地區空氣質量變化的趨勢是什麽?

王者榮耀玩家的用戶畫像是什麽樣的?經常消費的是那類人?

影響公司銷售額增長的關鍵因素是什麽?

生產環節中影響產能和質量的核心指標是什麽?

如何對分析用戶畫像並進行精準營銷?

如何基於歷史數據預測未來某個階段用戶行為?

這些問題可能來源於妳已有的經驗和知識。比如妳已經知道每周的不同時間用戶購買量不壹樣,那麽妳可以通過分析得出銷量和時間的精確關系,從而精準備貨。又比如妳知道北京最近幾年的空氣質量是在變壞的,可能的因素是工廠排放、沙塵暴、居民排放、天氣因素等,那麽在定義問題的時候妳就需要想清楚,需要針對哪些因素進行重點分析。

有些問題則並不清晰,比如在生產環節中,影響質量的核心指標是什麽,是原材料?設備水平?工人水平?天氣情況?某個環節工藝的復雜度?某項操作的重復次數?……這些可能並不明顯,或者妳是涉足新的領域,並沒有非常專業的知識,那麽妳可能需要定義的問題就需要更加寬泛,涵蓋更多的可能性。

問題的定義可能需要妳去了解業務的核心知識,並從中獲得壹些可以幫助妳進行分析的經驗。從某種程度上說,這也是我們經常提到的數據思維。數據分析很多時候可以幫助妳發現我們不容易發現的相關性,但對問題的精確定義,可以從很大程度上提升數據分析的效率。

如何更好地定義問題?

這就需要妳在長期的訓練中找到對數據的感覺,開始的時候妳拿到特別大的數據,有非常多的字段,可能會很懵逼,到底應該從什麽地方下手呢?

但如果有壹些經驗就會好很多。比如,妳要研究影響跑步運動員速度的身體因素,那麽我們可能會去研究運動員的身高、腿長、體重、甚至心率、血壓、臂長,而不太會去研究運動員的腋毛長度,這是基於我們已有的知識。又比如我們要分析影響壹個地方房價的因素,那麽我們可能會有壹些通用的常識,比如城市人口、地理位置、GDP、地價、物價水平,更深入的可能會有產業格局、文化狀態、氣候情況等等,但壹般我們不會去研究城市的女孩長相,美女占比。

所以當妳分析的問題多了之後,妳就會有壹些自己對數據的敏感度,從而養成用數據分析、用數據說話的習慣。這個時候妳甚至可以基於壹些數據,根據自己的經驗做出初步的判斷和預測(當然是不能取代完整樣本的精準預測),這個時候,妳就基本擁有數據思維了。

2.數據獲取

有了具體的問題,妳就需要獲取相關的數據了。比如妳要探究北京空氣質量變化的趨勢,妳可能就需要收集北京最近幾年的空氣質量數據、天氣數據,甚至工廠數據、氣體排放數據、重要日程數據等等。如果妳要分析影響公司銷售的關鍵因素,妳就需要調用公司的歷史銷售數據、用戶畫像數據、廣告投放數據等。

數據的獲取方式有多種。

壹是公司的銷售、用戶數據,可以直接從企業數據庫調取,所以妳需要SQL技能去完成數據提取等的數據庫管理工作。比如妳可以根據妳的需要提取2017年所有的銷售數據、提取今年銷量最大的50件商品的數據、提取上海、廣東地區用戶的消費數據……,SQL可以通過簡單的命令幫妳完成這些工作。

第二種是獲取外部的公開數據集,壹些科研機構、企業、政府會開放壹些數據,妳需要到特定的網站去下載這些數據。這些數據集通常比較完善、質量相對較高。當然這種方式也有壹些缺陷,通常數據會發布的比較滯後,但通常因為客觀性、權威性,仍然具有很大的價值。

第三種是編寫網頁爬蟲,去收集互聯網上的數據。比如妳可以通過爬蟲獲取招聘網站某壹職位的招聘信息,爬取租房網站上某城市的租房信息,爬取豆瓣評分評分最高的電影列表,獲取知乎點贊排行、網易雲音樂評論排行列表。基於互聯網爬取的數據,妳可以對某個行業、某種人群進行分析,這算是非常靠譜的市場調研、競品分析的方式了。

當然,比較BUG的壹點是,妳通常並不能夠獲得所有妳需要的數據,這對妳的分析結果是有壹定影響的,但不不影響的是,妳通過有限的可獲取的數據,提取更多有用的信息。

3.數據預處理

現實世界中數據大體上都是不完整,不壹致的臟數據,無法直接進行數據分析,或分析結果差強人意。數據預處理有多種方法:數據清理,數據集成,數據變換,數據歸約等。把這些影響分析的數據處理好,才能獲得更加精確地分析結果。

比如空氣質量的數據,其中有很多天的數據由於設備的原因是沒有監測到的,有壹些數據是記錄重復的,還有壹些數據是設備故障時監測無效的。

那麽我們需要用相應的方法去處理,比如殘缺數據,我們是直接去掉這條數據,還是用臨近的值去補全,這些都是需要考慮的問題。

當然在這裏我們還可能會有數據的分組、基本描述統計量的計算、基本統計圖形的繪制、數據取值的轉換、數據的正態化處理等,能夠幫助我們掌握數據的分布特征,是進壹步深入分析和建模的基礎。

4.數據分析與建模

在這個部分需要了解基本的數據分析方法、數據挖掘算法,了解不同方法適用的場景和適合的問題。分析時應切忌濫用和誤用統計分析方法。濫用和誤用統計分析方法主要是由於對方法能解決哪類問題、方法適用的前提、方法對數據的要求不清等原因造成的。

另外,選擇幾種統計分析方法對數據進行探索性的反復分析也是極為重要的。每壹種統計分析方法都有自己的特點和局限,因此,壹般需要選擇幾種方法反復印證分析,僅依據壹種分析方法的結果就斷然下結論是不科學的。

比如妳發現在壹定條件下,銷量和價格是正比關系,那麽妳可以據此建立壹個線性回歸模型,妳發現價格和廣告是非線性關系,妳可以先建立壹個邏輯回歸模型來進行分析。

壹般情況下,回歸分析的方法可以滿足很大壹部分的分析需求,當然妳也可以了解壹些數據挖掘的算法、特征提取的方法來優化自己的模型,獲得更好地結果。

5.數據可視化及數據報告的撰寫

分析結果最直接的結果是統計量的描述和統計量的展示。

比如我們通過數據的分布發現數據分析工資最高的5個城市,目前各種語言的流行度排行榜,近幾年北京空氣質量的變化趨勢,避孕套消費的地區分布……這些都是我們通過簡單數據分析與可視化就可以展現出的結果。

另外壹些則需要深入探究內部的關系,比如影響產品質量最關鍵的幾個指標,妳需要對不同指標與產品質量進行相關性分析之後才能得出正確結論。又比如妳需要預測未來某個時間段的產品銷量,則需要妳對歷史數據進行建模和分析,才能對未來的情況有更精準的預測。

數據分析報告不僅是分析結果的直接呈現,還是對相關情況的壹個全面的認識。我們經常看到壹些行業分析報告從不同角度、深入淺析地剖析各種關系。所以妳需要壹個講故事的邏輯,如何從壹個宏觀的問題,深入、細化到問題內部的方方面面,得出令人信服的結果,這需要從實踐中不斷訓練。

數據分析的壹般流程總的來說就是這幾個步驟:問題定義、數據獲取、數據預處理、數據分析與建模、數據可視化與數據報告的撰寫。