內容/分析思路:
01:?項目介紹
02:問題分析
03:數據探索
04:數據預處理
05:建模和分析
06:用戶畫像分析
壹、項目介紹
?本項目是對某酒店預訂網壹段時間內的客戶預訂信息數據進行分析,通過算法預測客戶訪問的轉化結果,挖掘出影響用戶流失的關鍵因素,深入了解用戶的畫像和行為偏好,從而更好地改進產品設計,開展個性化營銷服務,減少用戶流失,提升用戶體驗。
二、問題分析
這個項目是問題診斷型,要解決的問題是關於用戶流失的問題。在官方提供的字段和解釋中,有壹個標簽字段,是目標變量,也就是我們需要預測的值。Label=1代表客戶流失,label=0代表客戶流失。顯然,這是壹個分類預測問題。
我們的目標是在高預測準確率的同時最大化召回率。從業務角度來說,就是盡可能多的預測可能流失的客戶,從而有針對性的留住他們。因為壹般來說,獲取新用戶的成本要比留住老用戶流失的成本多得多。
第三,數據探索
1,數據總體情況
這個數據集userlostprob_data.txt是某酒店預訂網在2006年5月2016到5月21期間的訪問數據。
該數據集* * *的總數據有689,945行和565,438+0列,包括樣品id、標簽和49個可變特征。
考慮到對用戶隱私的保護,對數據進行了脫敏處理,與實際訂單、瀏覽量、轉化率有些出入,但不影響問題的可解性。
2.數據指標整理出來
觀察數據集,裏面有很多變量。所以首先把數據字典中的中文解釋換成相應的變量名,增強可讀性,然後最好把指標整理出來,壹個壹個分析。
通過研究發現,指標大致可以分為三類:壹類是訂單相關指標,如入住日期、訂單數量、取消率等。壹類是與客戶行為相關的指標,如明星偏好、用戶偏好價格等。還有壹類是酒店相關的指標,比如酒店平均評級、酒店評級數量、平均價格等等。
3.相關特征的描述性分析。
3.1?參觀日期和入住時間
無論是入住人數還是到訪人數,都在5月20日達到峰值,這大概就是“520”情人節的原因。5月21之後,入住人數明顯減少,後面的兩個小高峰說明周末的人會比平日多。
3.2?訪問時間周期
可以觀察到,淩晨3-5點是訪客最少的時間段,因為這個時候大部分人都在睡覺;晚上9-10左右訪問量最大。
3.3?顧客價值
“客戶最近1年的價值”和“客戶的價值”這兩個特征非常相關,都可以用來表示客戶的價值;可以看出,大部分客戶的價值在0-100範圍內;有的客戶價值高達600,後期需要重點分析這類高價值客戶。
3.4?消費能力指數
基本呈現正態分布,大部分人的消費能力在30左右。還有很多人的消費能力達到近100,說明我們酒店的來訪和入住客戶中有很多高消費群體。
3.5?價格敏感度指數
剔除極值,數據向右分布,大部分客戶對價格不是很敏感,不用太費心定價;對於價格敏感指數為100的客戶,可以用折扣來吸引。
3.6?酒店平均價格
大多數人選擇價格在1000以下的酒店,很少有人選擇價格在2000以上的酒店。排除“土豪”,我們可以看到消費者對酒店價格的選擇基本是正偏態分布,大多數人會選擇的均價在300元左右(很可能是快捷酒店)。
3.7?用戶的年度訂單
大部分用戶的年訂單都在40以下。同時,還有壹部分用戶經常入住酒店,需要維護。
3.8?訂單取消率
用戶壹年內最高註銷率分別為100%和0。對於100%取消訂單的客戶,可以結合訂單數量找出原因。
3.9?壹年內從最後壹個訂單開始的時間
可以觀察到,預定間隔時間越長,人數越少,說明有相當壹部分人經常訂酒店;側面反映出“熟客”往往會選擇訂酒店,回頭客較多。
3.10?會話ID
服務器分配給訪問者的壹個id,1是新的訪問者。
老客戶占來訪客戶的大多數;老客戶的預定概率略高於新客戶。
第四,數據預處理
4.1重復值處理
數據維度沒有改變,表明數據集沒有重復值。
4.2?生成派生字段
基於對業務的理解,考慮到用戶提前預訂酒店時間可能更重要,將兩個日期特征轉化為壹個新的特征,以提高模型的準確性和可解釋性。
4.3缺失值處理
查看缺少的值
***51個字段,缺失字段:44個。
缺失值處理的思路和過程
查看特征的分布:
看所有數值特征的分布,根據數據分布選擇合理的處理方法,包括異常值和缺失值處理,有助於深入理解用戶行為。
***51個字段,缺失字段:44個。選擇適當的方法來處理缺失值:
缺失比例大於80%: 1,“最近7天用戶歷史訂單數”缺失88%,直接刪除該字段。
趨於正態分布的字段用平均值填充;具有右偏差分布的字段用中位數填充。
檢查缺失值填充。
可以看出,缺失的值數據已經被填充。
4.4?異常值處理
極值處理:
(基於實際商業思維,屏蔽方式部分不合理,可能會過濾高價值用戶,需要調整。)
負值處理:
4.5?標準化治療
距離類模型需要提前標準化數據。
動詞 (verb的縮寫)建模和分析
首先,分割訓練集和測試集。
5.1?邏輯回歸
[0.7366529216096935, 0.7016048745527705]
5.2?決策圖表
[0.8728884186420657, 0.8448881691422343]
5.3?隨機森林
[0.8936581901455913, 0.9399374165108152]
5.4?樸素貝葉斯
[0.6224554131126394, 0.6610756921767458]
5.5?XGBOOST
[0.8886143098362913, 0.9383456626294802]
5.6?模型比較
繪制ROC曲線
可以看出,樸素貝葉斯表現最差,logistic回歸表現也不是很好,說明數據不是線性可分的;隨機森林和xgboost模型的表現差不多,AUC值都在0.9以上,分類效果很好。隨機森林的AUC值略高於0.94,所以用隨機森林來預測用戶流失。
5.7?隨機森林模型的優化
交互效度分析
學習曲線-將分類器取為80。
[0.9333570067179268, 0.97816699979759]
即按照這個隨機森林模型,召回率可以達到97.8%,流失客戶預測準確率可以達到93.3%。
該模型可以直接用於預測用戶流失。
5.8影響客戶流失的關鍵因素
使用隨機森林分析影響客戶流失的因素:使用feature_importance方法,可以得到特征的重要度排序。
最重要的前10特色:?
每年的訪問次數,壹年內最後壹次訪問的時間長度,昨天同壹入住日期當前城市的app uv訪問次數,壹年內最後壹次下單的時間長度,昨天同壹入住日期當前城市提交的app訂單數,24小時內訪問的酒店平均價格,24小時內訪問的酒店平均業務屬性指數,24小時內訪問次數最多的酒店最低價格,24小時內訪問次數最多的酒店評級數,客戶價值。
六、用戶畫像分析
接下來,通過K-Means聚類方法將用戶分為三類,並觀察不同類別客戶的特征。
k均值聚類
?
可以看出,聚集的三類用戶都有自己非常明顯的特點,針對不同類型用戶的個性化營銷建議如下:
0類是中等群體:消費水平和客戶價值較低,拜訪和預訂頻率較高,提前預訂的時間在三類中最長;需要花很多時間瀏覽才能做出選擇,所以我比較謹慎,推測可能是出國旅遊的用戶。
建議:盡量推送,因為這類客戶通常更喜歡瀏覽;推薦價格相對實惠的酒店;推送當地旅遊信息,因為這類客戶出遊概率較大。
1是低價值客戶:消費水平和客戶價值極低,首選價格低,拜訪和預訂頻率很低;Sid值很低,說明有很多新客戶。
建議:處理流失的客戶,不要花太多營銷成本,不要做具體的渠道運營;推薦促銷活動和價格折扣大的低價酒店;新增用戶比例比較大,潛在客戶多,可以維持服務推送。
第二類是高價值客戶:消費水平高,客戶價值高,追求高品質,價格敏感度高;落地時間長,訪問次數多,提前預訂時間短,但返回次數多。
建議:為顧客提供更多的酒店信息。?推薦口碑好、性價比高的商務連鎖酒店,吸引用戶;非工作日11、17等日間交通小高峰時段推送消息。
壹些評論:
1.在篩選數據特征時可以進行相關性分析,因為某些特征之間可能存在很高的相關性。與目標變量相關性小於0.01的變量可以通過相關性分析剔除,與其他變量相關性高於0.9的變量可以刪除。可以用主成分分析法對指標進行降維整合,可能會達到最好的模型效果。
2.如果想對用戶進行更精細的分類,可以使用RFM模型進行用戶價值分析。但是,這個項目的特點包含了大量的信息,而這些信息可能會被RFM丟失。