在線酒店用戶流失分析及預警

本文是壹個在線酒店用戶流失預測和分析項目的總結。

內容/分析思路:

01:?項目介紹

02:問題分析

03:數據探索

04:數據預處理

05:建模和分析

06:用戶畫像分析

壹、項目介紹

？本項目是對某酒店預訂網壹段時間內的客戶預訂信息數據進行分析，通過算法預測客戶訪問的轉化結果，挖掘出影響用戶流失的關鍵因素，深入了解用戶的畫像和行為偏好，從而更好地改進產品設計，開展個性化營銷服務，減少用戶流失，提升用戶體驗。

二、問題分析

這個項目是問題診斷型，要解決的問題是關於用戶流失的問題。在官方提供的字段和解釋中，有壹個標簽字段，是目標變量，也就是我們需要預測的值。Label=1代表客戶流失，label=0代表客戶流失。顯然，這是壹個分類預測問題。

我們的目標是在高預測準確率的同時最大化召回率。從業務角度來說，就是盡可能多的預測可能流失的客戶，從而有針對性的留住他們。因為壹般來說，獲取新用戶的成本要比留住老用戶流失的成本多得多。

第三，數據探索

1，數據總體情況

這個數據集userlostprob_data.txt是某酒店預訂網在2006年5月2016到5月21期間的訪問數據。

該數據集* * *的總數據有689，945行和565，438+0列，包括樣品id、標簽和49個可變特征。

考慮到對用戶隱私的保護，對數據進行了脫敏處理，與實際訂單、瀏覽量、轉化率有些出入，但不影響問題的可解性。

2.數據指標整理出來

觀察數據集，裏面有很多變量。所以首先把數據字典中的中文解釋換成相應的變量名，增強可讀性，然後最好把指標整理出來，壹個壹個分析。

通過研究發現，指標大致可以分為三類:壹類是訂單相關指標，如入住日期、訂單數量、取消率等。壹類是與客戶行為相關的指標，如明星偏好、用戶偏好價格等。還有壹類是酒店相關的指標，比如酒店平均評級、酒店評級數量、平均價格等等。

3.相關特征的描述性分析。

3.1?參觀日期和入住時間

無論是入住人數還是到訪人數，都在5月20日達到峰值，這大概就是“520”情人節的原因。5月21之後，入住人數明顯減少，後面的兩個小高峰說明周末的人會比平日多。

3.2?訪問時間周期

可以觀察到，淩晨3-5點是訪客最少的時間段，因為這個時候大部分人都在睡覺；晚上9-10左右訪問量最大。

3.3?顧客價值

“客戶最近1年的價值”和“客戶的價值”這兩個特征非常相關，都可以用來表示客戶的價值；可以看出，大部分客戶的價值在0-100範圍內；有的客戶價值高達600，後期需要重點分析這類高價值客戶。

3.4?消費能力指數

基本呈現正態分布，大部分人的消費能力在30左右。還有很多人的消費能力達到近100，說明我們酒店的來訪和入住客戶中有很多高消費群體。

3.5?價格敏感度指數

剔除極值，數據向右分布，大部分客戶對價格不是很敏感，不用太費心定價；對於價格敏感指數為100的客戶，可以用折扣來吸引。

3.6?酒店平均價格

大多數人選擇價格在1000以下的酒店，很少有人選擇價格在2000以上的酒店。排除“土豪”，我們可以看到消費者對酒店價格的選擇基本是正偏態分布，大多數人會選擇的均價在300元左右(很可能是快捷酒店)。

3.7?用戶的年度訂單

大部分用戶的年訂單都在40以下。同時，還有壹部分用戶經常入住酒店，需要維護。

3.8?訂單取消率

用戶壹年內最高註銷率分別為100%和0。對於100%取消訂單的客戶，可以結合訂單數量找出原因。

3.9?壹年內從最後壹個訂單開始的時間

可以觀察到，預定間隔時間越長，人數越少，說明有相當壹部分人經常訂酒店；側面反映出“熟客”往往會選擇訂酒店，回頭客較多。

3.10?會話ID

服務器分配給訪問者的壹個id，1是新的訪問者。

老客戶占來訪客戶的大多數；老客戶的預定概率略高於新客戶。

第四，數據預處理

4.1重復值處理

數據維度沒有改變，表明數據集沒有重復值。

4.2?生成派生字段

基於對業務的理解，考慮到用戶提前預訂酒店時間可能更重要，將兩個日期特征轉化為壹個新的特征，以提高模型的準確性和可解釋性。

4.3缺失值處理

查看缺少的值

***51個字段，缺失字段:44個。

缺失值處理的思路和過程

查看特征的分布:

看所有數值特征的分布，根據數據分布選擇合理的處理方法，包括異常值和缺失值處理，有助於深入理解用戶行為。

***51個字段，缺失字段:44個。選擇適當的方法來處理缺失值:

缺失比例大於80%: 1，“最近7天用戶歷史訂單數”缺失88%，直接刪除該字段。

趨於正態分布的字段用平均值填充；具有右偏差分布的字段用中位數填充。

檢查缺失值填充。

可以看出，缺失的值數據已經被填充。

4.4?異常值處理

極值處理:

(基於實際商業思維，屏蔽方式部分不合理，可能會過濾高價值用戶，需要調整。)

負值處理:

4.5?標準化治療

距離類模型需要提前標準化數據。

動詞（verb的縮寫）建模和分析

首先，分割訓練集和測試集。

5.1?邏輯回歸

[0.7366529216096935, 0.7016048745527705]

5.2?決策圖表

[0.8728884186420657, 0.8448881691422343]

5.3?隨機森林

[0.8936581901455913, 0.9399374165108152]

5.4?樸素貝葉斯

[0.6224554131126394, 0.6610756921767458]

5.5?XGBOOST

[0.8886143098362913, 0.9383456626294802]

5.6?模型比較

繪制ROC曲線

可以看出，樸素貝葉斯表現最差，logistic回歸表現也不是很好，說明數據不是線性可分的；隨機森林和xgboost模型的表現差不多，AUC值都在0.9以上，分類效果很好。隨機森林的AUC值略高於0.94，所以用隨機森林來預測用戶流失。

5.7?隨機森林模型的優化

交互效度分析

學習曲線-將分類器取為80。

[0.9333570067179268, 0.97816699979759]

即按照這個隨機森林模型，召回率可以達到97.8%，流失客戶預測準確率可以達到93.3%。

該模型可以直接用於預測用戶流失。

5.8影響客戶流失的關鍵因素

使用隨機森林分析影響客戶流失的因素:使用feature_importance方法，可以得到特征的重要度排序。

最重要的前10特色:？

每年的訪問次數，壹年內最後壹次訪問的時間長度，昨天同壹入住日期當前城市的app uv訪問次數，壹年內最後壹次下單的時間長度，昨天同壹入住日期當前城市提交的app訂單數，24小時內訪問的酒店平均價格，24小時內訪問的酒店平均業務屬性指數，24小時內訪問次數最多的酒店最低價格，24小時內訪問次數最多的酒店評級數，客戶價值。

六、用戶畫像分析

接下來，通過K-Means聚類方法將用戶分為三類，並觀察不同類別客戶的特征。

k均值聚類

？

可以看出，聚集的三類用戶都有自己非常明顯的特點，針對不同類型用戶的個性化營銷建議如下:

0類是中等群體:消費水平和客戶價值較低，拜訪和預訂頻率較高，提前預訂的時間在三類中最長；需要花很多時間瀏覽才能做出選擇，所以我比較謹慎，推測可能是出國旅遊的用戶。

建議:盡量推送，因為這類客戶通常更喜歡瀏覽；推薦價格相對實惠的酒店；推送當地旅遊信息，因為這類客戶出遊概率較大。

1是低價值客戶:消費水平和客戶價值極低，首選價格低，拜訪和預訂頻率很低；Sid值很低，說明有很多新客戶。

建議:處理流失的客戶，不要花太多營銷成本，不要做具體的渠道運營；推薦促銷活動和價格折扣大的低價酒店；新增用戶比例比較大，潛在客戶多，可以維持服務推送。

第二類是高價值客戶:消費水平高，客戶價值高，追求高品質，價格敏感度高；落地時間長，訪問次數多，提前預訂時間短，但返回次數多。

建議:為顧客提供更多的酒店信息。？推薦口碑好、性價比高的商務連鎖酒店，吸引用戶；非工作日11、17等日間交通小高峰時段推送消息。

壹些評論:

1.在篩選數據特征時可以進行相關性分析，因為某些特征之間可能存在很高的相關性。與目標變量相關性小於0.01的變量可以通過相關性分析剔除，與其他變量相關性高於0.9的變量可以刪除。可以用主成分分析法對指標進行降維整合，可能會達到最好的模型效果。

2.如果想對用戶進行更精細的分類，可以使用RFM模型進行用戶價值分析。但是，這個項目的特點包含了大量的信息，而這些信息可能會被RFM丟失。