當前位置:旅游攻略大全網 - 酒店预订 - 在線酒店用戶流失分析及預警

在線酒店用戶流失分析及預警

本文是壹個在線酒店用戶流失預測和分析項目的總結。

內容/分析思路:

01:?項目介紹

02:問題分析

03:數據探索

04:數據預處理

05:建模和分析

06:用戶畫像分析

壹、項目介紹

?本項目是對某酒店預訂網壹段時間內的客戶預訂信息數據進行分析,通過算法預測客戶訪問的轉化結果,挖掘出影響用戶流失的關鍵因素,深入了解用戶的畫像和行為偏好,從而更好地改進產品設計,開展個性化營銷服務,減少用戶流失,提升用戶體驗。

二、問題分析

這個項目是問題診斷型,要解決的問題是關於用戶流失的問題。在官方提供的字段和解釋中,有壹個標簽字段,是目標變量,也就是我們需要預測的值。Label=1代表客戶流失,label=0代表客戶流失。顯然,這是壹個分類預測問題。

我們的目標是在高預測準確率的同時最大化召回率。從業務角度來說,就是盡可能多的預測可能流失的客戶,從而有針對性的留住他們。因為壹般來說,獲取新用戶的成本要比留住老用戶流失的成本多得多。

第三,數據探索

1,數據總體情況

這個數據集userlostprob_data.txt是某酒店預訂網在2006年5月2016到5月21期間的訪問數據。

該數據集* * *的總數據有689,945行和565,438+0列,包括樣品id、標簽和49個可變特征。

考慮到對用戶隱私的保護,對數據進行了脫敏處理,與實際訂單、瀏覽量、轉化率有些出入,但不影響問題的可解性。

2.數據指標整理出來

觀察數據集,裏面有很多變量。所以首先把數據字典中的中文解釋換成相應的變量名,增強可讀性,然後最好把指標整理出來,壹個壹個分析。

通過研究發現,指標大致可以分為三類:壹類是訂單相關指標,如入住日期、訂單數量、取消率等。壹類是與客戶行為相關的指標,如明星偏好、用戶偏好價格等。還有壹類是酒店相關的指標,比如酒店平均評級、酒店評級數量、平均價格等等。

3.相關特征的描述性分析。

3.1?參觀日期和入住時間

無論是入住人數還是到訪人數,都在5月20日達到峰值,這大概就是“520”情人節的原因。5月21之後,入住人數明顯減少,後面的兩個小高峰說明周末的人會比平日多。

3.2?訪問時間周期

可以觀察到,淩晨3-5點是訪客最少的時間段,因為這個時候大部分人都在睡覺;晚上9-10左右訪問量最大。

3.3?顧客價值

“客戶最近1年的價值”和“客戶的價值”這兩個特征非常相關,都可以用來表示客戶的價值;可以看出,大部分客戶的價值在0-100範圍內;有的客戶價值高達600,後期需要重點分析這類高價值客戶。

3.4?消費能力指數

基本呈現正態分布,大部分人的消費能力在30左右。還有很多人的消費能力達到近100,說明我們酒店的來訪和入住客戶中有很多高消費群體。

3.5?價格敏感度指數

剔除極值,數據向右分布,大部分客戶對價格不是很敏感,不用太費心定價;對於價格敏感指數為100的客戶,可以用折扣來吸引。

3.6?酒店平均價格

大多數人選擇價格在1000以下的酒店,很少有人選擇價格在2000以上的酒店。排除“土豪”,我們可以看到消費者對酒店價格的選擇基本是正偏態分布,大多數人會選擇的均價在300元左右(很可能是快捷酒店)。

3.7?用戶的年度訂單

大部分用戶的年訂單都在40以下。同時,還有壹部分用戶經常入住酒店,需要維護。

3.8?訂單取消率

用戶壹年內最高註銷率分別為100%和0。對於100%取消訂單的客戶,可以結合訂單數量找出原因。

3.9?壹年內從最後壹個訂單開始的時間

可以觀察到,預定間隔時間越長,人數越少,說明有相當壹部分人經常訂酒店;側面反映出“熟客”往往會選擇訂酒店,回頭客較多。

3.10?會話ID

服務器分配給訪問者的壹個id,1是新的訪問者。

老客戶占來訪客戶的大多數;老客戶的預定概率略高於新客戶。

第四,數據預處理

4.1重復值處理

數據維度沒有改變,表明數據集沒有重復值。

4.2?生成派生字段

基於對業務的理解,考慮到用戶提前預訂酒店時間可能更重要,將兩個日期特征轉化為壹個新的特征,以提高模型的準確性和可解釋性。

4.3缺失值處理

查看缺少的值

***51個字段,缺失字段:44個。

缺失值處理的思路和過程

查看特征的分布:

看所有數值特征的分布,根據數據分布選擇合理的處理方法,包括異常值和缺失值處理,有助於深入理解用戶行為。

***51個字段,缺失字段:44個。選擇適當的方法來處理缺失值:

缺失比例大於80%: 1,“最近7天用戶歷史訂單數”缺失88%,直接刪除該字段。

趨於正態分布的字段用平均值填充;具有右偏差分布的字段用中位數填充。

檢查缺失值填充。

可以看出,缺失的值數據已經被填充。

4.4?異常值處理

極值處理:

(基於實際商業思維,屏蔽方式部分不合理,可能會過濾高價值用戶,需要調整。)

負值處理:

4.5?標準化治療

距離類模型需要提前標準化數據。

動詞 (verb的縮寫)建模和分析

首先,分割訓練集和測試集。

5.1?邏輯回歸

[0.7366529216096935, 0.7016048745527705]

5.2?決策圖表

[0.8728884186420657, 0.8448881691422343]

5.3?隨機森林

[0.8936581901455913, 0.9399374165108152]

5.4?樸素貝葉斯

[0.6224554131126394, 0.6610756921767458]

5.5?XGBOOST

[0.8886143098362913, 0.9383456626294802]

5.6?模型比較

繪制ROC曲線

可以看出,樸素貝葉斯表現最差,logistic回歸表現也不是很好,說明數據不是線性可分的;隨機森林和xgboost模型的表現差不多,AUC值都在0.9以上,分類效果很好。隨機森林的AUC值略高於0.94,所以用隨機森林來預測用戶流失。

5.7?隨機森林模型的優化

交互效度分析

學習曲線-將分類器取為80。

[0.9333570067179268, 0.97816699979759]

即按照這個隨機森林模型,召回率可以達到97.8%,流失客戶預測準確率可以達到93.3%。

該模型可以直接用於預測用戶流失。

5.8影響客戶流失的關鍵因素

使用隨機森林分析影響客戶流失的因素:使用feature_importance方法,可以得到特征的重要度排序。

最重要的前10特色:?

每年的訪問次數,壹年內最後壹次訪問的時間長度,昨天同壹入住日期當前城市的app uv訪問次數,壹年內最後壹次下單的時間長度,昨天同壹入住日期當前城市提交的app訂單數,24小時內訪問的酒店平均價格,24小時內訪問的酒店平均業務屬性指數,24小時內訪問次數最多的酒店最低價格,24小時內訪問次數最多的酒店評級數,客戶價值。

六、用戶畫像分析

接下來,通過K-Means聚類方法將用戶分為三類,並觀察不同類別客戶的特征。

k均值聚類

可以看出,聚集的三類用戶都有自己非常明顯的特點,針對不同類型用戶的個性化營銷建議如下:

0類是中等群體:消費水平和客戶價值較低,拜訪和預訂頻率較高,提前預訂的時間在三類中最長;需要花很多時間瀏覽才能做出選擇,所以我比較謹慎,推測可能是出國旅遊的用戶。

建議:盡量推送,因為這類客戶通常更喜歡瀏覽;推薦價格相對實惠的酒店;推送當地旅遊信息,因為這類客戶出遊概率較大。

1是低價值客戶:消費水平和客戶價值極低,首選價格低,拜訪和預訂頻率很低;Sid值很低,說明有很多新客戶。

建議:處理流失的客戶,不要花太多營銷成本,不要做具體的渠道運營;推薦促銷活動和價格折扣大的低價酒店;新增用戶比例比較大,潛在客戶多,可以維持服務推送。

第二類是高價值客戶:消費水平高,客戶價值高,追求高品質,價格敏感度高;落地時間長,訪問次數多,提前預訂時間短,但返回次數多。

建議:為顧客提供更多的酒店信息。?推薦口碑好、性價比高的商務連鎖酒店,吸引用戶;非工作日11、17等日間交通小高峰時段推送消息。

壹些評論:

1.在篩選數據特征時可以進行相關性分析,因為某些特征之間可能存在很高的相關性。與目標變量相關性小於0.01的變量可以通過相關性分析剔除,與其他變量相關性高於0.9的變量可以刪除。可以用主成分分析法對指標進行降維整合,可能會達到最好的模型效果。

2.如果想對用戶進行更精細的分類,可以使用RFM模型進行用戶價值分析。但是,這個項目的特點包含了大量的信息,而這些信息可能會被RFM丟失。