當前位置:旅游攻略大全網 - 酒店住宿 - 如何有效識別數據分析模型中的認知陷阱

如何有效識別數據分析模型中的認知陷阱

避免誤導:如何識別數據中的認知陷阱?

本文著眼於如何防止他人操縱數據誤導我們。

首先,我們要明確壹點,雖然我們用了“操縱數據”這個詞,但我們並不關心動機,是故意欺騙、故意誤導還是水平不夠才會犯錯,我們不做判斷和區分。

我們只是從數據思維的角度來看如何防止被誤導,不管對方是有意還是無意。

還有壹點需要澄清的是,我們這裏討論的是數據是真實的,但是被誤用了,導致了誤導,不包括篡改數據的情況。

例如:

壹家印度承包商受印度政府委托,為難民提供糧食保障,包括生活必需品和生活保障。

但是,由於沒有確切的難民人數,政府必須支付承包商所說的費用。但支出似乎太大,有人建議請統計學家幫忙。

統計學家瞄準三樣東西——大米、豆類和鹽。

如果人數穩定,那麽這三種食物的消費量也基本穩定,所以可以交叉驗證。結果發現,鹽估計的人數最少,米估計的人數最多。這個地方沒有人誇大,因為鹽的價格低,總量小。米價高,總量大,這個地方就有做假賬的動力。

本案是通過偽造數據達到非法目的,是技術水平最低的騙子。這不是我們在這裏討論的。

用真實的數據,通過各種運營手段誤導人,是壹個技術含金量很高的工作。這裏主要討論這個方向。

操縱數據誤導受眾大致有三個方向,即操縱數據的使用、操縱數據的生成和操縱數據的解讀。

操縱數據的使用—

這方面的案例太多了。讓我給妳舉幾個例子:

用平均值掩蓋分布:

"壹家公司有3003名股東,平均每人660股."誤導妳的真相是這樣的:公司共有200萬股,其中3個大股東持股3/4,其余3000人持股1/4。

用百分比掩蓋刻度:

“霍普金斯大學的1/3女生嫁給了大學老師。”但實際上只錄取了三個學生,其中1人嫁給了老師。

用短期波動代替長期影響;

"衛生部最近宣布,在大霧彌漫的壹周裏,倫敦市中心郊區的死亡人數猛增至2800人。"這是因為霧嗎?這個地方的平均死亡人數是多少?接下來幾周的死亡人數呢?

遺漏變更的原因:

"在過去的25年裏,癌癥死亡人數增加了。"聽起來很嚇人,但其實很多因素更能說明問題。比如,很多過去病因不明的病例,現在確診為癌癥;屍檢已經成為壹種有助於明確診斷的常用方法;醫學統計更全面;易感年齡組的人數增加了。還有,現在的人比以前多得多。

竊取概念—

“壹位委員建議,我們可以讓囚犯離開監獄,住在酒店,這樣會更便宜。因為壹個犯人壹天的費用是8美元,而住旅館只要7美元。”但實際上,這裏的8美元指的是囚犯的所有生活費用,而議員們比較的只是酒店房租。

不壹致的定義:

幾個平臺都說自己的流量第壹,證據就是平臺播出的電視劇收視率第壹。但各家的定義不壹樣,有的用平均收視率,有的用單集最高收視率,有的用首播重播總收視率。

忽略測量誤差—

“李雷的智商是101,韓梅梅的智商是99,所以李雷比韓梅梅聰明。”但任何測量都有誤差,結果要加上壹個區間,比如3%。這樣看來,李磊和韓梅梅的智商區間是重疊的,根本分不清誰比誰聰明。

差別太小,不實用;

“大規模智商測試結果顯示,男生平均106.1,女生平均105.9。”即使統計上存在這種差異,也沒有實際意義,因為差異太小。

參照物不清楚-

"這臺榨汁機的榨汁功能增強了26% . "這和誰比呢?如果和老的手動榨汁機比呢?

比較時忽略基數:

“高速公路上晚上7點的事故是早上7點的4倍,所以早上生還的幾率高4倍。”其實晚上事故多,只是因為晚上高速公路車多人多。

不同物體的強制比較-

“美國和西班牙戰爭期間,美國海軍的死亡率是9‰,紐約居民的死亡率是16‰,所以海軍士兵更安全。”其實這兩組對象是沒有可比性的。海軍主要是體格強壯的年輕人,而城市居民包括嬰兒、老人和病人。這些人的死亡率到處都很高。

基數的變化會讓人產生幻覺:

五折八折會讓妳覺得有七折。其實折扣只有六折,因為後面的八折是按五折後的價格算的。

用數字遊戲控制觀眾的感情;

投資回報率第壹年3%,第二年6%。以下兩種說法都是正確的:1。增加了3個百分點;2.增長率高達100%。如何呈現,取決於妳想讓觀眾感受到什麽。

操作數據的生成—

這方面有許多例子,例如:

算法采用的規則是不同的:

實驗用兩種算法來判斷交通違章:壹種是“嚴格遵守法律條文”,簡稱條文版,只要車速過線就會開出罰單。另壹個是安全原則。如果當時車速是安全的,就不會被罰。比如周圍沒有車,或者大家都很快。慢下來就是壹塊移動的石頭,不利於安全。這種規則能夠“準確反映法律意圖”,因此被稱為意圖版。

經過實驗,在同樣的流量條件下,文章組的算法開出了500張罰單,而意向組的算法只開出了1張罰單。妳認為交通違章嚴重與否?

實驗條件設置錯誤:

有壹篇論文得了省級獎,說阿膠營養效果好。做法是先讓小白鼠營養不良,然後給它們吃阿膠。結果各種數據都比對照組好。看起來阿膠好像真的有效,但是妳看對照組,只給那些營養不良的小白鼠餵水。這相當於給點吃的和不給點吃的區別,而不是阿膠和普通營養品的區別。實驗結論當然不靠譜。

為了防止作弊,我強調這篇論文的結論不靠譜,不是討論阿膠有沒有營養。

問題順序影響回答者的選擇;

調查顯示,如果先問服裝廣告的問題,再問壹般廣告的問題,女性對廣告的態度更積極。

根據對普通人的調查,類似的秩序問題也存在。比如先問婚姻生活是否幸福,再問整體生活是否幸福。受訪者會自動排除對婚姻生活的感受,對整體生活進行評價。事實正好相反。

操縱數據的解釋—

我舉幾個例子來感受壹下:

歸因錯誤:

壹位飛行教員非常自信地說,“批評使人進步,表揚使人退步。”因為指導老師發現,只要表揚學生,第二天學生的表現肯定會變差,批評學生第二天反而會變好。

其實這是壹種回歸現象。如果這個學生今天被表揚了,說明他今天的表現超過了他的平均水平,第二天回到平均水平是很正常的。

因果關系不成立:

在印度,研究人員發現看電視的人對性別平等持更積極的態度。這是否表明我們應該普及電視來改變印度農村對女性的態度?

事實是,受過良好教育的人買得起電視,而受過良好教育的人對性別平等的態度更開放。經常看電視和男女平等的積極態度不是因果關系,而是伴隨關系。

理論應用誤差:

網上有個段子說漢朝8000人養1公務員,唐朝3000人,明朝2000人,清朝1000,今天卻是18,暗示這個時代公務員太多了。

這個誤差是無條件放大或縮小的。隨著人口規模的增加,需要公共服務的人數不是線性增長,而是幾何增長。只有在合理的理論框架下,才能評價18人供養1公務員是多還是少...