大數據的傲慢與偏見 — 讀後心得

數據模型研究者必看的書

陳孜穎

6 min readDec 20, 2018

書本簡介

書名：大數據的傲慢與偏見

原書名：Weapons of Math Destruction

作者：Cathy O’Neil

譯者：許瑞宋

出版社：大寫出版

內容簡介

作者自哈佛大學取得數學博士學位，曾在金融界及新創企業擔任數據科學家，他以此書警告世界：「數據不缺推崇者，但我不是。甚至我稱它是這個世代的『數學毀滅性武器』」。

為什麼模型會是「數學毀滅性武器」？

這裡的模型不僅限於由機器學習產生出來的模型，還包括各樣的公式以及演算法，甚至包含一個人決定等等晚餐要吃什麼的「思路模型」

在這資訊量爆炸且傳遞與處理皆快速的時代，各大企業及政府可以輕易地收集到關於人們的各種資料，包括學生的升學考試成績、每個人的收支狀況、棒球隊球員的打擊率、通訊軟體用戶的心情……等。模型的使用可以提高人們處理事務的效率。例如自動履歷篩選系統可以為人資人員從一千份履歷中剔除掉五百份不適任的履歷。但自動履歷篩選系統的機制往往使得窮人、被歧視的族群難以找到工作，甚至找不到工作。

並非所有的模型都是「數學毀滅性武器」，例如以機器學習的方式判斷惡性腫瘤，或是依場合決定穿著的思路，都不是「數學毀滅性武器」。作者認為模型要成為「數學毀滅性武器」有三個要素：

不透明
大規模應用
會造成傷害

接下來是作者舉出的實例，穿插我個人的看法，沒有特別說明的話，例子即是發生在美國。

模型中的偏見產生不公平

模型的產生大多數皆由大量的資料，或是現有的公式組成。資料與公式的正確性就相當重要，如果資料或是公式不正確，模型也必定不正確。在注意資料正確性的同時，常常忽略資料中往往含有歷史性的偏見。

作者提到了幾個例子，例如上段提到的自動履歷篩選系統。這類系統通常以現在正在任職的員工表現，或是過去面試官篩選的結果作為數據來源，但現在的社會狀態往往是歧視與偏見的結果，造成某些性別或種族有更高的機率被系統剔除。

犯罪預測模型的重要數據來源之一，是過去發生犯罪資料，此類模型的預測結果常落在過去常發生犯罪事件的地區，因此警方也會針對該地區加強執法。乍看之下沒什麼問題，但過去常犯罪的地區通常是較貧困的地區（金融型犯罪並非通過一般訓練的警察有辦法執法的，也較容易被忽略），一但加強執法，會多發現一些攜帶毒品的毒品使用者，或是非法擁有槍枝的人，此結果會回饋到系統中，讓警方覺得此系統有效，又更加強針對貧困地區執法。

美國司法有使用再犯預測模型，來評估罪犯的再犯機率，有些州的法官會參考模型提供的機率來決定罪犯的刑期。但有力的研究指出，在獄中的時間越久，再犯的機率越高。因此模型產生了惡性的回饋，讓原先被歧視或是犯罪率較高的族群，面臨更高的懲罰，這樣的懲罰是瞄準了整個族群，而不是單一個人。

有些人會疑問，即便不依賴模型，人類本來就有偏見。作者表示，人類的偏見不是穩定的，同時影響的範圍也小，今天一位受試者被面試官歧視，而不錄取，他依然有機會在別的企業遇到不歧視的面試官。模型的大規模應用與此不同，被模型歧視的面試者到了下一間企業，依然會被歧視。

提高效率與準確性，卻失去正義

在這資本主義當道的世界，一些大型的服務業企業開始使用人潮預測系統，以天氣、車流量、行人數量等等預測未來的顧客數，以避免服務人員上班空閒沒事做，或是客人太多，服務員卻不夠的情況，進而減少人事支出。為了準確性與效率，不可以讓模型預測過長時間以後的顧客狀況，導致服務員常常在數天前被告知班表變動，而必須倉促的安排托兒、交通工具，或是調整個人規劃，而這些人大多都是只能領基本時薪的低受薪階級。

在保險的制度上，為了營利目的，保險業者會收集各式各樣的數據，將原先由族群劃分保費的方式（例如年輕男性的汽車保險費比其他族群高），進一步推進到個人，由一個人各式各樣的資料，如由記錄器收集的駕駛狀態，甚至是一些替代指標，如財務狀況、消費狀況等，來決定一個人的保費。如此一來就完全失去包險原先由群體為群體中個體分擔風險的目的，變成每個投保人，只是單純為自己未來可能發生的災難支付「預付款」。

隨著模型可以處理更精準的預測，從預測某班次的顧客人數，到預測某小時的顧客人數；從預測群體的風險，到預測個人的風險，正義被侵害的程度就越大。這類侵害中大多數的受害者都是社會底層的人，但也有群不人都受害的狀況，像是保險制度，所有人都是受害者。與這一節相比，下一節所提的影響更廣泛。

大規模的模型應用影響民主

隨著網路的普及，以及網路中心化，各大資料收集企業，例如Google、Facebook，大規模地使用模型，為使用者篩去其不感興趣的資訊，也為使用者篩選出其有興趣的廣告。看似產生了雙贏的局面，但實際上有很大的隱憂。

Google和Facebook皆做過操作選情的實驗。Facebook曾在某個選舉日提供使用者在板上表示自己已經完成投票，並將使用者分成兩群，一群會看到朋友發文表示已投票，另一群則不會看到。結果顯示看得到朋友的已投票訊息的那群使用者，有較高的投票率。Google則是在選舉前，篩選網頁搜尋的結果，讓使用者只看到某個政治傾向的文章，結果影響了約20%的選票。

藉由擁有龐大的使用者資料，上面的操作可以做到相當「客製化」。例如我在乎機車路權的議題，有心者就可以針對我在乎的議題進行操作，來改變我的政治偏好。當然Google和Facebook並不會做這樣的事，但其他人或企業依然可以透過精準投放廣告，來達到操作民意的目標，且精準度遠超過傳統媒體播送。

結語

除了我上述提到的例子，書中還有非常多模型成為「數學毀滅性武器」的案例。依照現在資訊科技的發展，似乎這一切都無法避免，人類終將被自己產生的模型毀滅。作者認為還不到這麼悲觀，人類還是可以藉由社會的力量阻止災難繼續擴大。首先透過政府立法，嚴格限制模型的運作方式，再來要求模型創造者自我約束，將道德意識放入模型中。甚至應該要像面對複製人議題一樣，建立國際皆應遵守的倫理，確保數學模型不會成為毀滅性武器。

最後，我認為所有運用數據、數學建立模型的人，包括資料探勘領域、機器學習領域，甚至是社交軟體業、金融業，都應該閱讀這本書。這本書有如當頭棒喝，讓我們意識到模型可能帶來災難，而唯有意識到自己正在產生的模型可能成為武器，才能著手去避免。