NO IMAGE

轉正請註明出處:樂投網 – 「大資料」將如何顛覆民主?

大資料

一、統計資料從解決爭議的“幫手”成了擴大分歧的“推手”

十一月總統大選前不久,美國的一項研究發現,68%的特朗普支持者不信任聯邦政府公佈的經濟資料。在英國,由劍橋大學和輿論觀察網共同發起的研究專案“統觀陰謀論”發現,55%的人認為政府“隱藏了居住在這裡的真實移民人數”。

相較於化解這樣的爭議和兩極分化,統計資料實際上是在火上澆油。隨著2016年選民表面上拒絕了各種專家中的首席統計學家和經濟學家,反感統計資料已成為標榜民粹主義權利的標誌之一。不僅許多人認為統計資料不可信,有些統計資料甚至是對他們的侮辱和蔑視。將社會和經濟問題簡化為數字上的總數和平均值似乎侵犯了一些人的政治尊嚴。

大資料

移民是這一問題最生動的體現。英國未來智囊團研究瞭如何更好地支援移民和多元文化。它的一個主要發現是,人們經常對定性資料有熱烈迴應,例如移民的個人故事和不同社群的照片。但統計資料尤其是關於移民能給所謂的英國經濟帶來利益的資料卻帶來了完全相反的效果。人們認為這些數字是被操縱的,他們不喜歡採取定量證據的精英主義。官方對國內非法移民數量進行了估計,但公眾對此的普遍反應是嘲諷。英國未來發現,指出移民對國內生產總值(GDP)的積極影響實際上讓人更加敵視而非支援移民。國內生產總值本身似乎是一種精英主義自由議程中的特洛伊木馬。

感覺到這一點後,政治家現在已經在很大程度上放棄了討論移民對經濟的影響。所有這些都是對自由民主的嚴峻挑戰。坦率地說,英國政府包括其官員、專家、顧問和許多政客確實相信移民有利於經濟平衡發展。英國政府確實相信英國退歐是錯誤的選擇。問題在於,英國政府目前被困審查制度之中,它害怕不這麼做會進一步激怒人民。

這是一個尷尬的兩難處境。不論是國家繼續聲稱它認為(統計資料)是有效的,從而繼續被懷疑宣傳論的人所指責,還是限制政治家和官員說出什麼看起來才是合理和直觀真實的,但這樣最終可能仍舊導致不準確的說法。因此,無論哪種方式,國家政治都會備受謊言和虛偽的指責。

統計資料以及分析這些資料專家權威的下降是這場危機的核心,這也被稱為“後真相”政治。而在這個不確定的新世界,人們對量化分析這一專業知識的態度分歧很大。

一方面,統計學中的政治是精英的、不民主的,忽視了人們對社群和國家的情感投資。這只是那些在倫敦、華盛頓特區或布魯塞爾的特權人士將其世界觀強加給別人的另一種方式。

另一方面,統計資料又是反精英主義的。它使記者、公民和政治家能以一種可驗證的方式討論整個社會,而非依靠名人軼事、情緒或偏見。如果量化專業知識被那些報道社會正在發生哪些“真相”的小報編輯和煽動者所替代,那麼這種方式更不可能實現民主。

有沒有能解決這種兩極分化的方式呢?我們必須從事實政治和情感政治之中選一個,還是說有另一種看待這種情況的方式呢?一種方法是從歷史的角度來看統計資料。我們需要從資料本身來看它們:統計資料既不是毋庸置疑的真理,也不是精英階層的陰謀,而是一種旨在簡化政府工作的工具。縱觀歷史,我們可以看到統計資料對我們理解民族國家及其進步方面所發揮的關鍵作用。這引發了一個令人擔憂的問題,即如果我們想繼續持有共同的社會思想和集體進步,統計資料又怎麼能被拋在一邊呢?

二、統計資料的歷史發展

在17世紀下半葉,由於長期的血腥衝突,歐洲統治者採用了全新的方式來處理政務,開始聚焦人口趨勢,而這是現代統計學的誕生後產生的方法。自古以來,人口普查已被用於調查人口規模,但這樣的方式操作起來費時費力,而且僅關注那些政治上有權威的人(財產所有者),而不是整個社會。那時的統計資料和現在相比有很大不同,在統計的過程中改變了政治的性質。

統計資料旨在全面瞭解人口,而不是簡單地指向有戰略價值的權力和財富來源。早期的統計學並不總是隻有數字。例如在德國(這裡用的是“Statistik”一詞)統計學面臨的挑戰是如何將不同的習慣、制度和法律與數百個小國一一對應。確定一項知識的統計學特徵的要根據其整體性質:看它是否旨在描繪整個國家的圖景。統計資料於人口規模的作用就像地圖之於領土的作用。

大資料

自然科學的靈感也同樣重要。由於採用了標準化的方法和數學工具,統計學知識可以像天文學那樣,用客觀方式加以呈現。英國人口學的領軍人物,如威廉•佩蒂(John Petty)和約翰•格拉倫(John Graunt)用數學方法來估計人口變化,他們也因此被奧利弗·克倫威爾(Oliver Cromwell)和查爾斯二世(Charles II)聘用。

17世紀末的政府顧問更強調科學資料的權威性,而非政治或軍事上的敏銳直覺。這代表著現在民粹主義者所詬病的“專家”文化的起源。這些道路破環者既不是純粹的學者,也不是政府官員,而是介於兩者之間。他們是熱心的業餘愛好者,提供了一種新的思考特權階層和客觀事實的方式。由於擁有高超的數學能力,他們自信可以計算出本來需要廣泛的人口普查才能發現的一些現象。

最初只有一位客戶提供這種專業知識,而線索就在“統計”一詞中。只有集中的民族國家才能夠以標準化的方式收集大量人口的資料,也只有國家最需要這樣的資料。在18世紀下半葉,歐洲各國開始更多地收集這種今天我們所熟知的統計數字。為了瞭解國家人口,各州著重於一系列量化指標:出生、死亡、洗禮、結婚、收成、進口、出口、價格波動。國家對以前只在地方和各地教區進行登記的事項進行了彙總。

新技術被開發出來代表這些指標,它從縱向和橫向維度用矩陣和表格的形式展現資料,就像15世紀後期的商家制定了標準化記賬技術一樣。將數字用行和列排列提供了一種強有力的新方式來顯示特定社會的屬性。現在只需簡單地掃描在單個頁面上的幾何資料,就能夠來調查大型複雜問題。

這些創新為政府帶來了非凡的潛力。通過將多樣的人口簡化為具體指標,並將其顯示在適當的表格中,政府無需再事無鉅細地去了解當地人文歷史。當然,從另一角度看,無視地方文化多樣性這點使統計學有些粗略和唐突。無論一個國家是否具有共同的文化認同,統計學家將會採取一些統一的標準,有些人可能稱此為強加統一性。

大資料

統計資料不能展現被調查人口的方方面面。在所包含的內容和被排除的內容中總是有一個隱含的選擇,這個選擇本身就可以成為一個政治問題。國內生產總值只關注有償工作的價值,從而排除了傳統上婦女為家庭付出的勞動。從1960年代開始這點就成為了女權主義批評的目標。在法國,1978年以來收集人口普查資料是非法的,因為這些資料可能用於種族主義政治目的。(這也造成了難以估量的副作用,即加劇了勞動力市場中有組織的種族主義。)

儘管有這些批評,但用客觀的方式全面描繪一個社會的願望意味著統計資料承載了各式各樣的進步理想。把統計學作為一項公正的社會科學只是這些理想中的一個方面。另一方面是關於如何將這些偉大的政治理想融入到這些技術中:“循證決策”的理想、理性,進步和基於事實而非浪漫故事建立起來的國家。

自18世紀末啟蒙運動以來,自由派和共和黨人熱切希望國家計量框架可以產生更為理性的政治,為社會和經濟生活帶來顯著改善。偉大的民族主義理論家本尼迪克特•安德森(Benedict Anderson)將國家描述為“想象的社群”,而統計資料將這種想象變為了有形的事物。同時,他們承諾揭示國家的歷史路徑:發生什麼樣的進展?多快? 對於認為國家朝著單一歷史方向發展的啟蒙運動自由主義者來說,這個問題至關重要。

直到革命後,法國才開始用統計資料來揭示國家狀況。雅各賓派提出了一個全新的國家計量和國家資料收集框架。世界上首個官方統計局於1800年在巴黎成立。由受過高等教育專家組成的中央幹部監督資料收集的統一性,這也是中央統治共和國理想的一部分,旨在建立統一平等的社會。

啟蒙運動開始後,統計數字在公共領域發揮了越來越重要的作用,如用於媒體辯論,為社會運動提供證據等。隨著時間的推移,蒐集和分析這些資料不再由國家主導。社會科學家開始自主分析資料,而其分析目的往往與政府政策目標毫不相關。19世紀末,倫敦的查爾斯·布斯(Charles Booth)和費城的威廉·愛得華·伯格哈特·杜波依斯(W.E.B. Du Bois)等改革者自主開展調查來了解城市貧困人口。

大資料

查爾斯·布斯和威廉·愛得華·伯格哈特·杜波依斯

要想知道統計資料如何與國家進步息息相關,不妨去看看國內生產總值。國內生產總值是用單個數字計算的國家消費支出、政府支出、投資和貿易差額(出口減去進口)總和的估計值。想要準確預計這一數值十分困難,於是20世紀30年代大家開始努力計算這一數字,它像一道神祕的數學題引發了人們的探究興趣。第二次世界大戰提升了這一問題的國家政治緊迫性,政府需要知道國民生產是否足以維持戰爭所需。在接下來的幾十年裡,儘管一直遭受批評,這個單一的指標卻仍然擁有神聖的政治地位,成為了衡量政府能力的最終晴雨表。如今,國內生產總值的高低已經成為衡量社會進步還是退後的重要指標。

或者以民意調查為例,這是私營部門統計創新的早期例項。20世紀20年代,統計學家制定了調查受訪者代表性樣本的方法,以收集整體公眾的態度。市場研究人員首先抓住這一突破,很快就促使了意見投票的誕生。隨著媒體報道稱這個新科學告訴我們“婦女”或“美國人”或“手工勞工”對世界的看法,這個新興行業立即成為公共和政治迷戀的物件。

三、統計資料的“信任危機”

如今,投票被指責的一無是處。但這也部分源於自投票產生以來人們對其抱有的巨大希望。只有在我們相信大眾民主的前提下,我們才會如此沉迷或關心公眾的看法。然而,在大多數情況下,我們是從統計數字裡而非民主機構得知公眾對具體問題的看法。與民主制度相比,我們低估了我們從專業計算中所獲得“公共利益”的感覺。

作為健康、繁榮、平等、輿論和生活質量的指標,統計資料讓我們知道我們是什麼樣的一個集體以及事情是在變得更好還是更壞。政治家們高度依賴統計資料來鞏固其權威。他們經常過度依賴這些資料,過度利用資料證據,或是過於寬鬆地解釋資料來為他們的政治事業服務。但這是公共生活中普遍存在的有關資料的必然危險,但這卻並不一定會觸發最近的對專業(統計資料)知識的全然拒絕。

當代民粹主義者對“專家”(此處指統計資料專家)的攻擊與對當選代表的攻擊在許多方面相似。在談到作為一個整體的社會時,為了管理整體的經濟執行,政治家和技術專家統治者被認為未考慮到特定單一公民主題的感覺。統計學家和政治家都陷入了“以國家的角度看待問題”的陷阱,這是無政府主義政治思想家詹姆斯•斯科特(James C Scott)的名言,科學地談論國家(例如在巨集觀經濟學方面)是對那些更喜歡依靠記憶和敘事維繫國家情感的人的侮辱,他們厭惡被告知不存在“想象的社群”。

大資料

對統計資料的信任危機並非突然發生。近450年來,統計學家的一項偉大成就是用可控、可理解的事實和資料來記錄複雜、變動不居的國家人口。然而,近幾十年來,由於20世紀60年代興起的文化政治和其後全球經濟的重塑,世界發生了巨大的變化。統計人員並不總是能夠跟上這些變化。傳統形式的資料分類和定義正在面臨流動性更強的身份資訊、態度以及經濟途徑所帶來的壓力。這種試圖以簡單、普遍認可的指標代表人口、社會和經濟變化指標的方式正在喪失其權威性。

過去四十年中,各國政治、經濟和地理狀況不斷變化。主導政治辯論的統計資料主要包括國家的以下情況:貧窮水平、失業率、國內生產總值(GDP)、淨移民數。但資本主義國家地理位置這一因素與前兩個因素的發展方向有所不同。

全球化並沒有使地理位置變得無關緊要。在許多情況下,全球化反而使經濟活動的位置變得更為重要,加劇了經濟成功地區(如倫敦或舊金山)和不成功地區(如英格蘭東北部或美國鏽帶)之間的不平等。主要的地理單元不再侷限於民族國家,而變成了那些正處於上升和下降期的城市、地區或獨立的城市街區。

將國家作為一個單一社群,並用一個普適的資料框架去測量的啟蒙理想越來越難維持。如果你住在威爾士山谷裡一個曾經依賴鋼鐵製造業或採礦業來創造工作機會的城鎮,那些說“經濟執行態勢正好”的政客可能反而會招致更多的怨恨。從這個角度來看,“GDP”一詞無法傳遞任何有意義或是令人信服的資訊。

當巨集觀經濟學被用來作政治論證時,這就意味著該國的一部分損失被其他地方的收益抵消了。那些引人注目的國家指標(如國內生產總值和通貨膨脹)都隱藏著各種各樣地方化的收益和損失,而這些政治家們都很少討論。總體而言,移民可能對經濟有好處,但這並不意味著沒有任何地方成本。

所以當政客們使用國家指標做出他們的案例,他們是在隱射那些有愛國精神選民的犧牲:這個時候你可能是失敗者,但下次你可能是受益人。但是如果桌子從來沒有轉過呢?如果同一個城市或區域一次又一次地贏了,而其他地方總是輸呢?付出和收益應該適用什麼樣的原則才是公正的呢?

在歐洲,貨幣聯盟加劇了這個問題。影響歐洲中央銀行(ECB)重要指標是那些代表了5億人口的指標。歐洲央行關注整個歐元區的通貨膨脹率或失業率,它將歐元區看做一個單一同質的領域。同時,由於歐洲公民的經濟命運正在向不同的方向分裂,這取決於他們所居住的地區、城市或社群。官方的知識變得越來越抽象,甚至逐漸與生活經驗脫節,直到變得不再相關或是可信。

大資料

國家有著天然成為資料分析範圍的特權,這也是資料分析內在的偏見之一。而隨著多年來經濟的變化這個特權已經消失殆盡了。另一個正在面臨日益緊張壓力的內在偏見是對資料分析的分類。統計學家的工作之一是通過把人類放在由其創造的一系列標準之中來進行分類:就業或失業,已婚或未婚,親歐洲或反歐洲。只要人類可以根據這種方式被歸類,那麼就可以看出不久的將來可以有一種分類能夠涵蓋整個人類。

這可能會涉及減少選擇項。以失業為例,例如一個人要被歸類為失業人口,他必須向調查機關報告,自己是非自願失業,即使現實情況可能要比那複雜的多。許多人一直在徘徊在工作和失業之間,原因可能與健康和家庭需求等勞動力市場的條件有關。但是基於這種簡化的分類,我們便可以確定整個人口的失業率。

然而這裡存在一個問題。如果我們這個時代定義的很多問題,並不是指它們影響了多少人,而是指與此有關的人會受到多深的影響,這時應該怎麼辦?失業就是一個例子。英國就因失業率沒有顯著上升而平穩渡過了2008至2013年的經濟大蕭條,這也被視為一項積極成就。但是過度關注“失業”掩蓋了“就業不足”的問題。“就業不足”指沒有足夠工時或就業能力低於崗位要求水平的人。目前就業不足人口在“就業”勞動力中佔比約6%。然後自僱勞動力興起,這使得“就業”和“非自願失業”之間的區分變得沒有意義。

這並不是對國家統計局(ONS)等機構的批評,這個機構目前正負責就業不足的資料。但只要政治家繼續通過指責失業率來模糊批評指向,那麼這些掙扎著卻無法充分就業或是僅靠工資無法生存的人在公開辯論中就得不到充分代表。如果同樣是這些人在懷疑政策專家和政治辯論中使用的統計資料,以及政客們所描述的勞動力市場和現實生活的不一致,這將令人非常驚訝。

20世紀60年代以來身份政治的興起對這樣的分類制度造成了更大的壓力。只有當人們接受了有限的幾種由專家而非被調查者選擇提供的人口統計類別時,統計資料才是可信的。但當身份成為了一個政治問題,人們需要界定他們自身的性別,性取向,種族或階級等。

意見投票也正遭受類似原因的困擾。傳統上投票可以瞭解人們的態度和偏好,並且可以合理假設人們會做出相應行為。但是,在政治參與度下降的時代,僅僅知道人們可能會傾向於在哪個盒子投否認票是不夠的,還需要知道他們是否真的對此感到強烈不滿。當涉及捕獲這樣的情緒波動時,投票工具並不好用。

四、統計資料的“信任危機”緣起何處?

長期以來統計資料一直面臨批評。身份政治和全球化給其帶來的挑戰也不是新鮮事。為什麼過去一年發生的事件對定量研究及其在政治辯論中的作用如此有害?

近年來出現了一種新的量化和視覺化人口的統計方式,這可能會將統計資料推到邊緣,從而進入了一個完全不同的時代。由技術專家收集和彙編的統計資料,正在讓位於數字化掃描時預設累積的資料。傳統上,統計人員已經知道哪些人群想問哪些問題,然後開始回答他們的問題。相比之下,每當我們刷信用卡,在Facebook上評論或在谷歌上搜尋某物時,都會自動產生資料。隨著我們的城市、汽車、家庭、家庭用品都變得數字化時,我們的蹤跡將會留下更多的資料。在這個新世界裡,首先要捕獲資料,然後再進行相關的問題研究。

從長遠來看,這一發現的影響可能會與17世紀末發明統計資料一樣深刻。“大資料”的興起和以往所有的投票或統計建模相比,帶來了更多的定量分析機會。但是這種不同不僅表現在資料量的不同。它代表了一種完全不同的型別的知識,並且伴隨著一種新的專業模式。

大資料

第一,沒有固定的分析規模(如國家)或是任何固定的類別(如“失業者”)。這些龐大的新資料集可以挖掘出模式、趨勢、相關性和大眾情緒。它成為跟蹤人們身份的一種方式,但這種跟蹤是基於人們的自發行為(如網民貼出的“我正在和科比在一起”或“企業家”的標籤)而不是強加分類。這種集合形式更適合當今流動性更強的政治時代,我們不能指望一切都能回溯到啟蒙運動理想時,民族國家可以作為公共利益的守護者。

第二,我們大多數人完全不瞭解這些資料是怎麼評判我們個人或是整個集體的,也沒有和國家統計局辦公室相當的機構商業性地收集大資料。我們生活在一個我們的感覺、身份和關係網都可被以前所未有的速度和敏感度跟蹤和分析的時代;但這點從未在公共利益中體現或是在公開辯論中有所提及。有資料分析師為谷歌和Facebook工作,他們並不是生成統計資料的“專家”,現在卻受著廣泛的譴責。新分析師的不確定性和祕密性可能使他們在政治上比任何社會科學家都要更強大。

像Facebook這樣的公司有能力以非常低廉的成本對數億人進行量化社會科學研究。但它沒有動力去揭示結果。2014年,Facebook研究人員發表了一篇關於“情緒感染”研究的結果,他們對使用者進行了實驗,改變了新聞訊息來看它如何影響使用者迴應的共享內容。有點要強調的是人們是在不知情的情況下參加試驗的。因此,從Facebook的角度來說,為什麼要這麼麻煩去出版這個實驗結果?為什麼不只是做這項研究然後保持沉默?

從統計邏輯到資料邏輯的這種轉變最具政治意義的地方在於,這些資料與興起的民粹主義的匹配度如何。民粹主義的領導人可以鄙視傳統的專家,如經濟學家和調查人員,轉而信任一種不同的數字分析。這些政治家依靠一個新的、不那麼高調的精英,從龐大的資料庫中尋找模式,但很少公開發表宣告,更不用說發表任何證據。這些資料分析師通常是物理學家或數學家,其技能根本不是為了研究社會。例如邁克爾前顧問兼投票聯盟競選總監多米尼克·卡明斯(Dominic Cummings)宣傳的世界觀,他說:“物理,數學和電腦科學與巨集觀經濟預測不同,這些是有真正專家的領域。”

與唐納德·特朗普走得近的人物,比如他的首席戰略家史蒂夫·班農(Steve Bannon)和矽谷億萬富翁彼得·蒂爾(Peter Thiel)都善於通過諸如劍橋分析這樣的公司(班納為其董事之一),熟練運用前沿的資料分析技術。在總統大選期間,劍橋分析科技公司利用各種資料來源以分析數百萬美國人的心理狀況。這家公司曾幫助特朗普通過量身定製的訊息確定目標選民。

這種開發和追蹤大規模人群心理想法的能力是這項新資料分析中最具創新性和爭議性的特徵。作為一項“情緒分析”技術,其將跟蹤檢測大量人群的心情諸如其在社交媒體用語等指標融入了政治運動,使得特朗普等人物的情感魅力指數可通過科學方式審查。在一個普通公眾的政治感情都可以被追蹤的世界裡,誰還需要民意調查?

通過這種資料分析產生的結果幾乎從未公之於眾。這意味著這樣的分析在任何共享現實中所起到的確定政治敘述的作用都微乎其微。隨著統計資料權威不斷衰落,又沒有任何進入公共領域的東西能夠替代它,人們可以生活在任何他們認為最有歸屬感和願意相信的虛擬社群。統計資料可以用來糾正關於經濟、社會或人口方面的錯誤宣告。在一個資料分析盛行的時代裡,幾乎沒有機制能夠防止人們放棄自己的本能反應或情感偏見。因此,諸如劍橋分析這樣的公司將這些感覺視為跟蹤目標。

但即使真有這樣一個代表公眾政府的資料分析辦公室,像國家統計局(ONS)一樣,不清楚它是否會持自由主義者今天正在努力捍衛的中立觀點。資料運算的新裝置非常適合於跟蹤趨勢、感知情緒和發現那些正在發生的事物。它為競選經理人和營銷人員提供了優質服務。但它不太適合形成一個明確客觀、有潛在共識形式的宣告,而這些也正是統計學家和經濟學家所要做的事情。

五、面對“信任危機”,我們該何去何從?

在這一新的技術和政治氣候下,新的資料精英將要肩負在通過大量資料流來辨別事實、預測真相的重任。如國內生產總值和失業率這樣的指標是否還存在政治影響仍有待觀察。但如果他們不再有政治影響力,這不一定預示著資料專家的末日,更不會代表預測真相的結束。我們應當更加認真地看待這些問題。我們的背後在不斷產生資料,這不斷地超越我們的認知範圍,也是統計資料帶給代議制民主的危機。

大資料

一方面,值得關注的是這些長期存在的政治機構是有能力去反擊的。正如最近優步(Uber)和愛彼迎(Airbnb)這些“分享經濟”平臺受到法律裁決的阻撓(優步被迫將司機認定為僱員,一些市政當局完全禁止使用愛彼迎),隱私和人權法律是擴充套件資料分析的潛在障礙。然而公眾如何通過這些統計資料設定享受到數字分析帶來的益處尚不明晰。

由蒂姆(Tim)和伯納斯·李(Berners-Lee)合作創立的開放資料研究所等機構對公眾公開發布資料,但和目前掌握著大量資料的公司相比,該資料的影響力不大。

統計最開始是作為國家統觀社會的工具興起,現在卻逐漸發展成與學者、公民改革者和企業都利害攸關的事項。對於許多資料分析公司來說,相關的保密方法和資料來源是他們不會自願放棄的競爭優勢。一個後統計學的社會潛藏著危險,這並非因為它缺乏任何形式的真相或專門知識,而是因為它會大大加速其私有化。

統計學是自由主義尤其是啟蒙運動的支柱之一。那些生產和使用它們的專家在政治情感和地方政治層面已經被描繪成傲慢和無知的人。毫無疑問,肯定有方法使資料收集能更好的反映生活實踐。但是這是場仍需博弈的戰鬥。而長久來看,這並非精英領導的事實政治與民粹主義的感覺政治之間的博弈,而是場存在於那些仍然認可公共常識和關注公眾聚焦點的人與會從這些事情的瓦解中獲利的人們之間的戰鬥。