資料的黑暗陷阱是什麼? ——由柏拉圖“洞穴之喻”想到的

說明:原文於2016-7-20發表於阿里云云棲社群:https://yq.aliyun.com/articles/57841

【導語】客觀的世界只有一個,而描述這個世界的稜面卻有無數個,如果只在一個或某幾個稜面採集資料,就如同在降維的世界裡,來刻畫高維世界,即使收集的資料再多,也是殘缺的,更可怕的是,資料越多,分歧也可能越多,因為每一個不同的觀點,都能從事實的一個稜面,找到很多相應的資料來支援,然後彼此否定,如果是這樣,那麼在一定程度上,這比沒有資料還要糟糕,這或許就是資料的黑暗陷阱之一。

 

1.大資料的數理哲學基礎

當下的世界,無不在快速地資料化,細節和事實都被廣泛地記錄下來。通過“資料排放(dataemission)”,大資料系統可以記錄下使用者留下的點點滴滴(如點選記錄、瀏覽時間、評價內容等),還可以記錄下感測器發出的0011(各種溫度、溼度、速度、壓力等感測器資料)。通過這些記錄,消逝的世界,得以重新再現,從而進行規律挖掘和預測分析。以至於大資料時代有個動聽的口號:記錄一切資料,等待有趣的事發生。

 

於是,就有人說,大資料時代具有顛覆性,就是因為,目前一切事物的屬性和規律,只要通過適當的編碼(即數字介質),都可以傳遞到另外一個同構的事物上,得以“無損”全息表達。在這種意義上,有人就認為[1],大資料與世界本身是對等的,或者說是同構的(如圖1所示)。大資料正是通過“量化一切”而實現整個世界的資料化,這很可能改變人們認知和理解世界的方式,即帶來全新的大資料世界觀——研究大資料,認知全世界!

 

圖1  大資料的數理哲學基礎——同構關係

毋庸置疑,大資料是一種寶貴的資源,也是一種強有力的工具。但就目前而言,說大資料是世界的同構對映,恐怕更多的僅僅是一種理想主義。大資料告知人們資訊,卻不解釋資訊。大資料引導人們去理解,但倘若使用不當,卻會帶來誤解。大資料有其光輝的一面,但必須避免被它的光芒眩暈了雙眼,我們也要利用餘眸,留意大資料的黑暗陷阱。

2.柏拉圖的“洞穴之喻”與劉慈欣的“降維攻擊”

古希臘哲學大家柏拉圖在《理想國》第七篇中,講了一個著名的比喻,即“洞穴之喻(Allegoryof the Cave)”[2]:

設想有一個很深的洞穴,洞裡有一些囚徒,他們生來就被鎖鏈束縛在洞穴之中,他們背向洞口,頭不能轉動,眼睛只能看著洞壁。

在他們後面砌有一道矮牆,牆和洞口之間燃燒著一堆火,一些人舉著各種器物沿著牆往來走動,如同木偶戲的屏風,當人們扛著各種器具走過牆後的小道,火光便把那些器物的影像投射到面前的洞壁上。由於這些影像是洞中囚徒們唯一能見的事物,他們即以為這些影像就是這個世界最真實的事物(如圖2所示)。

圖2柏拉圖的洞穴之喻 (圖片來源:維基百科,繪製:Markus Maurer)

柏拉圖利用這個比喻,在啟發世人,我們可見的世界,可能僅僅是被火光投射洞穴牆壁上的影像而已(自然,這個影像是失真的),而這些洞穴的居民,卻把它當做是真實的世界。而真實的世界是在洞穴之外,是有太陽的地方。

在很多場景下,受到現有測量和認知工具的侷限,我們只能感知到某個事實的一個或幾個側面,就如同柏拉圖所言的洞穴人,受限於鏈鎖,只能向到前面的洞穴壁,於是,就會誤把其所能感知到的投影於洞壁的影像(二維世界),當作真實的世界(三維世界)。

如果將洞壁的影像,進行資料化處理,哪怕技術再先進,收集的資料再多,都難以讓洞穴人感知到一個真實的世界,因為他們看到的世界,被“降維處理”了。

無獨有偶。劉慈欣先生在其科幻名著《三體》中,也描繪了一個恢弘壯麗的“降維攻擊”:“歌者”文明在途經太陽系旁的星際空間時,隨手拋下了一張“二向箔”,包括地球在內的整個銀河系的三維空間,瞬間就洶湧澎湃地流入二向箔,三維結構被碾壓在二維平面之上。

降維為什麼能形成攻擊,很大程度上,降維就意味著降低了對世界文明的理解力!升維則相反。

一個正面的有趣的案例就是,在機器學習領域,有個非常有效的分類方法——支援向量機(Support Vector Machine,SVM)。它最喜人的地方莫過於,對於低維空間的線性不可分樣本,通過對映演算法,可轉化為高維特徵空間,從而豁然開朗,使得線性不分類問題,變得線性可分。簡單來說,SVM之所以好用,是因為它提供了一個“升維”的世界。

這裡我們想說,沒有足夠的維度,看到的世界,就是“偽”世界。沒有足夠的稜面,看到的事實,就是“偽”事實!

其實這些並不是最可怕的,可怕的是它可能造就一個非良局面,擁有片面資料,然後固執己見,形成彼此否定的黑暗僵局。

3. 資料越多,真相就越近嗎?

隨著越來越多的事物被資料化,越來越多的決策者唯“數”是從。更有甚者認為,“我們信奉上帝,其他人都必須攜資料而來”(In God wetrust. All others must bring data, 語出世界著名的質量管理專家Edwards Deming)。

相信資料,這是很好的事情。

但如同那句良言,“盡信書不如無書”,略改一個字,盡信“數“不如無”數”,也是成立的。過度的、不合理的利用資料,帶來的後果可能比沒有資料還要糟糕。

這是因為,客觀的世界只有一個,而描述這個世界的稜面卻有無數個。在很多時候,我們所能採集的、所能接觸的、願意相信的,可能僅僅就是“事實”的某一個或幾個稜面的資料。

如果是這樣,就如同在降維的世界裡,來刻畫高維世界,那麼即使收集的資料再多,也是殘缺的,更可怕的是,資料越多,分歧也可能越多,因為每一個不同的觀點,都能從事實的一個稜面,找到很多相應的資料來支援,然後彼此否定,形成理解上的死迴圈。

比如說,假設我們有一個事實是:教育似乎在走下坡路。我們得到的資料是,用標準化考試得到的學生成績。那麼問題來了,考試成績作為一個維度的資料,是否能全面反映學生的能力呢?學生的創造力能在多大程度上被標準化考試反映出來?教育培養的是能力,還是成績?標準化成績之所以飽受爭議,就是因為這樣的資料所反映出來的,並非是教育的全貌。

再比如,如果我說,李鴻章是中國近代史上最傑出的兩個半外交家之一(另外一個是周恩來,半個是顧維鈞),你可能立馬就拍案而起,胡說,中國近代史上的30多個不平等的條約,哪個少了李鴻章,他赤裸裸地就一個賣國賊嘛!

於是,公說公有理,婆說婆有理。每個人都拿著事實的一面,來否定另一面,振振有辭,不亦樂乎!

大資料專家塗子沛先生曾寫過一篇文章《為什麼資料越多,真相越遠》[3],文中指出,“人類就像刻舟求劍的楚人一樣,能掌握的永遠只是某一個節點某一個範圍內的小事實”。

話說阿里巴巴公司,可謂是中國乃至世界範圍的大資料翹楚之一,公司不僅擁有大資料本身,也具備大資料思維,同時還擁有一大幫優秀的大資料工程師。即使這樣,也會出現問題。

塗子沛先生就列舉了一個案例。話說他還沒有就職於阿里巴巴工作之前,公司就有業務線上的高管來諮詢他,說僅僅就預測顧客可能要買的商品,阿里就有9個不同的業務部門在做,而這些部門,得出的結論往往大相徑庭,而且各個部門都認為自己的預測最佔理、最準確!

塗先生認為,這個案例其實隱藏著一個巨大的時代風險。這就是,數量龐大的資料,將導致“人人皆有理”。一個人要做出一個與其它人迥異的結論,總可以找到相應的資料來支撐自己。

根據數字人類學家托馬斯•克倫普(ThomasGrump)的觀點[4],要知道,資料的背後都是人!人並非總能表現理性!

於是,意見紛爭、共識稀少,是常見的局面。

這在一定程度上,可能比沒有資料還糟糕。這就是我們在使用(大)資料,不曾認真思考的黑暗陷阱之一。

4.消滅黑暗陷阱的途徑

針對塗子沛先生提到的那個案例,他的判讀是,阿里的那些部門依據的應該是各自收集的、不同環節的資料,一問的確如此。於是他建議,阿里的正確做法應該是,合併部門,歸整資料,然後形成一個多維度的資料,讓資料接近事實,然後再進行預測。

其實,塗先生的答案,早在中國古老哲學“兼聽則明,偏信則闇”中,已有體現。多“聽”幾個維度的“事實”,便會帶來一個更加清晰的事實,否則,單維度“聽”信某個方面的“事實”,就會帶來愚昧和昏暗。

現在我們已經步入大資料時代,可不要認為我們已處於科技發達的年代,就把古人的忠告給拋之於腦後!

【參考文獻】                                                  

[1] 李德偉等.大資料改變世界[M].北京:電子工業出版社.2013.10

[2]柏拉圖(著). 黃穎(譯).理想國[M].中國華僑出版社.2012.06

[3]塗子沛. 為什麼資料越多,真相越遠. 羅輯思維. 2016.04.

[4] 托馬斯•克倫普(著).鄭元者(譯).數字人類學[M].中央編譯出版社.2007.08

作者簡介:張玉巨集,著有《品味大資料》一書,聯絡郵件:[email protected]