NO IMAGE

大資料(四)思維變革

1. 需要全部資料樣本而不是抽樣

當資料處理技術己經發生了翻天覆地的變化時,在大資料時代進行抽樣分析就像在汽車時代騎馬一樣。一切都改變了,我們需要的是所有的資料,“ 樣本= 總體”。

我們要分析與某事物相關的所有資料,而不是依靠分析少量的資料樣本。小資料時代的隨機取樣,源自記錄、儲存、和分析資料的工具不夠好,用最少的資料獲得最多的資訊。然而隨機取樣畢竟有隨機性,而且會喪失一些微觀細節的資訊,甚至還會失去對某些特定子類別進行進一步研究的能力。而現在,因為有了大資料儲存,處理的能力,我們開始關注整體資料中價值。“大”是相對意義的大,也就是相對所有資料來說的。擁有全部或者幾乎全部的資料,我們就能夠從不同的角度,更細緻地觀察研究資料的方方面面。

2. 關注效率而不是精確度

資料量的大幅增加會造成結果的不準確,與此同時,一些錯誤的資料也會混進資料庫。對“小資料”而言,最基本、最重要的要求就是減少錯誤,保證質量。因為收集的資訊量比較少,所以我們必須確保記錄下來的資料儘量精確。因為收集資訊的有限意味著細微的錯誤會被放大,甚至有可能影響整個結果的準確性。“大資料”時代,我們需要與各種各樣的混亂做鬥爭。混亂,簡單地說就是隨著資料的增加,錯誤率也會相應增加。混亂還可以指格式的不一致性,因為要達到格式一致,就需要在進行資料處理之前仔細地清洗資料,而這在大資料背景下很難做到。

“大資料”通常用概率說話,而不是板著“確鑿無疑”的面孔。整個社會要習慣這種思維需要很長的時間。其中也會出現一些問題。但現在,有必要指出的是,當我們試圖擴大資料規模的時候,要學會擁抱混亂。

大資料時代要求我們重新審視精確性的優劣。大資料不僅讓我們不再期待精確性,也讓我們無法實現精確性。接受資料的不精確和不完美,我們反而能夠更好地進行預測,也能夠更好地理解這個世界。值得一提的是,錯誤並不是大資料固有的特性.而是一個亟需我們去處理的現實問題,並且有可能長期存在。

3. 關注相關性而不是因果關係

相關關係的核心是量化兩個資料值之間的數理關係。相關關係強是指當一個資料值增加時,其他資料值很有可能會隨之增加。比如谷歌流感趨勢:在一個特定的地理位置,越多的人通過谷歌搜尋特定的詞條,該地區就有更多的人患了流感。相反,相關關係弱就意味著當一個資料值增加時,其他資料值幾乎不會發生變化。例如,我們可以尋找關於個人的鞋碼和幸福的相關關係,但會發現它們幾乎扯不上什麼關係。

在小資料世界中,相關關係也是有用的,但在大資料的背景下,相關關係大放異彩。通過應用相關關係,我們可以比以前更容易、更快捷、更清楚地分析事物。 關聯物,預測的關鍵。

通過給我們找到一個現象的良好的關聯物,相關關係可以幫助我們捕捉現在和預測未來。如果 A 和 B 經常一起發生,我們只需要注意到 B 發生了,就可以預測 A 也發生了。這有助於我們預測 A 可能會發生什麼,即使我們不能直接測量或觀察到 A。更重要的是,它還可以幫助我們預測未來可能發生什麼。當然,相關關係是無法預知未來的,他們只能預測可能發生的事情。

建立在相關關係分析法基礎上的預測是大資料的核心。它告訴你的是會發生什麼,而不是為什麼發生。事實上,就是因為不受限於傳統的思維模式和特定領域裡隱含的固有偏見,大資料才能為我們提供如此多新的視野。

喜歡就點贊評論 關注吧

這裡寫圖片描述

感謝閱讀,希望能幫助到大家,謝謝大家的支援!