大資料技術讀懂球迷心聲

NO IMAGE

我們日常生活中產生的資料,20%是結構化的資料,例如企業通過內部IT系統收集的資訊或者通過機器和感測器收集的資料,而在大資料資源中高達80%是非結構化資料,例如電子郵件、影象、音訊、視訊以及社交平臺上的資訊等。傳統的大資料分析面對的是如何管理、調配海量資料的問題,而與傳統的結構化資料相比,非結構化的社交資料是人產生的,這其中不僅包括成文的句子,還包括網路用語、表情,甚至錯別字等。例如,在社交平臺上,球迷對於一個球星的態度不會是明確的喜歡或者厭惡,而會以各種各樣不同的方式表達出來,其真正的態度究竟是支援還是否定,是需要IBM通過分析給出結論的。如何讓機器理解大量的人類語言背後隱藏的情感?將大量的非結構化資料轉換為結構化資料是社交大資料分析面臨的首要難題,這不僅需要IT技術的支援,也需要心理學、語義分析等知識和技術的綜合運用。

為深度挖掘社交平臺上形式豐富的非結構化資訊,提取有指導意義的洞察,IBM構建了Blue Pulse系統,利用機器自學習方法和自然語言分析技術,傾聽網民“心聲”。

﹒命名實體識別:在處理非結構化資料時,不管球迷通過任何裝置錄入資訊,都有一些文字沒有標點符號,不同的短語在中文裡有著不同的含義,需要IBM利用技術把人名、球隊名等識別出來,以便進一步的分析。

﹒話題檢測:該技術幫助識別網友討論的話題。

﹒語義情感分析:在理解球迷討論的話題後,利用該技術可以判斷球迷的立場是支援還是否定,從而獲得球迷情感上的傾向。

﹒網路關係抽取:社交平臺上聚集了眾多球迷,討論各種型別的話題,利用網路關係抽取技術,對出球迷集中討論的眾多話題進行綜合分析,IBM將話題間真正有價值、有分析意義的內容關聯出來。

在以上四大核心技術的基礎上,通過對社交資料進行分析,IBM還能夠對球迷的性格進行繪製,例如,通過分析阿根廷隊梅西的粉絲,IBM挖掘到了他們之間共有的特點。首先,大多數梅西的球迷都是宅男;第二,他們的性格相對內向;第三,他們都多少帶有一點悲觀主義。利用這些發現,騰訊在相關賽事的報道上通過風格和內容的調整,使報道更豐富,更加貼近讀者。

SoftLayer為大資料提供強大支援

在分析工作的背後,海量的資料是得出精準洞察的基礎。根據體育賽事特點,所有資料會以比賽時間為聚集點,爆炸性的湧現。這需要一個高度穩定,並極具擴充套件性的基礎架構平臺來支撐。這次,IBM將Blue Pulse社交大資料分析平臺放到了剛剛開放開始提供給對外服務的IBM SoftLayer香港資料中心的公有云平臺上。資料量的不確定性對計算資源的彈性要求很高,能夠快速部署的雲端計算才能給予最好的支援。因此,大資料往往和雲端計算自然而然的連在一起。資料量激增時,SoftLayer雲端計算平臺快速部署伺服器,調配更多的計算資源和儲存裝置來支援系統正常執行。在資料量降低時,可以通過釋放計算資源,節約成本。

IBM大資料分析技術與體育賽事的合作才剛剛開始,在其他行業,IBM很早就開始進行多方面的嘗試。例如幫助快消企業快速瞭解市場對產品的反饋,通過快速評估為市場策略調整提供依據。和以往的市場調查相比,社交大資料分析反饋更快,更為靈活。目前,IBM已經幫助領先的快消企業傾聽社交媒體的聲音,獲得產品、服務、競爭對手和市場方面的反饋,更好的實現與消費者的互動,真正為產品生產、設計、包裝等各部門提供實際有效的建議。未來IBM社交大資料分析技術也將開發出更多針對行業領域的應用,幫助企業和行業更好的從大資料中獲取價值。