書單 | 資料探勘,你不應該錯過的六本書

NO IMAGE

640?wx_fmt=gif

不久前我們推出的《推薦演算法不夠精準?讓知識圖譜來解決》以及《如何將知識圖譜特徵學習應用到推薦系統?》系列文章受到了同學們的廣泛歡迎。大家對推薦系統以及與之相關的、底層的資料探勘技術非常關注。

為了幫助小夥伴們更好地學習相關內容,我們邀請微軟亞洲研究院社會計算組研究員張富崢為大家推薦了六本資料探勘領域的經典書籍,既涵蓋了資料探勘的概念、演算法等基礎知識,又包含了資料探勘在不同子領域的具體應用。一起來看看吧!

一、基礎篇

主要目標:幫助大家瞭解資料探勘領域的基本概念、代表性演算法和評估技術,比如資料的關聯分析、分類及聚類演算法等,為大家之後進一步學習資料探勘知識、深入進行科研或在實際場景中應用奠定基礎。

1.   Introduction to Data Mining

作者:Pang-Ning Tang、Michael Steinbach、Vipin Kumar

中文譯名:資料探勘導論(完整版)

適合人群:初級到中級學者

推薦指數:★★★★★

640?wx_fmt=jpeg

主要內容:本書內容涵蓋了資料探勘的方方面面,從什麼是資料探勘、什麼是資料以及資料預處理的方法,到具體的資料探勘演算法,比如分類、關聯分析、聚類、異常檢測等,從基本的定義入手,由淺至深地幫助讀者透徹地理解資料探勘的基礎。書中使用大量的圖表、綜合示例、關鍵演算法的簡潔描述等,儘可能地直接聚焦於資料探勘的主要概念。

推薦理由:本書是明尼蘇達大學和密歇根州立大學資料探勘課程的教材,是資料探勘領域經典的入門教程。本書內容淺顯易懂,只要求具備很少的統計學或數學背景知識,略去了各個定理的證明部分,通過列舉大量具體的演算法例項來簡要說明演算法的流程和意義,讓初學者可以以最快速度總攬全域性,掌握資料探勘領域的基本要點。

2.   Data Mining: Concepts and Techniques

作者:Jiawei Han、Micheline Kamber、Jian Pei

中文譯名:資料探勘:概念與技術(原書第三版)

適合人群:初級到中級學者

推薦指數:★★★★★

640?wx_fmt=jpeg

主要內容:本書是最新的第三版,主要從資料庫角度全面系統地介紹了資料探勘的基本概念、方法、技術以及技術的研究進展,並且重點關注了資料探勘領域最新的技術和發展,介紹了社會網路挖掘、流資料探勘和資料立方體計算等最新的研究方法,並探討了資料探勘方法在金融等領域的應用。書中引入了許多演算法和實現例項,以易於理解的虛擬碼編寫,適用於實際的大規模資料探勘專案。

推薦理由:本書是一本非常優秀的資料探勘教材,更是資料探勘領域具有里程碑意義的經典著作。它不僅詳盡講述了資料探勘的基本概念和方法,又具有一定的深度,介紹了資料探勘領域近年來最新的課題。它結構合理、調理清晰,每一章都針對關鍵專題有單獨的指導,並且只要求讀者具備少量的程式設計經驗以及瞭解基本的資料和統計分析方向的知識。

二、 應用篇

主要目標: 在大資料時代,資料的形式多種多樣,在不同科研領域、商業背景、產業型別中的應用也十分豐富。這裡我們通過四本書來為大家介紹資料探勘的方法和思想在三個不同的子領域中的具體應用,幫助大家瞭解資料探勘領域最前沿的熱門研究方向和應用場景,為大家把握科研或工程的方向提供參考

1.   Recommender Systems: An introduction

作者:Dietmar Jannach、Markus Zanker、Alexander Felfernig、Gerhard Friedrich

中文譯名:推薦系統

適合人群:中級到高階學者

推薦指數:★★★★★

640?wx_fmt=jpeg

主要內容:本書比較全面地介紹了推薦系統涉及的相關知識點,呈現了許多經典演算法,並討論瞭如何衡量推薦系統的有效性。書中內容分為基本概念和最新進展兩部分:前者涉及協同推薦、基於內容的推薦、基於知識的推薦、混合推薦方法,推薦系統的解釋、評估推薦系統和例項分析;後者包括針對推薦系統的攻擊、線上消費決策、推薦系統和下一代網際網路以及普適環境中的推薦。

推薦理由:本書內容詳盡,廣泛涵蓋了不同型別的推薦系統,並對這些推薦系統逐一進行了細緻地剖析,並輔以實際應用案例的介紹,適合想要了解推薦系統的基礎和相關研究的讀者作為推薦系統的入門書籍。書中包含了大量的圖、表以及示例,有助於讀者理解和把握相關知識。

 

2.   Recommender Systems: The Textbook

作者:Charu C. Aggarwal

適合人群:中級到高階學者

推薦指數:★★★★☆

640?wx_fmt=jpeg

主要內容:本書詳盡地介紹了推薦系統的方方面面,可以大致地被分為三個部分:“演算法和評估”部分探討了推薦系統中的基礎演算法,包括協同過濾的方法、基於內容的方法、基於知識的方法、整合方法以及推薦系統的評估方法;“特定領域和上下文下的推薦系統”部分介紹在如時間空間資料、社交資料、標籤資料以及信用度資料等不同的上下文場景資料中如何進行推薦;“高階的主題和應用”部分介紹了和推薦系統的魯棒性相關的內容,如先令系統、攻擊模型以及相應的防禦模型。

推薦理由:這是一本非常優秀的推薦系統教科書,它不僅用簡單的語言闡述了推薦系統的基礎,深入地介紹了核心演算法的概念以及數學論證,還為讀者提供了第三方工具或框架使用時需要查詢的大量資料。它對於推薦系統的基礎、具體應用和相關文獻進行了全面介紹,既適合研究人員作為推薦系統的入門書籍,又適合工業從業人員作為工具參考書。

 

3.   Sentiment Analysis: Mining Opinions, Sentiments,and Emotions

作者:Bing Liu

中文譯名:情感分析:挖掘觀點、情感和情緒

適合人群:中級到高階學者

推薦指數:★★★★★

640?wx_fmt=jpeg

主要內容:本書主要從自然語言處理的角度全面地介紹情感分析這個主題中的基礎演算法以及先進的研究技術和科研結果。書中幾乎涵蓋了情感分析所有的核心領域,在介紹了情感分析的基本概念和多種基本的情感分析場景後,又解讀了多個新興的情感分析主題,比如辯論分析、意圖挖掘、假民意檢測等,不僅能夠讓讀者瞭解通常用於表達觀點和情感的問題和語言的基本結構,還能幫助讀者深入地探究大量觀點挖掘和情感分析的演算法和系統。

推薦理由:本書是迄今為止觀點挖掘與情感分析領域最權威、最全面的著作之一。書中幾乎涵蓋了情感分析的方方面面,將理論和實踐相結合,深入淺出,同時兼顧了領域知識的深度和廣度,不僅可以作為剛接觸這一領域的學者或開發者的入門教材,又可以作為了解這一領域最前沿研究成果的經典讀物。

 

4.   移動資料探勘

作者:連德富、張富崢、王英子、袁晶、謝幸

適合人群:中級到高階學者

推薦指數:★★★★★

640?wx_fmt=jpeg

主要內容:本書選取當前學術界和工業界的熱點為主題,自成體系,書中以人的軌跡資料,特別是移動社交網路的位置資料為中心,結合人的基本資訊及社交網路等相關資訊來研究個人與群體的移動模式特性,介紹了移動資料探勘的基本概念和方法,具體包括移動資料預處理、使用者移動模型、使用者畫像以及興趣位置推薦等,內容十分新穎。

推薦理由:本書是大資料管理叢書中的一本,書中梳理總結了作者團隊過去十年在人群移動資料理解上展開的研究,這些研究經驗不僅對於很多實際應用有著重要的價值,也有助於解決一些具有社會意義的科學問題。本書在介紹了移動資料的概念及其價值的同時,還細緻地講解了移動資料領域內的多個前沿研究課題,對於想要深入瞭解這個領域的學者和工業從業人員是非常好的選擇。

看完了書單,還不趕緊挑選幾本!

歡迎大家在下方留言區留言,分享你心目中資料探勘的經典書籍。

你還需要哪個領域的書單呢?也歡迎在留言區告訴我們!

你也許還想

 推薦演算法不夠精準?讓知識圖譜來解決

 如何將知識圖譜特徵學習應用到推薦系統?

 書單 |《移動資料探勘》

640.png?

加入我們

微軟亞洲研究院公共關係組招聘平面設計實習生1名。

要求:

  • 就讀工業設計、視覺設計、傳播設計或其它相關專業;

  • 熟悉微博、微信等社交媒體;

  • 有完整的平面設計作品集呈現;

  • 熟練掌握Adobe Photoshop、Illustrator、InDesign等軟體;

  • 關注細節、精確到畫素;

  • 具有優秀的溝通和表達能力;

  • 具有基礎的書面英語能力;

  • 能全職實習至少3個月。

實習待遇相當豐厚哦,快帶上你的簡歷和作品集加入我們吧!簡歷作品請投遞至:

[email protected]

640.png?

感謝你關注“微軟研究院AI頭條”,我們期待你的留言和投稿,共建交流平臺。來稿請寄:[email protected]

640.jpeg?