BigData

1/4ページ

最詳細大資料專案落地路線圖實踐總結

最詳細大資料專案落地路線圖實踐總結 2017-01-14 16:38 大資料 今天,來談一談“大資料專案如何落地?”這個話題。從事過多個大資料專案的規劃方案及專案落地工作,在這裡與大家分享一些心得,主要是關於大資料專案如何成功落地並取得預期目標,也可以說這些是實踐出來的觀點。 對於一個大資料應用專案 […]

網站點選流資料分析專案

什麼是點選流資料 1.1.1 WEB訪問日誌 即指使用者訪問網站時的所有訪問、瀏覽、點選行為資料。比如點選了哪一個連結,在哪個網頁停留時間最多,採用了哪個搜尋項、總體瀏覽時間等。而所有這些資訊都可被儲存在網站日誌中。通過分析這些資料,可以獲知許多對網站運營至關重要的資訊。採集的資料越全面,分析就能越 […]

認識大資料

l  概覽 Echo經常會對我寫的文章提些意見,比如說越來越冗長了,讀起來毫無舒適感。我樂於接受批評,所以往後寫文章也考慮那些雖然願意閱讀又不期望有違和感的受眾,比如,將內容歸納精煉,三五十行就能明白大概。對於希望深入瞭解,希望跟隨我一起逐步深入進而獲得認知過程的朋友來說,不妨耐心審視文章的各種觀點 […]

聊聊併發 生產者消費者模式

http://ifeve.com/producers-and-consumers-mode/ 本文首發於InfoQ   作者:方騰飛  校對:張龍 在併發程式設計中使用生產者和消費者模式能夠解決絕大多數併發問題。該模式通過平衡生產執行緒和消費執行緒的工作能力來提高程式的整體處理資料的速度。 為什麼要 […]

理解spark閉包

什麼叫閉包: 跨作用域訪問函式變數。又指的一個擁有許多變數和繫結了這些變數的環境的表示式(通常是一個函式),因而這些變數也是該表示式的一部分。 Spark閉包的問題引出: 在spark中實現統計List(1,2,3)的和。如果使用下面的程式碼,程式列印的結果不是6,而是0。這個和我們編寫單機程式的認 […]

工作流排程器azkaban 安裝

概述 2.1.1為什麼需要工作流排程系統  一個完整的資料分析系統通常都是由大量任務單元組成: shell指令碼程式,java程式,mapreduce程式、hive指令碼等  各任務單元之間存在時間先後及前後依賴關係  為了很好地組織起這樣的複雜執行計劃,需要一個工作流排程系統來排程執行; 例 […]