etl

阿里百萬年薪大資料分析師分析大資料十大發展趨勢

雖然大資料市場將會繼續增長這一點毋庸置疑,但企業應該如何應用大資料呢?目前還沒有一個清楚的答案。新的大資料技術正在進入市場,而一些舊技術的使用還在繼續增長。本文涵蓋大資料未來發展的十大趨勢,這些趨勢可能對2019年及以後的大資料市場產生極大影響。 專家預計,機器學習、預測分析、物聯網和邊緣計算將對2 […]

創業公司做資料分析(六)資料倉儲的建設

  作為系列文章的第六篇,本文將重點探討資料處理層中資料倉儲的建設。在第二篇運營資料系統一文,有提到早期的資料服務中存在不少問題,雖然在做運營Dashboard系統時,對後臺資料服務進行了梳理,構建了資料處理的底層公共庫等,但是仍然存在一些問題: 中間資料流失,計算結果沒有共享。比如在很多資料包告中 […]

爬取天眼查資料 附程式碼

摘要: 一、常規抓包分析 比如要爬取企業註冊資訊查詢_企業工商資訊查詢_企業信用資訊查詢平臺_發現人與企業關係的平臺-天眼查該頁面的基礎資訊。 通過火狐瀏覽器抓包,可以發現,所要資料都在下圖的json檔案裡 檢視其請求 偽裝成瀏覽器爬取該檔案: 偽裝成瀏覽器爬取該檔案: import request […]

Kettle排程和監控

     Kettle排程和監控的理論知識介紹,具體內容如下: 1 排程     在這個指導文件中,主介紹兩種型別Kettle任務和轉換的排程方式。 Ø  作業系統級別的排程器:對於ETL來說,排程不是獨一無二的。這是作業系統能夠提供標準排程的一般性需要,如UNIX衍生系統上的Cron以及Windo […]

[譯] 解密 Airbnb 的資料流程式設計神器:Airflow 中的技巧和陷阱

前言 Airbnb的資料工程師 Maxime Beauchemin 激動地表示道:Airflow 是一個我們正在用的工作流排程器,現在的版本已經更新到1.6.1了,並且引入了一些列排程引擎的改革。我們喜歡它是因為它寫程式碼太容易了,也便於除錯和維護。我們也喜歡全都用他來寫程式碼,而不是像xml那樣的 […]

[]解密Airbnb 自助BI神器:Superset 顛覆 Tableau

概述 我非常認同前百度資料工程師、現神策分析創始人桑老師最近談到的資料分析三重境界: 統計計數 多維分析 機器學習 資料分析的統計計數和多維分析,我們通常稱之為資料探索式分析,這個步驟旨在瞭解資料的特性,有助於我們進一步挖掘資料的價值。而基於我們對資料的理解,再引入機器學習的演算法對資料做出預測就變 […]

kettle 開源etl資料抽取工具

1.為什麼要使用資料抽取 (1)為了不妨礙業務資料的讀取和寫入,需要進行資料的抽取,抽取到另外資料庫表進行讀取(2)對某些總計資料可以進行預先計算, 抽取到另外資料庫表(3)隨訪業務資料庫為mongodb , 統計程式程式設計效率低,需要轉成sql 類資料庫提高效率 2.工具 使用 kettle 開 […]