資料

1/34ページ

利用Python抓取行政區劃碼的方法

前言 國家統計局網站上有相對比較齊的行政區劃碼,對於一些網站來說這是非常基礎的資料,所以寫了個Python程式將這部分資料抓取下來。 注意:抓取下來以後還要進行簡單的人工的整理 示例程式碼: # -*- coding:utf-8 -*- ''' 獲取國家統計局上的行政區劃碼 ''' import r […]

Python實現並行抓取整站40萬條房價資料(可更換抓取城市)

寫在前面 這次的爬蟲是關於房價資訊的抓取,目的在於練習10萬以上的資料處理及整站式抓取。 資料量的提升最直觀的感覺便是對函式邏輯要求的提高,針對Python的特性,謹慎的選擇資料結構。以往小資料量的抓取,即使函式邏輯部分重複,I/O請求頻率密集,迴圈套嵌過深,也不過是1~2s的差別,而隨著資料規模的 […]

Python寫的一個定時重跑獲取資料庫資料

做大資料的童鞋經常會寫定時任務跑資料,由於任務之間的依賴(一般都是下游依賴上游的資料產出),所以經常會導致資料獲取失敗,因為很多人發現資料失敗後 都會去檢視日誌,然後手動去執行自己的任務。下面我實現了一個自動重複執行去資料庫取數,如果失敗後自動重新去獲取,直到把資料獲取到。 建資料表: CREATE […]

python資料清洗系列之字串處理詳解

前言 資料清洗是一項複雜且繁瑣(kubi)的工作,同時也是整個資料分析過程中最為重要的環節。有人說一個分析專案80%的時間都是在清洗資料,這聽起來有些匪夷所思,但在實際的工作中確實如此。資料清洗的目的有兩個,第一是通過清洗讓資料可用。第二是讓資料變的更適合進行後續的分析工作。換句話說就是有”髒”資料 […]

Python中型別檢查的詳細介紹

前言 大家都知道Python 是一門強型別、動態型別檢查的語言。所謂動態型別,是指在定義變數時,我們無需指定變數的型別,Python 直譯器會在執行時自動檢查。 與靜態型別語言(如 C 語言)相比,這不僅僅是少寫了幾個型別宣告字元: #include <stdlib.h> #includ […]

1 34