小白學爬蟲(一) — 基礎知識
什麼是爬蟲 爬蟲爬到的資料去哪了 瀏覽器的請求 url url的組成 瀏覽器請求url地址對應的響應是什麼呢? 初識http與https http協議之請求 請求行 請求頭 請求體 http協議之響應 響應頭 響應體 抓包 什麼是爬蟲 爬蟲就是模擬客戶端(瀏覽器)傳送網路請求,獲取響應,按照規則提取 […]
-->
程式前沿 幫助程式設計師解決問題,增加專業技能,提升個人能力與未來世界競爭力。
什麼是爬蟲 爬蟲爬到的資料去哪了 瀏覽器的請求 url url的組成 瀏覽器請求url地址對應的響應是什麼呢? 初識http與https http協議之請求 請求行 請求頭 請求體 http協議之響應 響應頭 響應體 抓包 什麼是爬蟲 爬蟲就是模擬客戶端(瀏覽器)傳送網路請求,獲取響應,按照規則提取 […]
什麼是requests庫 requests庫的安裝 requests庫的使用 爬取第一個網頁 獲取網頁原始碼的正確開啟方式 requests的reponse物件 常見reponse方法 傳送一個post請求(headers) 什麼是requests庫 Requests庫是Python中的一個HTTP […]
前言 使用超時引數 在requests新增Cookie引數 啥是cookie 三種Cookie請求方式 第一種:cookie放在headers中 第二種:cookie字典傳給cookies引數 第三種 先傳送post請求,獲取cookie,帶上cookie請求登陸之後的頁面 前言 上一篇文章介紹瞭如 […]
前言 json 什麼是 JSON ? 利用json提取資料 什麼地方會返回json資料? 前言 前面兩篇文章介紹瞭如何獲取一個響應,但是響應都不是我們直接需要的資料,而是一些html頁面或者json字串。這篇文章主要介紹如何從返回的響應中提取需要的內容。 json 什麼是 JSON ? JSON 指 […]
正規表示式的概念 regular expression regex RE 正規表示式是用來簡潔表達一組字串的表示式。 正規表示式的優勢:簡潔 正規表示式的語法 RE庫的基本使用 當[正規表示式]包含<轉義符>時,使用raw string >&g […]
這裡我們簡單寫一下,今天看的redis資料庫的入門知識。 1. 安裝: 直接去下載壓縮包,然後解壓到某路徑下。 2. 使用: 使用的時候是類似於Linux的使用方法,用命令列來操作。 需要注意的是:一定要是在Terminal中,手動cd到解壓的路徑下,不能直接shift在當前路徑下啟動命令列。 之後 […]
繼上一節課爬取到了資料之後,這一節將資料入庫。 因為python自帶了 SQLite/seklait/ 資料庫,直接用就可以。 1. 新建 SQLite 資料庫 在pycharm下進入Terml,然後進入ipython模式,之後 import sqlite3 zufang = sqlite3.co […]
一直想爬取BiliBili的視訊,無奈一直沒有去研究一下。 最近,在旭哥的指點之下,用了Fiddler抓包,抓到了一直期待的視訊包,完成了下載。 下面寫一下我做這個爬蟲的過程。 相關依賴 :Fiddler Python3 Requests 下面看一下我做這個爬蟲的具體步驟: 1. 進入某個具體視訊 […]
這是一篇比較粗糙的部落格,大都是一些想法和整體解決方案的東西,適合於有基礎的人看。 由於抖音這類的短視訊網站被整改,抖音關閉了分享視訊的網頁介面。現在無法從網頁端爬取短視訊。 解決方法:手機模擬器 中間抓包工具 自動化控制指令碼 下載指令碼 相關依賴: 手機模擬器: Genymotion(這 […]
在網頁版的蝦米音樂播放器,如何下載音樂。 本次爬蟲使用的語言是python3,模組是requests。筆者只是簡單的示例,程式中還有許多需要改進的地方。 1、蝦米音樂的播放器地址:http://www.xiami.com/play?ids=/song/playlist/id/1774747126#l […]