從頭學習爬蟲(一)—-介紹

NO IMAGE

本文主要介紹下爬蟲。

爬蟲

我們常說爬蟲其實就是一堆的http(s)請求,找到待爬取的連結,然後傳送一個請求包,得到一個返回包,當然,也有HTTP長連線(keep-alive)或h5中基於stream的websocket協議,這裡暫不考慮。

  1. url
  2. 請求header、body
  3. 響應herder、內容

URL

爬蟲開始執行時需要一個初始url,然後會根據爬取到的html文章,解析裡面的連結,然後繼續爬取,這就像一棵多叉樹,從根節點開始,每走一步,就會產生新的節點。為了使爬蟲能夠結束,一般都會指定一個爬取深度(Depth)。

請求

  1. request
  2. 重點:
  3. 爬蟲是靠一個個請求去模擬人為操作或者ajax,實現資料的獲取。

瀏覽器

  1. 重點:

你可以把瀏覽器想成請求和響應的集合體,每一個頁面都是所依賴的一個個請求通過瀏覽器渲染構成的。

總結

總有人一直在重複瀏覽器操作卻不知道瀏覽器是如何載入資源形成一個頁面展示給你的。

歡迎加群313557283~