使用 Nginx 過濾網路爬蟲

NO IMAGE

現在有許多初學者學習網路爬蟲,但他們不懂得控制速度,導致伺服器資源浪費。通過 Nginx 的簡單配置,能過濾一小部分這類爬蟲。

方法一:通過 User-Agent 過濾

Nginx 參考配置如下:

    location / {
if ($http_user_agent ~* "scrapy|python|curl|java|wget|httpclient|okhttp") {
return 503;
}
# 正常請求
}

這裡只列出了部分爬蟲的 User-Agent,需要更多請參考:GitHub – JayBizzle/Crawler-Detect

注意:User-Agent 很容易修改

方法二:block IP

通過禁止某個 IP 或者某個 IP 段訪問,也能起到一定效果。
Nginx 示例配置如下:

deny 178.238.234.1;
deny 1.32.128.0/18;

方法三:rate limit

通過限制某個 IP 的訪問頻率,避免一部分 CC (Challenge Collapsar)攻擊。

Nginx 示例配置如下:

http{ 
#定義一個名為allips的limit_req_zone用來儲存session,大小是10M記憶體,
#以$binary_remote_addr 為key,限制平均每秒的請求為20個,
#1M能儲存16000個狀態,rete的值必須為整數,
#如果限制兩秒鐘一個請求,可以設定成30r/m
limit_req_zone $binary_remote_addr zone=allips:10m rate=20r/s;
...
server{
...
location {
...
#限制每ip每秒不超過20個請求,漏桶數burst為5
#brust的意思就是,如果第1秒、2,3,4秒請求為19個,
#第5秒的請求為25個是被允許的。
#但是如果你第1秒就25個請求,第2秒超過20的請求返回503錯誤。
#nodelay,如果不設定該選項,嚴格使用平均速率限制請求數,
#第1秒25個請求時,5個請求放到第2秒執行,
#設定nodelay,25個請求將在第1秒執行。
limit_req zone=allips burst=5 nodelay;
...
}
...
}
...
}

當然,攻擊者也可以使用代理IP來破除頻率限制。建議在網站前面加一層 CDN。

參考:nginx限制某個IP同一時間段的訪問次數

首發地址:使用 Nginx 過濾網路爬蟲 | 蜻蜓代理