爬蟲

2/72ページ

如何爬取B站彈幕

前言 主要記錄自己完成爬蟲的思路:從how to do到what to do 這是一個拿 python 練手的專案,雖說是入門級,但其餘爬蟲也萬變不離其宗 ̄へ ̄ 原始碼地址 Github:bili-danmu 過程 1. 彈幕究竟是什麼玩意 首先,讓我們看看B站客戶端是如何接收到彈幕的 這就需要讓我 […]

如何破解類似於簡書登入的滑動式驗證碼

簡書簡書,時隔半年我又來搞事了,之前有在未登入模式下,爬取過簡書的專題和 首頁推薦文章,而現在在參考網上大神的程式碼搞過微博、知乎模擬登入後,感覺自己也是棒棒噠,於是開搞簡書!一開始也以為最多就是一個驗證碼的圖片咯,畢竟簡書這麼友好是吧~結果!excuse me?? 好吧,當時我就懵比了,簡書你變了 […]

爬蟲專案:破解極驗滑動驗證碼

一 介紹     一些網站會在正常的賬號密碼認證之外加一些驗證碼,以此來明確地區分人/機行為,從一定程度上達到反爬的效果,對於簡單的校驗碼Tesserocr就可以搞定,如下     但一些網站加入了滑動驗證碼,最典型的要屬於極驗滑動認證了,極驗官網:http://www.geetest.com/,下 […]

極驗驗證的滑動驗證碼破解

題記——毛主席教導我們一切帝國主義都是紙老虎 極驗驗證(http://www.geetest.com)是目前比較前沿新穎的一種驗證方式,相比傳統的字元型驗證碼更加人性化,使用者驗證的時間更短,更具互動性,同時也減少了網站的使用者流失。該網站號稱“超過200種人機行為特徵檢測,全面監控可疑機器攻擊,快 […]

圖形解鎖驗證碼破解(附Python程式碼)

前言: 爬蟲開源死得快,新浪微博又改策略了。在去年的這個時候,微博還是沒什麼限制的。2016年12月我將新浪微博爬蟲的程式碼作了一次更新,並將文章轉到了知乎,爬微博的人似乎從那個時候開始多了許多。也許是這個緣故,微博開始對IP設了限制,接著禁了原來免驗證碼的登入方式,現在將weibo.cn的登入途徑 […]

【實踐】淘寶在收藏店鋪裡搜寶貝

以前淘寶是有這個功能的,比如就只用在自己收藏的店鋪裡面搜‘面膜’,在自己信賴的店裡直接買東西非常快 但是現在這個功能非常限制= = 所以用selenium和python自己做了一個 step 1:登入淘寶 在之前寫了 step 2:獲取自己收藏夾裡面所有的店鋪資訊 #向下滾動到頁面底部 不然會出錯 […]

Python爬取Instagram資料&Python將圖片轉化為文字

PartⅠ: Instagram(以下稱為Ins)指定使用者的圖片爬取   Ins的圖片沒有辦法像很多圖片一樣可以右鍵點選進行儲存,很多時候是使用截圖的方式進行儲存。不過在Python中,有對Ins資料進行抓取並儲存的庫,使用起來非常方便快捷。        對Ins資料進行抓取的庫為instagr […]