爬蟲實習工作1–Redis資料庫
這裡我們簡單寫一下,今天看的redis資料庫的入門知識。 1. 安裝: 直接去下載壓縮包,然後解壓到某路徑下。 2. 使用: 使用的時候是類似於Linux的使用方法,用命令列來操作。 需要注意的是:一定要是在Terminal中,手動cd到解壓的路徑下,不能直接shift在當前路徑下啟動命令列。 之後 […]
-->
程式前沿 幫助程式設計師解決問題,增加專業技能,提升個人能力與未來世界競爭力。
這裡我們簡單寫一下,今天看的redis資料庫的入門知識。 1. 安裝: 直接去下載壓縮包,然後解壓到某路徑下。 2. 使用: 使用的時候是類似於Linux的使用方法,用命令列來操作。 需要注意的是:一定要是在Terminal中,手動cd到解壓的路徑下,不能直接shift在當前路徑下啟動命令列。 之後 […]
這是一篇比較粗糙的部落格,大都是一些想法和整體解決方案的東西,適合於有基礎的人看。 由於抖音這類的短視訊網站被整改,抖音關閉了分享視訊的網頁介面。現在無法從網頁端爬取短視訊。 解決方法:手機模擬器 中間抓包工具 自動化控制指令碼 下載指令碼 相關依賴: 手機模擬器: Genymotion(這 […]
參考:我要瀟瀟灑灑 《如何爬取B站彈幕》 http://blog.csdn.net/qq_33612918/article/details/78287436?locationNum=4 分析瀏覽器抓取下來的包(彈幕檔案應該是一個JSON格式或者是XML格式的檔案) #bilibili彈幕抓取 i […]
python裡的正則化庫re,使用方法: import re line = 'boooooobby123' regex_str = "^b.*3$" re.match(regex_str, line) 正則化用到的特殊字元 ^ $ * ? {2} {2, } {2,5} | [] [^] [] [^ […]
知乎原回答被舉報涉黃低俗。。搬運到這 作者:WonMian 連結:https://www.zhihu.com/question/43667227/answer/128210192 來源:知乎 著作權歸作者所有,轉載請聯絡作者獲得授權。 這個題目可以拆開來這麼看 武漢 優質 單身 男/女 作為一個勵志 […]
說明 學習筆記,用的例子都是書上或者改了幾個字元的0 0 版本和依賴包 Python 3.52 標準包 urllib 依賴包 BeautifulSoup 包管理工具 pip(全地球人都在使用的) urllib.request中urlopen的使用 urllib是python標準包裡面的一個,在pyt […]
簡單來說,就是忽略未經過認證的報錯 程式碼 import requests url = 'https://www.12306.cn/' # 報錯: requests.exceptions.SSLError # res = requests.get(url) res = requests.get(ur […]
使用場景 有些站點或者代理反應慢,嚴重降低效率,這個時候可以設定超時 使用示例 import requests url = 'http://youtube.com' res = requests.get(url, timeout=3) print(res.status_code) 聯絡方式 qq:2 […]
介紹 Fiddler是一款強大Web除錯工具,它能記錄所有客戶端和伺服器的HTTP,HTTPS請求 Fiddler是window平臺的工具 Charles可以在三大平臺(mac,linux,windows)下使用 Wireshark跨平臺,但是不擅長http抓包 使用 Fiddler的使用: htt […]
分析 從 web 的角度來看,網站架構分為前後端分離和前後端不分離,如果是前後端不分離的結構,我們就需要從響應中去匹配我們希望提取的資料。舉個例子就是 果殼網的熱門問答。 獲取整個網頁 去正則匹配之前比較習慣先把程式碼跑通,我們可以嘗試去構建出這樣的結構,把當前的整個網頁先列印出來,再去除錯 # c […]