爬蟲

1/19ページ

Android編寫簡單的網路爬蟲

一、網路爬蟲的基本知識 網路爬蟲通過遍歷網際網路絡,把網路中的相關網頁全部抓取過來,這體現了爬的概念。爬蟲如何遍歷網路呢,網際網路可以看做是一張大圖,每個頁面看做其中的一個節點,頁面的連線看做是有向邊。圖的遍歷方式分為寬度遍歷和深度遍歷,但是深度遍歷可能會在深度上過深的遍歷或者陷入黑洞。所以,大多數 […]

Android利用爬蟲實現模擬登入的實現例項

Android利用爬蟲實現模擬登入的實現例項 為了用手機登入校網時不用一遍一遍的輸入賬號密碼,於是決定用爬蟲抓取學校登入介面,然後模擬填寫本次儲存的賬號、密碼,模擬點選登入按鈕。實現過程折騰好幾個。 一開始選擇的是htmlunit解析登入介面html,在pc上測的能實現,結果在android上執行不 […]

基於RxJava2實現的簡單圖片爬蟲的方法

今年十月份以來,跟朋友嘗試匯入一些圖片到tensorflow來生成模型,這就需要大量的圖片。剛開始我只寫了一個簡單的HttpClient程式來抓取圖片,後來為了通用性索性寫一個簡單的圖片爬蟲程式。它可以用於抓取單張圖片、多張圖片、某個網頁下的所有圖片、多個網頁下的所有圖片。 github地址:htt […]

零基礎寫Java知乎爬蟲之準備工作

開篇我們還是和原來一樣,講一講做爬蟲的思路以及需要準備的知識吧,高手們請直接忽略。 首先我們來縷一縷思緒,想想到底要做什麼,列個簡單的需求。 需求如下: 1.模擬訪問知乎官網(http://www.zhihu.com/) 2.下載指定的頁面內容,包括:今日最熱,本月最熱,編輯推薦 3.下載指定分類中 […]

零基礎寫Java知乎爬蟲之先拿百度首頁練練手

上一集中我們說到需要用Java來製作一個知乎爬蟲,那麼這一次,我們就來研究一下如何使用程式碼獲取到網頁的內容。 首先,沒有HTML和CSS和JS和AJAX經驗的建議先去W3C(點我點我)小小的瞭解一下。 說到HTML,這裡就涉及到一個GET訪問和POST訪問的問題。 如果對這個方面缺乏瞭解可以閱讀W […]

零基礎寫Java知乎爬蟲之獲取知乎編輯推內容

知乎是一個真實的網路問答社群,社群氛圍友好、理性、認真,連線各行各業的精英。他們分享著彼此的專業知識、經驗和見解,為中文網際網路源源不斷地提供高質量的資訊。 首先花個三五分鐘設計一個Logo=。=作為一個程式設計師我一直有一顆做美工的心! 好吧做的有點小湊合,就先湊合著用咯。 接下來呢,我們開始製作 […]

1 19