未來最大的趨勢就是大資料和人工智慧

未來最大的趨勢就是大資料和人工智慧

我們知道網際網路未來最大的趨勢就是大資料和人工智慧,但是大資料如何來呢,我分享一下大資料的來源之一:網路資料爬蟲!

我第一次做爬蟲:幫朋友企業做負面輿情爬蟲監控

由於自己是做網際網路技術研發的,但是2013年6月份改變了我的技術發展方向,那時候接到一個朋友的邀請,說最近他自己公司老是被競競爭對手在網際網路對打進行攻擊,經常花錢請網路人員,寫一些文章、新聞、微博進行報道他們公司的壞話,讓公司的品牌和名聲收到很大的影響,只要在百度輸入“奶粉事件”或者“xxx公司”他公司名字就排到首頁,然後級就是各種負面報道和評價,罵死一片,讓他很頭疼。問我可不可以研發一套幫輿情監控的系統,對百度新聞、騰訊新聞、新浪新聞、微博等進行採集然後分析、只要發現對他公司負面的文章或者網友評價,就第一時間推送通知給他們公司的風險控制部門經理。於是我就開始研究了爬蟲技術。從此也改變了我的技術生涯。需要深度爬蟲技術和大資料交流朋友加我qq:2779571288

媒體輿情爬蟲-千萬級資料分散式儲存 非同步叢集多執行緒採集

我第二次爬蟲大資料的專案是千萬級的輿情監控爬蟲系統,我們知道做爬蟲資料採集,就是把網站上的資料採集下來然後進行資料儲存、資料清洗、資料分析最後形成您的需要的標準資料。首先我們需要確定好目標網站,我們需要爬的是那個網站,同一個網站一半分為手機版和PC版本,我們還需要確定好 我們需要爬的是手機版本的資料 還是PC版本的資料,因為PC和手機版本的資料是有差別不同的,往往手機的資料比較簡單,也容易爬一點。再後面就是資料的儲存和檢索問題,這個輿情資料是採集一個億的資料量 然後進行分析,這些資料量怎麼儲存,如果用一臺伺服器儲存 估計查詢都是個問題,別說運用了。我們當時採用了5太伺服器對這些資料進行分散式儲存,分表分割槽儲存。資料量非常大的時候,資料達到幾十億,我們平時搜尋查詢某個詞 是搜不出來的,資料庫肯定是卡死崩潰掉了,這個時候就不能用普通的like模糊查詢了,我們得需要用搜尋引擎,自己搭建一套分散式多執行緒搜尋引擎解決海量資料的搜尋問題。

 

自己研發的 輿情爬蟲監控系統

工商企業資料-企信寶-天眼查-企查查360度深度分散式爬蟲

我用了2個星期時間完成了 天眼查和啟信寶的資料爬蟲技術研發, 我們知道很多公司做爬工商的資料作為大專案來運作而且掙了大錢,比如 “企信寶”、“企查查”、“天眼查”等企業,都是做資料起來的,資料的價值是非常大的。第一次爬工商資料的時候 面臨的第一個問題就是破解驗證碼,工商網站做了非常嚴格的安全控制,每次查詢都需輸入驗證碼,而且2017年引進了第二代極速驗證碼,讓我們技術難度又增加了很多,工商的資料有幾個億的資料量,要把這些資料在一個月內跑完 需要足夠多的伺服器和代理IP ,同時還需要足夠好的頻寬。當時採用了10太伺服器叢集,把寫好python爬蟲部署到各個節點上,資料的時候爬起和監控,需要採用非同步處理方式。減去伺服器壓力,提高爬蟲的效能。最後採用python phantomjs php 分散式 多執行緒技術 一個月內把企信寶 的資料全部爬下來了,包括每個企業的商標資料、軟著資料、法人資料、股東資料、司法風險資料、輿情資料、人才招聘資料、產品資料、信用評級資料等。這一路來 特別艱難,各種反爬技術的攻克。

爬蟲頂級顛覆-國家公安網際網路反恐大資料探勘

 

  爬蟲和黑客的區別就是,爬蟲是做好事,黑客是做壞事,最近一次祕密幫助公安做了很多資料輸出的介面,網際網路反恐大資料探勘分析、監控各種網路犯罪分子,做了很多資料維度的關聯和挖掘。

 

 

 

 

其他爬蟲:


  其他各種企業資料爬蟲、金融客戶爬蟲、天貓爬蟲、淘寶爬蟲、菁憂網題庫爬蟲、飛豬網爬蟲、1688供應商爬蟲技術各不同等。需要爬蟲技術和大資料交流朋友加我qq:2779571288