美團(貓眼)電影爬蟲/美團(貓眼)電影價格圖片混淆破解

NO IMAGE

美團電影爬蟲/美團電影價格圖片混淆破解

https://github.com/HiddenStrawberry/meituan-movie-price-crawler

專案難點:


讓我們先來隨便開啟一個美團電影的頁面

此處輸入圖片的描述

真是美滋滋啊,這個價格就寫在上面!爬下來不就得了。

定睛一看程式碼,我了個擦,這是個什麼東西。

此處輸入圖片的描述

開啟圖片URL,才明白過來,原來是一張大圖一堆數字,用CSS定位的具體數字,美團你為了反爬真是煞費苦心啊……

此處輸入圖片的描述


Cracked


requirement:

bs4
requests
Pillow/PIL

需要獨立安裝tesseract-ocr

使用方法:

  1. 安裝tesseract-ocr
  2. 將num.traineddata複製貼上到tesseract的tessdata目錄中
  3. 修改meituan_price_img.py中的TESSERACT_PATH變數定位到tesseract.exe (絕對路徑)
  4. 開啟meituan.py,Enjoy it!

Example:

print get_city_url('上海') #獲取城市的地址
print get_all_cinema('sh.meituan.com') #獲取城市所有電影院資訊
print get_cinema_movie('http://sh.meituan.com/shop/58174') #獲取指定電影院所有電影場次資訊

原理:

你都看到tesseract-ocr了原理還用我廢話嘛?機器學習了所有數字的樣本(精準到1px),然後自動識別並輸出咯。
PS:如果價格有手機專享價,會自動輸出手機專享價!