大眾點評爬蟲，大眾點評爬蟲封賬號

任務

采集

私信小編01即可獲取大量Python學習資料

1. 發現網址規律url

能否成功采集某網站，該網站需要滿足兩個條件

我們有權限瀏覽

我們肉眼能在瀏覽器中看到

滿足這兩個條件后，我們就可以尋找網址規律。

一般簡單的網站只需要看看翻頁和網址欄即可，有難度的就需要使用開發者工具。

template = &39;for page in range(1， 51): url = template.format(page=page) print(url)

....

2. 嘗試對其中一個url進行訪問

先局部，后整體(先小后大)

首先爬大眾點評有兩種方式 http://www.dianping.com/shop/14686875 直接爬店鋪大家一看這個uri 可能都明白了吧直接一個for 循環 14686875 一般來說一個商鋪大概是三個url 初步估計應該是 330萬的商家左右（理想狀態。

我們需要先拿一個url測試訪問成功與否。

import requestsurl = &39;User-Agent&39;Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHTML， like Gecko) Chrome/85.0.4183.121 Safari/537.36'}resp = requests.get(url， headers=headers)print(resp)

用前嗅的ForeSpider數據采集工具，可以完整采集大眾點評網的數據。軟件可以抽取出所有的鏈接地址，通過url或標題特征，過濾掉無關的鏈接地址。對于數據結果，通過可視化的配置，可以完整的采集所有的公開可見內容。軟件自帶免費的千萬。

response200說明訪問似乎還是正常的，但是不要掉以輕心，最好順便檢查下返回的網頁源代碼數據。

檢查方法

resp.text

3. 解析數據

大眾點評爬蟲

from pyquery import PyQuerydoc = PyQuery(resp.text)for block in doc.items(&39;): name = block(&39;).text() loc = block(&39;).text() quyu = loc.split(&39;)[0] distance = loc.split(&39;)[-1] print(name， quyu， distance)

上海佘山世茂洲際酒店松江區距離松江站9.6km

上海和平飯店南京東路距離和平飯店30m

上海寶格麗酒店大悅城距離天潼路地鐵站175m

上海迪士尼樂園酒店迪士尼距離迪士尼地鐵站710m

上海外灘W酒店北外灘/外白渡橋距離國際客運中心地鐵站205m

上海也山花園酒店(崇明森林公園店) 東平森林公園 1km內無地鐵站

大眾點評哈，你就手動點擊幾次他都會封你ip的。我采集過，封的很厲害，使用代理ip采集吧

上海外灘華爾道夫酒店外灘距離威斯汀大酒店340m

上海半島酒店外灘距離和平飯店285m

可以使用八爪魚采集軟件對大眾點評網上的商家信息進行采集。具體的采集方法可以參考這個八爪魚采集大眾點評網的百度經驗：http://jingyan.baidu.com/article/bad08e1ef4aff109c85121ac.html 。

大眾點評爬蟲