Python筆記系列 -- 操作瀏覽器去抓網頁資料
Python配合jupyter介面之後,因為其極高的互動性所以被拿來當作爬蟲的第一選擇
但是要做到這事之前,要去下載一個Google Chrome的Driver,然後再安裝selenium套件。
Google Chrome Driver 來這裡Download :
https://sites.google.com/a/chromium.org/chromedriver/downloads
根據自已的系統 Download 。解壓縮後會得到一個 "chromedriver",放在打開jupyter notebook的資料夾中。
Selenium
可以使用pip3直接安裝 selenium 套件
裝完之後就可以開始了,參考下面的指令
執行之後就會發現會多跑出來一個Chrome視窗像是下面這個:
這個Chrome可以使用程式碼中的那個 "browser" 物件來操控它
下面是操控的範例
如果要用Firefox 來抓蟲的話
請到下面這個網站下載 geckodriver 這個檔案
https://github.com/mozilla/geckodriver/releases
要抓那個應該很明顯,抓下來解壓縮後,把geckodriver這個檔案放在其中一個系統找執行檔的路徑裡。
像是 mac os x 我就放到這個資料夾裡
/usr/local/bin/
然後就可以試看看了:
但是要做到這事之前,要去下載一個Google Chrome的Driver,然後再安裝selenium套件。
Google Chrome Driver 來這裡Download :
https://sites.google.com/a/chromium.org/chromedriver/downloads
根據自已的系統 Download 。解壓縮後會得到一個 "chromedriver",放在打開jupyter notebook的資料夾中。
Selenium
可以使用pip3直接安裝 selenium 套件
$> sudo pip3 install selenium
裝完之後就可以開始了,參考下面的指令
執行之後就會發現會多跑出來一個Chrome視窗像是下面這個:
下面是操控的範例
如果要用Firefox 來抓蟲的話
請到下面這個網站下載 geckodriver 這個檔案
https://github.com/mozilla/geckodriver/releases
要抓那個應該很明顯,抓下來解壓縮後,把geckodriver這個檔案放在其中一個系統找執行檔的路徑裡。
像是 mac os x 我就放到這個資料夾裡
/usr/local/bin/
然後就可以試看看了:
留言
張貼留言