Python筆記系列 -- 操作瀏覽器去抓網頁資料

Python筆記系列 -- 操作瀏覽器去抓網頁資料

Python配合jupyter介面之後，因為其極高的互動性所以被拿來當作爬蟲的第一選擇

但是要做到這事之前，要去下載一個Google Chrome的Driver，然後再安裝selenium套件。

Google Chrome Driver 來這裡Download :

https://sites.google.com/a/chromium.org/chromedriver/downloads

根據自已的系統 Download 。解壓縮後會得到一個 "chromedriver"，放在打開jupyter notebook的資料夾中。

Selenium

可以使用pip3直接安裝 selenium 套件


$> sudo pip3 install selenium

裝完之後就可以開始了，參考下面的指令

執行之後就會發現會多跑出來一個Chrome視窗像是下面這個:

這個Chrome可以使用程式碼中的那個 "browser" 物件來操控它

下面是操控的範例

如果要用Firefox 來抓蟲的話
請到下面這個網站下載 geckodriver 這個檔案

https://github.com/mozilla/geckodriver/releases

要抓那個應該很明顯，抓下來解壓縮後，把geckodriver這個檔案放在其中一個系統找執行檔的路徑裡。

像是 mac os x 我就放到這個資料夾裡

/usr/local/bin/

然後就可以試看看了:

留言