Python筆記系列 -- 操作瀏覽器去抓網頁資料

Python配合jupyter介面之後,因為其極高的互動性所以被拿來當作爬蟲的第一選擇

但是要做到這事之前,要去下載一個Google Chrome的Driver,然後再安裝selenium套件。

Google Chrome Driver 來這裡Download :

https://sites.google.com/a/chromium.org/chromedriver/downloads



根據自已的系統 Download 。解壓縮後會得到一個 "chromedriver",放在打開jupyter notebook的資料夾中。


Selenium

可以使用pip3直接安裝 selenium 套件


$> sudo pip3 install selenium



裝完之後就可以開始了,參考下面的指令

執行之後就會發現會多跑出來一個Chrome視窗像是下面這個:



這個Chrome可以使用程式碼中的那個 "browser" 物件來操控它

下面是操控的範例


如果要用Firefox 來抓蟲的話
請到下面這個網站下載 geckodriver 這個檔案

https://github.com/mozilla/geckodriver/releases



要抓那個應該很明顯,抓下來解壓縮後,把geckodriver這個檔案放在其中一個系統找執行檔的路徑裡。

像是 mac os x 我就放到這個資料夾裡

/usr/local/bin/

然後就可以試看看了:


留言

熱門文章