Node.js – pobieranie stron (web scraping)

Zwykle chcąc pobrać stronę WWW i przeskanować je zawartość korzystamy z narzędzia typu Wget lub cURL, a następnie przetwarzamy dane przy pomocy np. wyrażeń XPath. Oczywistą wadą takiego rozwiązania jest brak możliwości pobrania informacji generowanych przez Java Script.

Do parsowania stron generowanych przy pomocy Java Scriptu, można wykorzystać serwer Node.js oraz konsolową przeglądarkę PhantomJS.

Instalacja Node.js

Instalacja PhantomJS

Oprócz narzędzi potrzebnych do kompilacji programu:

możemy zainstalować jeszcze aplikację do kompresji plików binarnych:

Przystępujemy do pobrania oraz kompilacji:

Po kompilacji w katalogu „deploy” znajdziemy archiwum

Instalacja modułu PhantomJS dla Node.js

Teraz musimy dodać ścieżkę do pliku wykonywalnego PhantomJS do zmiennych środowiskowych. W systemie Windows modyfikujemy zmienną PATH, a w systemie Linux możemy utworzyć dowiązanie symboliczne w katalogu /usr/bin.

Poprawnym efektem działania powyższej operacji ma być możliwość wydania polecenia „phantomjs”, które uruchomi aplikację.

Linki

http://nodejs.org/
http://phantomjs.org/
https://github.com/sgentle/phantomjs-node
http://net.tutsplus.com/tutorials/javascript-ajax/web-scraping-with-node-js/ 

Dodaj komentarz

Twój adres email nie zostanie opublikowany.