Ten blog nie jest już rozwijany. Wraz ze wszystkimi artykułami zostały przeniesiony pod adres wmroczkowski.pl

Czy chcesz przejść pod nowy adres?

niedziela, 9 listopada 2008

Jak ściągnąć całą stronę www za pomocą wget

Dzisiaj trochę o małym wielkim programie do ściągania plików o nazwie wget, a właściwie o jego umiejętności ściągania całych stron internetowych bez mrugnięcia okiem.

Aby ściągnąć daną stronę www musimy wydać następującą komendę:
$ wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=windows --domains kursyonline.pl --no-parent www.kursyonline.pl/kursy/php

Dobrze, a teraz przeanalizujmy poszczególne wpisy:
--recursive - ściągaj całą stronę z podstronami.
--no-clobber - nie nadpisuj plików, które już istnieją (przydatne jeszcze wcześniej nie ściągnęliśmy całej strona a teraz chcemy kontynuować ściąganie).
--page-requisites - ściągaj wszystkie pliki związane ze stroną, czyli css, js, etc.
--html-extension - zapisuj pliki używając rozszerzenia html.
--convert-links - skonwertuj linki tak aby działały lokalnie, czyli off-line.
--restrict-file-names=windows - zmodyfikuj nazwy linków tak by działały również na windowsie.
--domains kursyonline.pl - ściągaj strony tylko z domeny kursyonline.pl. Nie podążaj za linkami zewnętrznymi.
--no-parent - nie podążaj za linkami z poza katalogu /kursy/php/.

Brak komentarzy: