wget - Spiegeln von Webseiten

  • wget ist ein Programm zum rekursiven Download aus dem Internet. Dies können reine HTML-Seiten sein, Files von FTP-Servern aber auch gezippte Dateien. Auch wget muss mitgeteilt werden, seine Anfragen über den Squid-Proxy zu schicken - sollte man das wünschen. Dies geschieht in der Konfigurationsdatei .wgetrc in seinem homedir mittels dem Eintrag: http_proxy = http://localhost:3128/ reclevel = 2 dirstruct = on timestamping = on`Reclevel` gibt noch an, wie weit Wget in die Struktur der zu übertragenden Seite (rekursiv!) eintauchen soll. Mit `timestamping` legt wget für jedes Objekt ein Datum ab, um die Aktualität zu prüfen. So werden wirklich nur Objekte übertragen, die neuer als die lokalen sind. Wenn alles klappt, kann man nun mit 'wget http://www.fhm.edu' Seiten übertragen. Besser ist jedoch, vorher in ein entsprechend "sauberes" Verzeichnis (z.B. cd /var/www) zu wechseln, da wget die geladenen Seiten in das gerade gültige Verzeichnis legt (oder man benutzt 'dirstruct=on'). Es ist auch möglich, wget nach Links in HTML und Textfiles browsen zu lassen. Enthaltene URLs werden dann gesaugt und säuberlich abgelegt: wget --input-file=~/www.seiten