Die meisten Benutzer laden Dateien mit ihrem Webbrowser auf ihren PC herunter. Allerdings gibt es bei dieser Methode ein Problem: Sie ist nicht besonders effizient. Wenn Sie Ihren Download unterbrechen müssen oder die Verbindung unterbrochen wurde, müssen Sie den Download wahrscheinlich noch einmal von vorne beginnen. Möglicherweise arbeiten Sie auch mit Python oder anderem Code in der Befehlszeile und möchten ihn direkt von der Eingabeaufforderung herunterladen.
Hier kommen Tools wie Wget ins Spiel. Dieses Befehlszeilentool verfügt über eine Reihe nützlicher Funktionen, darunter Unterstützung für rekursive Downloads und die Wiederaufnahme von Downloads, mit denen Sie einzelne Dateien (oder ganze Websites) auf einmal herunterladen können.
Wget ist unter Linux und anderen Unix-basierten Betriebssystemen beliebt, ist aber auch für Windows-Benutzer verfügbar. Im Folgenden erklären wir, wie Sie Wget installieren und verwenden, um beliebige Inhalte online über Ihre Windows-Befehlszeile herunterzuladen.
GNU Wget unter Windows installieren
Wget (zumindest dem Namen nach) ist unter Windows 10 und 11 über das PowerShell-Terminal verfügbar. Diese Version von Wget ist jedoch nicht dasselbe wie das GNU Wget-Tool, das Sie auf einem Linux-PC verwenden würden. Stattdessen handelt es sich bei dieser Version einfach um einen Alias für einen PowerShell-Befehl namens Invoke-WebRequest.
Invoke-WebRequest ähnelt in seiner Funktionsweise Wget, ist jedoch ein völlig anderes Tool, das viel schwieriger zu verwenden und zu verstehen ist. Stattdessen sind Sie besser bedient, wenn Sie Wget für Windows installieren, eine kompilierte Version desselben Tools, das für Linux-Benutzer verfügbar ist, indem Sie die folgenden Schritte ausführen.
1. Laden Sie die Wget für Windows-Setup-Datei von herunter Wget-Website. Sie müssen dies mit Ihrem Webbrowser tun.
2. Führen Sie die Wget für Windows-Installationsdatei aus. Sobald der Download der Wget-Setup-Datei abgeschlossen ist, führen Sie die Setup-Datei aus und befolgen Sie die Anweisungen auf dem Bildschirm, um die Installation abzuschließen.
3. Aktualisieren Sie die Datei Wget.exe (optional). Das Wget-Installationsprogramm enthält eine ziemlich alte Version der Wget-Binärdatei. Wenn Sie aufgrund von SSL-Zertifikatsfehlern Schwierigkeiten beim Herunterladen von Dateien haben, sollten Sie die neueste wget.exe für Ihre Architektur von herunterladen Diese Internetseite und speichern Sie es in Ihrem Wget-Installationsverzeichnis (normalerweise C:\Programme (x86)\GnuWin32\bin). Dieser Schritt ist optional, wird aber dringend empfohlen.
4. Öffnen Sie das Startmenü, suchen Sie nach Umgebungsvariablen und klicken Sie auf Öffnen. Sobald die Installation abgeschlossen ist, verwenden Sie das Suchtool im Startmenü, um nach Umgebungsvariablen zu suchen, und klicken Sie dann auf Öffnen. Sie müssen dies tun, damit Sie den Befehl „wget“ über die Befehlszeile verwenden können, ohne bei jeder Ausführung auf seinen Speicherort verweisen zu müssen.
5. Klicken Sie auf Umgebungsvariablen im Fenster „Systemeigenschaften“.
6. Wählen Sie Pfad aus und klicken Sie auf Bearbeiten unter System- oder Benutzervariablen.
7. Klicken Sie auf die Schaltfläche Neu und geben Sie das Verzeichnis für die Wget für Windows-Binärdatei (.exe) ein. Standardmäßig sollte dies C:\Programme (x86)\GnuWin32\bin sein.
8. Speichern Sie Ihre Änderungen. Wenn Sie fertig sind, klicken Sie in jedem Menü auf OK und verlassen Sie die Systemeigenschaften.
9. Öffnen Sie das Startmenü, geben Sie cmd ein und drücken Sie Öffnen. Dadurch wird ein neues Eingabeaufforderungsfenster geöffnet. Sie können auch die neuere Terminal-App verwenden, sofern Sie zur Verwendung einer Eingabeaufforderungs-Shell wechseln.
10. Geben Sie wget –version ein und drücken Sie die Eingabetaste. Wenn Wget korrekt installiert wurde, sollte die zurückgegebene GNU Wget-Version im Eingabeaufforderungsfenster angezeigt werden.
Wenn Sie Wget stattdessen von einem PowerShell-Terminal ausführen möchten, müssen Sie die Datei direkt aus ihrem Installationsverzeichnis ausführen (z. B. C:\Programme (x86)\GnuWin32\bin\wget.exe).
Herunterladen von Dateien mit Wget
Sobald Sie GNU Wget installiert und die Umgebungsvariablen konfiguriert haben, um es korrekt starten zu können, können Sie damit mit dem Herunterladen von Dateien und Webseiten beginnen.
In unseren Beispielen unten haben wir eine Beispieldomäne und einen Dateipfad verwendet. Sie müssen dies durch den korrekten Pfad zu der Datei (oder Dateien) ersetzen, die Sie herunterladen möchten.
- Geben Sie wget -h ein, um eine vollständige Liste der Befehle anzuzeigen. Dadurch erhalten Sie die vollständige Liste der Optionen, die Sie mit Wget verwenden können.
wget -h
- Laden Sie eine einzelne Datei mit wget herunter
. Ersetzen mit dem Pfad zu einer Datei auf einem HTTP-, HTTPS- oder FTP-Server. Sie können auch direkt auf einen Website-Domainnamen oder eine Webseite verweisen, um diese bestimmte Seite herunterzuladen (ohne den anderen Inhalt).
wget example.com
- Speichern Sie mit -O unter einem anderen Dateinamen. Mit der Option -O können Sie die Datei unter einem anderen Dateinamen speichern. Zum Beispiel wget -O
Wo ist der von Ihnen gewählte Dateiname.
wget -O example.html example.com
- Speichern Sie mit -P in einem anderen Verzeichnis. Wenn Sie in einem anderen Verzeichnis als dem, in dem Sie sich gerade befinden, speichern möchten, verwenden Sie die Option -P. Zum Beispiel wget -P
.
wget -PC:\Ordner example.com
- Verwenden Sie –continue oder -c, um Dateien fortzusetzen. Wenn Sie einen teilweisen Download fortsetzen möchten, verwenden Sie die Option -c, um ihn fortzusetzen, solange Sie sich im selben Verzeichnis befinden. Zum Beispiel wget -c
.
wget -c example.com
- Laden Sie mehrere Dateien nacheinander herunter. Wenn Sie mehrere Dateien herunterladen möchten, fügen Sie jede URL zu Ihrem Wget-Befehl hinzu. Zum Beispiel wget
usw.
wget example.com tomshardware.com
- Laden Sie mehrere Dateien mithilfe einer Textdatei mit -i herunter. Mit der Option -i können Sie auf eine Textdatei verweisen, die eine Liste von URLs enthält, um eine große Anzahl von Dateien herunterzuladen. Unter der Annahme, dass sich jede URL in einer neuen Zeile befindet, lädt Wget den Inhalt nacheinander von jeder URL herunter. Zum Beispiel wget -i
.
wget -i urls.txt
- Begrenzen Sie die Download-Geschwindigkeit mit –limit-rate. Wenn Sie Ihre Bandbreitennutzung begrenzen möchten, können Sie die Download-Geschwindigkeit mit der Option –limit-rate begrenzen. Beispiel: wget –limit-rate=1M
würde die Download-Geschwindigkeit auf 1 Megabyte pro Sekunde begrenzen, während wget –limit-rate=10K würde es auf 10 Kilobyte pro Sekunde begrenzen.
wget –limit-rate=10K example.com
- Verwenden Sie -w oder –wait, um nach jedem Download eine Pausenzeit festzulegen. Wenn Sie mehrere Dateien herunterladen, kann die Verwendung von -w dazu beitragen, die von Ihnen gestellten Anfragen zu verteilen und das Risiko einer Blockierung Ihrer Downloads zu verringern. Beispiel: wget -w 10
für 10 Sekunden warten.
wget -w 10 example.com tomshardware.com
- Legen Sie mit -t oder –tries ein Wiederholungslimit fest. Wenn ein Download fehlschlägt, verwendet wget den Wert -t, um zu bestimmen, wie oft es erneut versucht, bevor es stoppt. Der Standardwert beträgt 20 Wiederholungen. Wenn die Datei fehlt oder die Verbindung abgelehnt wird, wird dieser Wert ignoriert und Wget wird sofort beendet.
wget -t 5 example.com
- Speichern Sie ein Protokoll mit -o oder -a. Sie können Ihre Protokolldaten mit -o (um immer eine neue Protokolldatei zu erstellen) oder -a (um sie an eine vorhandene Datei anzuhängen) in einer Textdatei speichern. Zum Beispiel wget -o
.
- Umgehen Sie SSL-Fehler mit –no-check-certificate. Wenn Sie Probleme beim Herunterladen von einem Webserver mit einem SSL-Zertifikat haben und Ihre Wget-Installation bereits aktualisiert haben, umgehen Sie die Überprüfung des SSL-Zertifikats vollständig mit –no-check-certificate, um den Download zu ermöglichen (in den meisten Fällen). Sie sollten dies nur für Downloads von Orten tun, denen Sie vollkommen vertrauen. Zum Beispiel wget –no-check-certificate example.com.
wget –no-check-certificate https://example.com
Stellen Sie sicher, dass Sie die verwenden wget -h oder wget –help Befehl, um die vollständige Liste der verfügbaren Optionen anzuzeigen. Wenn Sie Probleme mit Wget haben, achten Sie darauf, die Anzahl der Wiederholungsversuche zu begrenzen und für jeden Download-Versuch ein Wartelimit festzulegen.
Verwenden von Wget für rekursive Downloads
Eine der nützlichsten Funktionen von Wget ist die Möglichkeit zum rekursiven Herunterladen. Anstatt nur eine einzelne Datei herunterzuladen, wird stattdessen versucht, ein ganzes Verzeichnis verwandter Dateien herunterzuladen.
Wenn Sie beispielsweise eine Webseite angeben, werden die an diese Seite angehängten Inhalte (z. B. Bilder) heruntergeladen. Abhängig von der von Ihnen gewählten Rekursionstiefe können auch alle damit verlinkten Seiten sowie der Inhalt dieser Seiten, alle auf diesen Seiten verlinkten Seiten usw. heruntergeladen werden.
Theoretisch kann Wget mit einer unendlichen Tiefenstufe ausgeführt werden, was bedeutet, dass es nie aufhört, mit den heruntergeladenen Inhalten immer tiefer zu gehen. Aus praktischer Sicht werden Sie jedoch möglicherweise feststellen, dass die meisten Webserver diese Scraping-Ebene blockieren, sodass Sie vorsichtig vorgehen müssen.
- Geben Sie wget -r oder wget –recursive ein, um den Download rekursiv durchzuführen. Standardmäßig ist die Tiefenstufe fünf. Zum Beispiel wget -r
.
wget -r tomshardware.com
- Verwenden Sie -l oder –level, um eine benutzerdefinierte Tiefenstufe festzulegen. Beispiel: wget -r -l 10
. Verwenden Sie wget -r -l inf für eine unendliche Tiefenebene.
wget -r -l 10 tomshardware.com
- Verwenden Sie -k, um Links in lokale Datei-URLs umzuwandeln. Wenn Sie eine Website crawlen, konvertiert Wget alle Links automatisch in HTML, sodass sie stattdessen auf die Offline-Kopie verweisen, die Sie heruntergeladen haben. Beispiel: wget -r -k
.
wget -r -k tomshardware.com
- Verwenden Sie -p oder –page-requisites, um den gesamten Seiteninhalt herunterzuladen. Wenn Sie möchten, dass eine Website vollständig heruntergeladen wird, sodass alle Bilder, CSS und andere Seiteninhalte offline verfügbar sind, verwenden Sie die Optionen -p oder –page-requisites. Zum Beispiel wget -r -p
.
wget -r -p tomshardware.com
Um eine vollständige Liste der Optionen zu erhalten, verwenden Sie unbedingt die wget –h Befehl. Sie sollten auch darauf achten, jede Website zu respektieren, von der Sie aktiv herunterladen, und Ihr Bestes tun, um die Serverlast durch Warte-, Wiederholungs- und Tiefenbeschränkungen zu begrenzen.
Wenn Sie aufgrund von SSL-Zertifikatsfehlern auf Schwierigkeiten beim Herunterladen stoßen, vergessen Sie nicht, Ihre Wget-Binärdatei (wget.exe) auf die neueste Version zu aktualisieren.