Botsol Blog

Blog about web scraping and web bots

So extrahieren Sie ALLE Informationen von Webseiten

Wenn Sie eine Liste von Websites haben und Kontaktdaten oder andere Informationen von dieser Website erhalten möchten, kann Ihnen der Web Extractor von Botsol helfen.

Es verfügt über eine integrierte Funktion zum Extrahieren von E-Mail- und Social-Media-Links. Benutzer können alle anderen Informationen extrahieren, indem sie ein paar einfache Aktionen ausführen.

In diesem Beispiel werden wir den Titel und die Meta-Beschreibung aus einer Liste von Websites extrahieren. Standardmäßig werden bereits die E-Mail- und Social-Media-Links extrahiert.

So konfigurieren Sie die App, um diese Informationen zu extrahieren.

Laden Sie die Botsol Web Extractor-App von hier herunter und installieren Sie sie https://www.botsol.com/bots/web-extractor

Führen Sie die Anwendung Botsol Web Extractor aus.

Klicken Sie auf Optionen und wählen Sie „Datenfelder hinzufügen/anpassen“. Es öffnet sich ein neues Fenster.

Klicken Sie auf die Schaltfläche „Neues Element hinzufügen“, geben Sie den Namen Ihres neuen Felds ein, wählen Sie den Typ (Xpath oder Regex) hier verwenden wir Xpath für unsere erforderlichen Felder.

Überschrift hat Xpath //h1

Title-Tag hat den Xpath //title

Der Xpath von Meta Description wird //meta[@name=’description’]/@content sein

Screenshot der Web Extractor-App mit benutzerdefinierten Datenfeldern, die vom Benutzer hinzugefügt wurden.

Wie Sie im obigen Screenshot sehen können, hatten wir zwei Datenfelder hinzugefügt. Schließen Sie nun dieses Fenster.

Übergeben Sie alle Ihre URLs im Textbereich, der in der Botsol-Web-Extraktor-App angezeigt wird, und klicken Sie auf die Schaltfläche „Start Bot“.

Es wird jede Seite besuchen und Kontaktinformationen zusammen mit dem Titel und der Meta-Beschreibung extrahieren. Standardmäßig besucht die App die URLs im Hintergrund, kann aber auch URLs im Chrome-Browser öffnen, wenn Sie möchten. Klicken Sie auf Optionen> Einstellungen und wählen Sie die Option zum Öffnen von URLs im Chrome-Browser aus. Dies ist hilfreich für Websites, die schwere Java-Skripte zum Anzeigen von Inhalten verwenden .

Bildschirm der Web Extractor-App mit den extrahierten Kontaktinformationen und anderen Datenfeldern.

 

Das ist es, es ist wirklich einfach und schnell, beliebige Informationen aus einer URL zu extrahieren. Der Benutzer kann die Daten nach Abschluss in CSV/Excel exportieren.

Lesen Sie mehr über Xpath (https://www.w3schools.com/xml/xpath_syntax.asp) und Regex (http://www.rexegg.com/regex-quickstart.html).

Dieser Beitrag wurde ursprünglich auf Englisch unter https://blog.botsol.com/post/how-to-extract-any-information-from-websites veröffentlicht

 

Add comment

Loading