Web Scraping: Was ist das und wofür ist es gut?

Im Bereich der IT-Sicherheit und Data Science geht es immer wieder um das sogenannte Web Scraping. Doch was genau ist Scraping überhaupt und warum ist es in diesen Branchen so essenziell wichtig, darüber Bescheid zu wissen? In unserem heutigen Artikel möchten wir ein wenig näher darauf eingehen.

Wir werden Ihnen hier haargenau erklären, was es mit dem Web Scraping auf sich hat und warum wir es als IT-Sicherheitsexperten regelmäßig einsetzen müssen. Natürlich erklären wir Ihnen auch gleich noch, wie die Sache mit dem Web Scraping technisch funktioniert. Ob das Scraping am Ende überhaupt legal ist, erfahren Sie hier ebenfalls.

Was genau ist Web Scraping?

Scraping bedeutet übersetzt so viel wie »Schaben« und genau das ist Web Scraping im Grunde genommen auch. Ganz platt und direkt ausgedrückt, geht es darum, Informationen von Websites zusammenzukratzen. Web Scraping ist also eine automatisierte Methode, um bestimmte Daten aus dem Web zu lesen, zu sammeln und zu speichern.

Im Grunde geht es beim Web Scraping also ausschließlich darum, bestimmte Daten abzufragen, um darauf aufbauend dann weitere Analysen durchführen zu können. Wie erwähnt, ist das vorwiegend im Bereich Data Science und IT-Sicherheit von Bedeutung, da oftmals mehr Daten frei verfügbar sind als zunächst angenommen. Also wird versucht, mittels Web Scraping alles Mögliche zu sichern, um es im weiteren Verlauf dann einer genaueren Auswertung zu unterziehen.

Ein praktisches und einfaches Beispiel für Web Scraping wäre das Sammeln von Telefonnummern. Da diese oft im Impressum einer Website zu finden sind, könnten wir mittels Web Scraping alle Telefonnummern aus einem Datensatz von Websites sammeln und diese anschließend nach bestimmten Vorwahlen sortieren. Mittels Web Scraping hätten wir dann eine lange Liste mit Telefonnummern gesichert. Aber Vorsicht, genau das wäre in diesem Fall illegal. Zur Legalität schreiben wir weiter unten noch ein paar Sätze.

Wie funktioniert Web Scraping?

Technisch gesehen ist Web Scraping allgemein und im Sprachgebrauch eng verwandt mit Python. Wann immer vom Scraping die Rede ist, fällt häufig auch der Begriff Pyhton. Das hat den einfachen Grund, dass sich die Programmiersprache Pyhton für den Anwendungszweck »Scraping« besonders gut eignet. Das wiederum liegt unter anderem daran, dass Python viele positive Eigenschaften besitzt, die beim Web Scraping eine wichtige Rolle spielen. Die einfache Anpassbarkeit zum Beispiel oder auch der Umgang mit anschließender Textverarbeitung.

Grundsätzlich findet Web Scraping immer automatisiert statt, weil es oft um besonders große Datenmengen geht. Ein paar Inhalte zu kopieren, hat daher auch nicht viel mit Scraping zu tun. Große Datensätze, die anschließend weiter verarbeitet werden können, sind stets das Ziel beim Web Scraping. Im Grunde sollen also automatisch bestimme Inhalte aus Websites extrahiert werden, um sie anderweitig zu verwenden.

Wie schon im Beispiel erwähnt, könnten wir einen Bot losschicken, der Websites nach einem Link zum Impressum durchsucht und dort dann die Telefonnummer erkennt und kopiert. Auf diese Weise würden wir mittels Web Scraping Telefonnummern sammeln. Ebenso könnten wir jedoch allerlei andere Informationen zusammensuchen, extrahieren und gesondert abspeichern, um mit diesen zu arbeiten. Preise von Online-Shops, ebenso Suchergebnisse zu bestimmten Keywords und vieles mehr.

Wofür wird Web Scraping genutzt?

Neben dem eben erwähnten Beispiel mit den Telefonnummern könnten auch Datenbanken mit Kontakten erstellt werden. Der Scraper kann ebenso bestimmte Website-Daten abrufen, die nicht mittels API erreicht werden, die Sie aber anderswo speichern oder anzeigen möchten. Im Grunde ist es möglich, sämtliche Inhalte einer Website zu scrapen, zumindest wenn Sie es schaffen, diese entsprechend abzugreifen.

Scraper kommen oft zu Einsatz, wenn es keine offiziellen APIs gibt, die entsprechende Daten liefern. Oder wenn diese APIs viel Geld kosten und jemand die Daten gerne kostenlos abgreifen würde. Im Bereich Data Science, wo es um gigantische Datensätze und entsprechende Analysen geht, gibt es zudem oft keine offiziellen Quellen. Die Daten, die benötigt werden, müssen also mittels Scraping zusammengekratzt werden.

Es gibt jedoch leider auch Content-Klau, der mittels Scraping stattfindet. Auf diese Weise werden komplette Websites nachgebaut, Dateien kopiert oder Downloads-Links gescraped, die eigentlich nicht öffentlich zugänglich sein sollten. Was uns dann gleich zum nächsten Punkt führt, der Legalität von Web Scraping.

Ist Web Scraping legal?

Dazu gibt es in der Tat bereits verschiedene gerichtliche Urteile. Allgemein gehen die Gerichte aktuell wohl davon aus, dass Web Scraping legal ist. Die Inhalte, die mittels Scraper extrahiert werden, stehen öffentlich zur Verfügung und dürfen demnach auch abgerufen werden. Selbst dann, wenn dies mittels Scraper automatisiert geschieht.

Problematisch oder in einer Grauzone befinden Sie sich jedoch immer dann, denn der Webmaster einer Website versucht diese Inhalte zu verbergen. Denn wenn ein Verzeichnis aktiv versteckt wird, könnte dies als eine Art Schutzmechanismus gedeutet werden, dessen Umgehung dann logischerweise illegal ist.

Werden Firewalls umgangen oder Schutzmechanismen per se ignoriert, ist Web Scraping ohnehin illegal. Das gilt auch für das Beispiel in diesem Artikel bezüglich der Telefonnummern und Adressen. Die fallen unter die DSGVO und eine Speicherung ist grundsätzlich nur mit Einwilligung der jeweiligen Personen erlaubt.

Anders ist die Situation z. B. bei Open Data. Die Stadt Gelsenkirchen stellt unter Ihrem Open Data Portal umfangreiche Datensätze zur Verfügung. Diese sind frei verfügbar und können ohne Scraping abgefragt und verarbeitet werden.

Die Stadt Gelsenkirchen stellt unter https://opendata.gelsenkirchen.de umfangreiche Datensätze zur freien Verfügung bereit. Ein Scraping der Daten ist nicht notwendig. (Quelle:gelsenkirchen.de)

Ob die Daten jedoch per Download zur Verfügung stehen oder per API automatisch abgerufen und im Anschluss verarbeitet werden können, das hängt von der Plattform ab.

Die Open Data Plattform der Stadt Gelsenkirchen informiert auch über neue Datensätze. Diese sind auch für Endanwender geeignet, da die Daten zum Teil als PDF oder Excel Datei zum Download bereitstehen. (Quelle:gelsenkirchen.de)

Kann Web Scraping verhindert werden?

Prinzipiell schon. Firewalls können effektiv verhindern, dass bestimmte Zugriffe oder Bots, wie eben auch Scraper, überhaupt erst bis zur Website gelangen. Auch ist grundsätzlich davon auszugehen, dass Zugriffe in den Logfiles auftauchen und vom Admin entsprechend gesehen und bewertet werden. Anonym seid ihr demnach nicht und Zugriffe vom Server fallen immer auf unterschiedliche Art und Weise auf.

Wer solche Sicherheitssysteme umgeht, handelt außerdem illegal. Denn wie eben bereits erwähnt, ist Scraping nur dann legal, wenn es auf öffentliche Inhalte zugreift, die in keiner Form geschützt wurden. Handelt es sich aber um geschützte Inhalte oder Server, die durch eine Firewall die Scraper blockieren, ist die Legalität nicht mehr gegeben.

Scraping kann also sehr wohl verhindert werden und das wird es auch, sobald es unangenehm in Erscheinung tritt. Wer also statt eine API zu verwenden, die Inhalte lieber via eigenen Scraper abgreift, wird sicherlich schnell Ärger bekommen. Spätestens dann, wenn die Last beim jeweiligen Anbieter zu groß wird. Wer Scraping aber nur für die Datenanalyse betreibt, der ist meist auf der sicheren Seite. Auch deshalb, weil das Ziel nur ein einmaliges Sammeln großer Datensätze ist, nicht das wiederholte und beständige Abgreifen selbiger.

Fazit zum automatisierten auslesen von Daten aus Webseiten

Ohne Web Scraping gäbe es viele Angebote gar nicht und einige Dinge sind nicht ohne Weiteres über eine API zu lösen. Vor allem auch deshalb, weil nicht jede Website eine API für die zur Verfügung gestellten Inhalte anbietet. Web Scraping ist also nützlich und auch sinnvoll. Je nach Anwendungsfall versteht sich.

Gerade in der IT-Sicherheit oder dem Bereich Data Science sorgt Web Scraping zudem dafür, dass groß angelegte Tests oder Studien absolviert werden können. Nur mit möglichst vielen Daten ist es möglich, eine breite Analyse zu tätigen und daraus bedeutsame Schlüsse zu ziehen. Mit ein paar Websites geht so etwas nicht und händisch sind die Daten kaum zu erheben.

Wer Web Scraping verhindern möchte, kann problemlos Maßnahmen zur Verhinderung ergreifen. Bots können ausgesperrt und ein User-Agent kann blockiert werden. Die Firewall blockt Scraper zudem schon am Eingang und verdeutlicht auch gleich noch, dass es ab hier nur noch illegal weitergeht. Wir hoffen, unser kleiner Einblick in das Thema Web Scraping hat Ihnen geholfen und konnte für ein wenig mehr Klarheit sorgen.

Die AWARE7 GmbH gehört zu einer der führenden Einrichtungen im Bereich der Webmessungen gemeinsam mit dem Institut für Internet-Sicherheit. Wir haben beispielsweise Kriterien definiert, welche reproduzierbare und replizierbare Vermessungen des Internets möglich machen:

Was genau ist Web Scraping?

Wie funktioniert Web Scraping?

Wofür wird Web Scraping genutzt?

Ist Web Scraping legal?

Kann Web Scraping verhindert werden?

Fazit zum automatisierten auslesen von Daten aus Webseiten

KONTO

UNTERNEHMEN

WEITERBILDUNG

AWARENESS

RESSOURCEN

OFFENSIVE SERVICES

KONTAKT

BERATUNG

FORSCHUNG & ENTWICKLUNG