Beim Web-Scraping werden Informationen in Form von Daten von Websites oder Seiten gesammelt. Obwohl Ihre Handlung möglicherweise keine bewusste Handlung ist, haben Sie beim Sammeln von Informationen auch das Web auf die eine oder andere Weise abgekratzt. Aber das ist normalerweise subtil.
Web Scraping oder Screen Scraping ist im Allgemeinen eine zweckmäßige Handlung, und Profis automatisieren das Design, um enorme Datenmengen zu erhalten. Ob durch manuelles Kopieren von Texten auf einer Website, Verwenden dedizierter Tools oder Schreiben von Web-Scraping-Skripten - Web-Scraper treffen eine Website manchmal schwer, indem sie mehrere Anfragen gleichzeitig stellen.
Aber während viele Unternehmen jetzt Web Scraping nutzen, um Wettbewerbsvorteile zu erzielen, ist es tatsächlich legal?
Welche Websites sollten und sollten Sie nicht kratzen?
Das Internet ist ein Informationspool, der den Menschen den Zugriff auf alte Daten und Echtzeitdaten ermöglicht. Web Scraping oder Screen Scraping gibt es schon seit einiger Zeit. Aber wie oft sollten Sie es verwenden und welche Websites können Sie kratzen?
Einige Websites sind streng mit Webcrawlern oder Bildschirmschabern und blockieren sie vollständig. Es ist also offensichtlich, dass Sie solche Websites nicht kratzen sollten. Aber die Leute tun es immer noch.
Leider gibt es kaum etwas, was solche Websites tun können, um dies zu verhindern, außer ihre Lücken zu schließen.
Bevor Sie eine Website kratzen, sollten Sie im Idealfall prüfen, ob das Crawlen zulässig ist oder nicht. Normalerweise können Sie dies herausfinden, indem Sie die robots.txt-Datei der Site überprüfen. Sie können dies tun, indem Sie "[Website-URL] /robots.txt" eingeben.
Eine robots.txt legt normalerweise Regeln für verschiedene Crawler oder Benutzeragenten fest. Diese Regeln variieren jedoch je nach Website. Während einige Websites das Crawlen auf allen Seiten zulassen, geben einige die Seiten an, die ein Bot crawlen kann, und einige blockieren Crawler direkt.
Eine Website, die alle Benutzeragenten daran hindert, alle Seiten zu crawlen, legt normalerweise die folgenden Regeln fest:
User-Agent: *
Nicht zulassen: /
Eine robots.txt-Datei, die alle Bots daran hindert, bestimmte Verzeichnisse oder Seiten zu crawlen, sieht normalerweise folgendermaßen aus:
User-Agent: *
Nicht zulassen: / URL zu Seite 1
Nicht zulassen: / URL zu Seite 2
Wenn robots.txt die Seite, die Sie crawlen möchten, nicht verbietet, können Sie sie wahrscheinlich kratzen. Andernfalls sollten Sie sich zurückziehen oder die Zustimmung des Administrators einholen. Sie können Ihnen Zugriff gewähren.
Darüber hinaus geben einige Websites in ihren Nutzungsbedingungen ausdrücklich an, ob sie das Crawlen zulassen oder nicht. Einige geben dies sogar oben in ihrer robots.txt an. Überprüfen Sie dies auch immer, um sicherzugehen, dass Sie das Richtige tun.
Wie Web Scraping missbraucht wird
Wenn Sie also Spam-E-Mails oder SMS von Websites oder Personen erhalten haben, die Sie nie mit Ihren persönlichen Daten versorgt haben, wurden Sie wahrscheinlich irgendwie irgendwo abgekratzt. Und meistens über eines Ihrer Social-Media-Handles.
Das heißt, Web-Scraping ist manchmal mehr als nur das Sammeln von Daten, die an das Front-End übertragen werden. Bei böswilliger Verwendung können persönliche und Verschlusssachen verloren gehen.
Während die meisten Social-Media-Plattformen die Stirn runzeln, greifen Crawler-Bots immer noch auf die Profile von Personen zu, und ihre Kontaktinformationen werden durchgesickert und abgekratzt.
Beispielsweise wurde berichtet, dass Facebook Schwachstellen aufweist, durch die die Kontaktinformationen der Benutzer in der Vergangenheit verloren gegangen sind, obwohl die Benutzer sie privat halten.
In ähnlicher Weise erlitt LinkedIn kürzlich eine Sicherheitsverletzung, die zum Verlust personenbezogener Daten führte Zugehörigkeit zu über 500 Millionen Konten. Infolgedessen führte diese Sicherheitsanfälligkeit dazu, dass viele E-Mail-Adressen und Telefonnummern ohne Zustimmung der Profilinhaber geteilt wurden.
Ist es illegal, eine Website zu kratzen?
Es gab nie eine Schlussfolgerung zur Rechtmäßigkeit des Web Scraping. Stattdessen liegt der Fokus darauf, wie ein Crawler von Fall zu Fall arbeitet und was er mit den gesammelten Daten erreicht.
Anstatt auf seine Legalität zu schließen, ist das Schaben, wenn es böswillig gemacht wird, illegal. Aber wenn es mit Bedacht gemacht wird, ist es nicht illegal.
Wie erwartet scheint es jedoch strengere Richtlinien für das Scraping und die Verwendung von Social-Media-Daten zu geben, da die Privatsphäre der Benutzer so wichtig ist. Es läuft jedoch immer noch darauf hinaus, wie die Leute die Daten kratzen.
Das Blog zum Internet- und Social-Media-Recht analysierte den Fall von hiQ Labs, einem Daten-Scraping-Unternehmen, das 2019 eine Klage gegen LinkedIn gewonnen hatte, nachdem es versucht hatte, hiQ Labs daran zu hindern, öffentlich verfügbare LinkedIn-Benutzerdaten zu scrappen.
Mit der Behauptung von hiQ Labs, dass das Computer Fraud and Abuse Act (CFAA) nur unbefugten Zugriff verbietet, Das Urteil bestätigte, dass die Daten von LinkedIn öffentlich verfügbar waren, und jeder, der sie abkratzte, tat dies, weil sie es waren zugänglich.
Außerdem verwendeten hiQ Labs die gesammelten Daten nur, um Unternehmen Analyselösungen bereitzustellen, damit sie bessere Rekrutierungsentscheidungen treffen können.
Im Gegensatz dazu Facebook hat kürzlich Entwickler von Chrome-Erweiterungen verklagt die ohne ihre Zustimmung die Profile der Facebook-Nutzer abgekratzt haben.
Ebenso a Nachahmer-Website wurde von Facebook verklagt zum Scrapen der Profilinformationen mehrerer Instagram-Benutzer und zum anschließenden Erstellen von Klonen. Laut diesem Bericht ging Facebook dann weiter, um eine dauerhafte gerichtliche Verfügung gegen den Täter zu erwirken.
Dies sind einige Fälle, in denen Menschen möglicherweise illegal Web Scraping verwendet haben. Die genannten Unternehmen haben die Daten der Facebook-Nutzer ohne Zustimmung ihrer Nutzer betrügerisch erhoben. Es verstieß also gegen Datenschutzrichtlinien.
Während Web-Scraping die Website, von der Daten abgerufen werden, möglicherweise vereitelt, hindert derzeit keine allgemeine Regel die Benutzer daran, das zu erhalten, was sie möchten, solange sie nicht direkt gegen die Internetgesetze verstoßen.
Ist Web Scraping gleichbedeutend mit Hacking?
Es gibt einige Mythen rund um das Web-Scraping. Eine davon ist die Überzeugung, dass das Scrapen einer Website bedeutet, dass Sie sie gehackt haben. Obwohl das Hacken letztendlich zum Scraping von Daten führen kann, ist die Behauptung, dass der Begriff selbst das Hacken einer Website bedeutet, nicht wahr.
Web Scraping kann die Verwendung von beinhalten dedizierte Krabbel- oder Schabewerkzeuge, APIs (Application Programming Interfaces) oder Web-Scraping-Skripte zum Abrufen gerenderter Daten von einer Website. Im Gegensatz zu Hacking gefährdet es weder die Website, die es kratzt, noch stört es die Erfahrung seiner Benutzer.
Verbunden: Was ist Web Scraping? So sammeln Sie Daten von Websites
Während das Hacken einen unbefugten Zugriff beinhaltet, normalerweise in die Datenbank einer Website, zielt das Web-Scraping nur auf Daten ab, die bereits im Front-End sichtbar sind. Obwohl Leute Web Scraping böswillig verwenden können, ist es immer noch nicht gleichbedeutend mit Hacking.
Darüber hinaus ist absichtliches und unethisches Hacken im Gegensatz zum Web-Scraping illegal.
Was sind die positiven Aspekte von Web Scraping?
Web Scraping hat viele Vorteile, und sogar einige Technologieunternehmen bieten ihre Daten jetzt kostenlos über APIs an. Diese Informationen reichen normalerweise nicht aus, um Geschäftstrends zu bewerten und Entscheidungen zu treffen.
Unternehmen erhalten jetzt mehr Daten, indem sie das Web durchsuchen, um die Praktiken zu verbessern und den Umsatz zu steigern. Darüber hinaus versorgen Datenwissenschaftler Algorithmen für maschinelles Lernen mit Daten, die über Screen Scraping gesammelt wurden.
Solche Daten können Bilder sein, die bei der Bilderkennung verwendet werden, einfache Texte für die Stimmungsanalyse oder direkte Produktdaten für Marktinformationen und Verbraucherverhaltensanalysen.
Verbunden: Einzigartige Möglichkeiten, Datensätze für Ihr maschinelles Lernprojekt abzurufen
Web Scraping ist also noch hilfreicher, denn wenn Sie Zugriff auf Informationen haben, die Ihr Konkurrent nicht hat, können Sie diese schlagen.
Während einige Websites Web-Scraper missbilligen, ist es einigen, sogar E-Commerce-Diensten, egal, ob Sie ihre Daten kratzen oder nicht. Webgiganten wie eBay und Salesforce haben ihre API im Jahr 2000 gestartet und Programmierern erstmals Zugriff auf öffentliche Daten gewährt.
Sollten Sie tatsächlich das Web kratzen?
Wir haben festgestellt, dass Web Scraping nicht illegal ist, wenn es richtig gemacht wird. Aber was Sie mit den Daten tun, die Sie kratzen, ist auch ein Problem. Verwenden Sie es also, anstatt dies zu missbrauchen, um mehr Erkenntnisse zu gewinnen, die Ihnen und anderen helfen, fundierte Entscheidungen zu treffen.
Durch Web Scraping als Fähigkeit erhalten Sie jedoch Zugriff auf große Teile von Internetdaten, die Ihnen oder Ihrem Unternehmen helfen können, über der Geschäftsnische zu bleiben. Als Datenwissenschaftler erweitert es sogar Ihren Anwendungsbereich und verbessert Ihre Codierungs- und technischen Fähigkeiten.
Zum Beispiel ist Python eine der Programmiersprachen, mit denen Sie eine Website mit der Beautiful Soup-Bibliothek oder dem Scrapy-Framework problemlos durchsuchen können.
Interessiert an Web Scraping? Hier erfahren Sie, wie Sie mit der Beautiful Soup Python-Bibliothek eine Website nach Inhalten und mehr durchsuchen.
Weiter lesen
- Sicherheit
- Programmierung
- Online-Sicherheit
- Web Scraping
Idowu ist begeistert von intelligenter Technologie und Produktivität. In seiner Freizeit spielt er mit dem Codieren herum und wechselt zum Schachbrett, wenn er sich langweilt, aber er liebt es auch, ab und zu von der Routine abzubrechen. Seine Leidenschaft, Menschen den Weg in die moderne Technik zu zeigen, motiviert ihn, mehr zu schreiben.
Abonnieren Sie unseren Newsletter
Melden Sie sich für unseren Newsletter an, um technische Tipps, Rezensionen, kostenlose E-Books und exklusive Angebote zu erhalten!
Noch ein Schritt…!
Bitte bestätigen Sie Ihre E-Mail-Adresse in der E-Mail, die wir Ihnen gerade gesendet haben.