So verhindern Sie, dass KI-Chatbots den Inhalt Ihrer Website crawlen

Befürchten Sie, dass KI-Chatbots Ihre Website nach Inhalten durchsuchen? Glücklicherweise können Sie sie daran hindern. Hier ist wie.

Aus heutiger Sicht verfügen KI-Chatbots über eine kostenlose Lizenz, um Ihre Website zu crawlen und deren Inhalte ohne Ihre Erlaubnis zu verwenden. Befürchten Sie, dass Ihre Inhalte von solchen Tools erfasst werden?

Die gute Nachricht ist, dass Sie KI-Tools daran hindern können, auf Ihre Website zuzugreifen, es gibt jedoch einige Einschränkungen. Hier zeigen wir Ihnen, wie Sie die Bots mithilfe der robots.txt-Datei für Ihre Website blockieren und welche Vor- und Nachteile dies hat.

Wie greifen KI-Chatbots auf Ihre Webinhalte zu?

KI-Chatbots werden mithilfe mehrerer Datensätze trainiert, von denen einige Open Source und öffentlich verfügbar sind. GPT3 wurde beispielsweise anhand von fünf Datensätzen trainiert ein von OpenAI veröffentlichtes Forschungspapier:

Common Crawl (60 % Gewicht im Training)
WebText2 (22 % Gewicht im Training)
Bücher1 (8 % Gewicht im Training)
Bücher2 (8 % Gewicht im Training)
Wikipedia (3 % Gewicht im Training)

instagram viewer

Gemeinsames Kriechen umfasst Petabytes (Tausende TB) an Daten von Websites, die seit 2008 gesammelt wurden, ähnlich wie der Suchalgorithmus von Google Webinhalte crawlt. WebText2 ist ein von OpenAI erstellter Datensatz, der etwa 45 Millionen Webseiten enthält, auf die von Reddit-Posts mit mindestens drei Upvotes verlinkt wurde.

Im Fall von ChatGPT greift der KI-Bot also nicht direkt auf Ihre Webseiten zu und crawlt sie nicht – jedenfalls noch nicht. Obwohl OpenAIs Ankündigung eines von ChatGPT gehosteten Webbrowsers hat Bedenken geäußert, dass sich dies bald ändern könnte.

In der Zwischenzeit sollten Website-Besitzer andere KI-Chatbots im Auge behalten, da immer mehr davon auf den Markt kommen. Bard ist der andere große Name auf diesem Gebiet, über den nur sehr wenig bekannt ist die Datensätze, die zum Trainieren verwendet werden. Natürlich wissen wir, dass die Suchbots von Google ständig Webseiten crawlen, aber das bedeutet nicht unbedingt, dass Bard Zugriff auf dieselben Daten hat.

Warum sind einige Websitebesitzer besorgt?

Die größte Sorge für Websitebesitzer besteht darin, dass KI-Bots wie ChatGPT, Bard und Bing Chat ihre Inhalte entwerten. KI-Bots nutzen vorhandene Inhalte, um ihre Antworten zu generieren, reduzieren aber auch die Notwendigkeit für Benutzer, auf die Originalquelle zuzugreifen. Anstatt Websites zu besuchen, um auf Informationen zuzugreifen, können Benutzer einfach Google oder Bing bitten, eine Zusammenfassung der benötigten Informationen zu erstellen.

Wenn es um KI-Chatbots in der Suche geht, besteht die große Sorge der Websitebesitzer darin, Traffic zu verlieren. Im Fall von Bard, dem KI-Bot bezieht in seinen generativen Antworten selten Zitate ein, um Benutzern mitzuteilen, von welchen Seiten es seine Informationen bezieht.

Abgesehen davon, dass Bard Website-Besuche durch KI-Antworten ersetzt, eliminiert Bard nahezu jede Chance, dass die Quellwebsite Traffic erhält – selbst wenn der Benutzer mehr Informationen wünscht. Bing Chat hingegen enthält häufiger Links zu Informationsquellen.

Mit anderen Worten, die aktuelle Flotte generativer KI-Tools ist es Nutzung der Arbeit von Inhaltserstellern den Bedarf an Content-Erstellern systematisch zu ersetzen. Letztendlich muss man fragen Welchen Anreiz bietet dies für Websitebesitzer? um weiterhin Inhalte zu veröffentlichen. Und was passiert im weiteren Sinne mit KI-Bots, wenn Websites die Inhalte, auf die sie angewiesen sind, nicht mehr veröffentlichen?

So blockieren Sie KI-Bots von Ihrer Website

Wenn Sie nicht möchten, dass KI-Bots Ihre Webinhalte nutzen, können Sie ihnen den Zugriff auf Ihre Website mithilfe von blockieren robots.txt Datei. Leider muss man jeden einzelnen Bot blockieren und namentlich angeben.

Der Bot von Common Crawl heißt beispielsweise CCBot und Sie können ihn blockieren, indem Sie den folgenden Code zu Ihrer robots.txt-Datei hinzufügen:

Benutzeragent: CCBot
Nicht zulassen: /

Dadurch wird Common Crawl daran gehindert, Ihre Website in Zukunft zu crawlen, es werden jedoch keine Daten entfernt, die bereits bei früheren Crawls erfasst wurden.

Wenn Sie befürchten, dass die neuen Plugins von ChatGPT auf Ihre Webinhalte zugreifen könnten, hat OpenAI dies bereits veröffentlicht Anweisungen zum Blockieren seines Bots. In diesem Fall heißt der Bot von ChatGPT ChatGPT-User und Sie können ihn blockieren, indem Sie den folgenden Code zu Ihrer robots.txt-Datei hinzufügen:

Benutzeragent: ChatGPT-Benutzer
Nicht zulassen: /

Ein ganz anderes Problem ist es allerdings, zu verhindern, dass Suchmaschinen-KI-Bots Ihre Inhalte crawlen. Da Google die verwendeten Trainingsdaten streng geheim hält, ist es unmöglich herauszufinden, welche Bots Sie blockieren müssen und ob sie die Befehle in Ihrem Browser überhaupt respektieren robots.txt Datei (viele Crawler nicht).

Wie effektiv ist diese Methode?

Blockieren von KI-Bots in Ihrem robots.txt file ist derzeit die effektivste Methode, die jedoch nicht besonders zuverlässig ist.

Das erste Problem besteht darin, dass Sie jeden Bot angeben müssen, den Sie blockieren möchten, aber wer kann den Überblick über jeden KI-Bot behalten, der auf den Markt kommt? Das nächste Problem sind die Befehle in Ihrem robots.txt Datei sind unverbindliche Anweisungen. Während Common Crawl, ChatGPT und viele andere Bots diese Befehle respektieren, tun dies viele Bots nicht.

Die andere große Einschränkung besteht darin, dass Sie KI-Bots nur daran hindern können, zukünftige Crawls durchzuführen. Sie können keine Daten aus früheren Crawls entfernen oder Anfragen an Unternehmen wie OpenAI senden, alle Ihre Daten zu löschen.

Leider gibt es keine einfache Möglichkeit, den Zugriff aller KI-Bots auf Ihre Website zu blockieren, und es ist nahezu unmöglich, jeden einzelnen Bot manuell zu blockieren. Selbst wenn Sie mit den neuesten KI-Bots im Internet Schritt halten, gibt es keine Garantie dafür, dass sie alle die Befehle in Ihrem Browser befolgen robots.txt Datei.

Die eigentliche Frage hier ist, ob die Ergebnisse die Mühe wert sind, und die kurze Antwort lautet (mit ziemlicher Sicherheit) Nein.

Das Blockieren von KI-Bots auf Ihrer Website hat auch potenzielle Nachteile. Vor allem werden Sie keine aussagekräftigen Daten sammeln können, um nachzuweisen, ob Tools wie Bard Ihrer Suchmaschinenmarketing-Strategie nützen oder schaden.

Ja, Sie können davon ausgehen, dass ein Mangel an Zitaten schädlich ist, aber Sie raten nur, ob Ihnen die Daten fehlen, weil Sie KI-Bots daran gehindert haben, auf Ihre Inhalte zuzugreifen. Bei der Einführung von Google war es ähnlich Ausgewählte Ausschnitte suchen.

Bei relevanten Suchanfragen zeigt Google auf der Ergebnisseite einen Ausschnitt des Inhalts von Webseiten an und beantwortet so die Frage des Nutzers. Das bedeutet, dass Benutzer nicht zu einer Website durchklicken müssen, um die gesuchte Antwort zu erhalten. Dies löste Panik bei Websitebesitzern und SEO-Experten aus, die darauf angewiesen sind, Traffic aus Suchanfragen zu generieren.

Die Art von Suchanfragen, die Featured Snippets auslösen, sind jedoch im Allgemeinen Suchanfragen mit geringem Wert wie „Was ist X“ oder „Wie ist das Wetter in New York?“. Wer tiefergehende Informationen oder einen ausführlichen Wetterbericht möchte, klickt sich immer noch durch, und wer das nicht möchte, war von vornherein nie besonders wertvoll.

Möglicherweise ist es bei generativen KI-Tools ähnlich, aber Sie benötigen die Daten, um dies zu beweisen.

Überstürzen Sie nichts

Websitebesitzer und Herausgeber sind verständlicherweise besorgt über die KI-Technologie und frustriert über die Vorstellung, dass Bots ihre Inhalte nutzen, um sofortige Antworten zu generieren. Dies ist jedoch nicht der richtige Zeitpunkt für überstürzte Gegenoffensivmaßnahmen. Die KI-Technologie ist ein schnelllebiges Feld und die Dinge werden sich weiterhin rasant weiterentwickeln. Nutzen Sie diese Gelegenheit, um zu sehen, wie sich die Dinge entwickeln, und analysieren Sie die potenziellen Bedrohungen und Chancen, die KI mit sich bringt.

Das derzeitige System, bei dem man sich auf die Arbeit der Content-Ersteller verlässt, um sie zu ersetzen, ist nicht nachhaltig. Ob Unternehmen wie Google und OpenAI ihren Ansatz ändern oder Regierungen neue Vorschriften einführen, es muss etwas passieren. Gleichzeitig werden die negativen Auswirkungen von KI-Chatbots auf die Content-Erstellung immer deutlicher, die Website-Besitzer und Content-Ersteller zu ihrem Vorteil nutzen können.

About Technology - denizatm.com

So verhindern Sie, dass KI-Chatbots den Inhalt Ihrer Website crawlen

Wie greifen KI-Chatbots auf Ihre Webinhalte zu?

Warum sind einige Websitebesitzer besorgt?

So blockieren Sie KI-Bots von Ihrer Website

Wie effektiv ist diese Methode?

Überstürzen Sie nichts

Kategorien

Recent Post

10 Meinungsbildende politische Kommentatoren folgen auf Twitter während der US-Präsidentschaftswahlen 2012

Was ist ein Chromebook?

7 großartige Steampunk-Projekte mit einem Arduino