GPTBot ist wahrscheinlich nicht das, was Sie denken.

Die zentralen Thesen

  • GPTBot von OpenAI ist ein Webcrawler, der Daten von öffentlichen Websites sammelt, die dann zum Trainieren und Verbessern von KI-Modellen wie GPT-4 und ChatGPT verwendet werden.
  • Einige der größten Websites im Internet blockieren GPTBot, weil es ohne Erlaubnis oder Entschädigung der Ersteller auf urheberrechtlich geschützte Inhalte zugreift und diese verwendet.
  • Während Websites mithilfe von Tools wie robots.txt versuchen können, GPTBot zu blockieren, gibt es keine Garantie dafür, dass OpenAI die Vorschriften einhält und ihnen die Kontrolle über den Zugriff auf urheberrechtlich geschützte Daten gibt.

Im August 2023 kündigte OpenAI, das KI-Kraftpaket, dem die Entwicklung von ChatGPT zugeschrieben wird, GPTBot an, einen Webcrawler, der das Web durchqueren und Daten sammeln soll.

Nicht lange nach dieser Ankündigung blockierten einige der größten Websites im Internet den Zugriff des Bots auf ihre Website. Aber warum? Was ist der GPTBot von OpenAI? Warum haben die großen Websites Angst davor und warum versuchen sie, es zu blockieren?

instagram viewer

Was ist der GPTBot von OpenAI?

GPTBot ist ein von OpenAI entwickelter Webcrawler, der das Internet durchsucht und Informationen für die KI-Entwicklungsziele von OpenAI sammelt. Es ist so programmiert, dass es öffentliche Websites crawlt und die Daten an die Server von OpenAI zurücksendet. OpenAI nutzt diese Daten dann, um seine KI-Modelle zu trainieren und zu verbessern, mit dem Ziel, immer fortschrittlichere Systeme der künstlichen Intelligenz aufzubauen. Um anspruchsvolle KI-Modelle wie GPT-4 oder seine untergeordneten Produkte wie ChatGPT zu erstellen, sind Webcrawler nahezu unverzichtbar.

Das Training eines KI-Modells erfordert eine enorme Datenmenge, und eine der effektivsten Möglichkeiten, diese Daten zu sammeln, ist der Einsatz von Tools wie Webcrawlern. Crawler können das Internet systematisch durchsuchen, Links folgen, um große Mengen an Webseiten zu indizieren, und Schlüsseldaten wie Text, Bilder und Metadaten extrahieren, die einem vordefinierten Muster entsprechen.

Diese Daten können dann strukturiert und in KI-Modelle eingespeist werden, um deren Fähigkeiten zur Verarbeitung natürlicher Sprache oder zur Bilderzeugung zu trainieren oder sie für andere KI-Aufgaben zu trainieren. Mit anderen Worten: Webcrawler sammeln die Daten, die es Tools wie ChatGPT oder DALL-E ermöglichen, das zu tun, was sie tun.

Webcrawler sind kein neues Konzept. Es gibt wahrscheinlich Millionen von ihnen, die die Milliarden von Websites durchsuchen, die heute im Internet verfügbar sind. Und es gibt sie mindestens seit den frühen 90ern. GPTBot ist nur einer dieser Crawler im Besitz von OpenAI. Was verursacht also die Kontroverse um diesen speziellen Webcrawler?

Warum blockieren große Tech-Sites GPTBot?

Entsprechend GeschäftseingeweihterEinige der größten Websites im Internet blockieren aktiv den Crawler von OpenAI auf ihrer Website. Wenn also das ultimative Ziel von GPTBot darin besteht, die KI-Entwicklung voranzutreiben, warum sind dann einige der größten Websites im Internet, von denen einige auf die eine oder andere Weise von KI profitiert haben, dagegen?

Nun, hier ist die Sache. Seit dem Wiederaufleben generativer KI-Technologien im Jahr 2022 gibt es zahlreiche Debatten über das Recht von KI-Unternehmen darauf Daten aus dem Internet nutzen, von denen ein erheblicher Teil gesetzlich geschützt ist Urheberrechte ©. Es gibt keine klaren Gesetze, die regeln, wie diese Unternehmen Daten zu ihrem eigenen Vorteil sammeln und nutzen.

Im Grunde genommen crawlen Crawler wie GPTBot das Web und greifen auf die kreative Arbeit von Menschen in Form von Texten, Bildern oder anderen Formen zurück Medien zu kopieren und für kommerzielle Zwecke zu nutzen, ohne eine Erlaubnis, Lizenz oder Vergütung für das Original einzuholen Schöpfer.

Es herrscht ein wilder Westen da draußen, und KI-Unternehmen schnappen sich alles, was sie in die Finger bekommen. Große Websites wie Quora, CNN, die New York Times, Business Insider und Amazon sind nicht sehr erfreut darüber Diese Crawler sammeln urheberrechtlich geschützte Inhalte, sodass OpenAI daraus einen finanziellen Nutzen ziehen kann Aufwand.

Aus diesem Grund setzen diese Websites „robots.txt“ ein, eine jahrzehntealte Methode zum Blockieren von Webcrawlern. Entsprechend OpenAI, GPTBot befolgt Anweisungen zum Crawlen oder Vermeiden des Crawlens von Websites basierend auf den in robots.txt eingebetteten Regeln, einer kleinen Textdatei, die Webcrawlern sagt, wie sie sich auf einer Website verhalten sollen. Wenn Sie über eine eigene Website verfügen und verhindern möchten, dass GPTBot Ihre Daten erfasst, können Sie dies wie folgt tun Blockieren Sie, dass die Crawler von OpenAI Ihre Website durchsuchen.

Können Websites GPTBot wirklich stoppen?

Während Crawler wie GPTBot unverzichtbar sind, um die riesigen Datenmengen zu sammeln, die dafür erforderlich sind Wenn wir fortgeschrittene KI-Systeme trainieren, gibt es berechtigte Bedenken hinsichtlich des Urheberrechts und der fairen Nutzung, die nicht zulässig sind ignoriert.

Natürlich gibt es einfache Tools wie robots.txt, mit denen man sich davor schützen kann, aber ob GPTBot die Anweisungen in dieser Datei befolgt, liegt ganz im Ermessen von OpenAI. Es gibt keine Garantie dafür, dass sie dies tun werden, und es gibt keine narrensichere Möglichkeit, sofort festzustellen, ob sie dies getan haben. Im Kampf, GPTBot von urheberrechtlich geschützten Daten fernzuhalten, hat OpenAI zumindest vorerst die Nase vorn.