Webseite für KI-Crawling unterbinden
Künstliche Intelligenzmodelle wie Bard, aber auch ChatGPT speisen die Informationen, die sie verarbeiten, aus der Vielzahl an Webseiten, die im Internet öffentlich zugänglich sind. Ohne diese riesige Datenmenge könnten die KI-Softwares nicht so gute Ergebnisse liefern. Nicht jedem Webseitenbetreiber gefällt das auch, wenn sein Content für die profitorientierte Nutzung durch KIs verwendet wird. Tatsächlich gibt es glücklicherweise Wege, um den KI-Crawlern das Durchsuchen der Webseite und damit auch das Nutzen der Inhalte zu verbieten.
Google gesteht Webseiten Privatsphäre zu
Neben den immer zahlreicheren Playern, die KI-Softwares anbieten, hat auch der Suchmaschinengigant Google seine eigenen KI-Modelle namens Bard und Vertex AI ausgerollt. Während Bard als sprachbasierte KI mit ChatGPT vergleichbar ist, handelt es sich bei Vertex AI um eine leistungsfähige Machine-Learning Software. Beide Softwares beziehen ihre Informationen aus den Webseiten im Internet. Google will den Webseitenbetreibern jedoch auch ein gewisses Maß an Privatsphäre hinsichtlich des KI Crawlings zugestehen. Daher hat Google vor einiger Zeit eine Methode vorgestellt, mit der Webseitenbetreiber dem Crawler anzeigen können, dass ihr Content nicht für KI-Systeme genutzt werden soll.
KI aussperren in der robots.txt-Datei
Der sogenannte Disallow-Parameter wird über die Datei robots.txt eingerichtet. Mit einer entsprechenden Regelung weiß Googles Crawler Bescheid, dass die Informationen auf der Webseite nur für die reguläre Suchindexierung herangezogen werden sollen, nicht aber für das Training von KI-Modellen. Auf diese Weise will Google Webmastern die Kontrolle über ihre Inhalte geben. Auch für andere KI-Systeme wie ChatGPT können Disallow-Parameter in der Datei robots.txt hinterlegt werden. In letzter Zeit wurde bekannt, dass vor allem News-Magazine und Onlinezeitungen das Crawling kritisch sehen und dieses daher unterbinden. Kürzlich wurde bekannt, dass die mächtige New York Times sogar eine gerichtliche Klage anstrengen möchte, da die Zeitung vermutet, dass KI-Anbieter auf Kosten der NYT Profit aus den unzähligen Zeitungsbeiträgen schlagen, die online zur Verfügung stehen.
Sie wollen die volle Kontrolle über Ihre Webseiteninhalte behalten und Ihre Webseiten-Einstellungen hinsichtlich KI-Crawling überprüfen? Kontaktieren Sie uns gleich für einen kostenlosen Beratungstermin dazu.