Halluzinationen bei RAG Chatbots

Immer wieder erreichen uns Anfragen, wie gross das Risiko von Halluzinationen bei Chatbots mit dem «Retrieval Augmented Generation»-Verfahren ist. Das ist ein sehr wichtiges Thema und zentral für die öffentliche Wahrnehmung des Chatbots.

Ich versuche, hier so umfassend wie möglich Auskunft zu geben. Ich denke, es ist sinnvoll, zwischen

«normalen» Halluzinationen, also falschen, aber nicht anstössigen Informationen (z.B. Angabe einer nicht existierenden E-Mail-Adresse) und
besonders folgenschweren Halluzinationen zu unterscheiden.

Für letztere gibt es einige Beispiele:

Medienwirksam bekannt geworden sind Antworten der von Google getesteten KI-Zusammenfassung für Suchergebnisse. Hier wurde etwa einem Nutzer geraten, bei Depressionen von einer Brücke zu springen.

Neben diesem KI-Tool ist insbesondere ein Chatbot der österreichischen Arbeitsagentur zu nennen, der sexistische Jobempfehlungen abgab, also Frauen bei gleicher Anfrage im Übrigen geringer qualifizierte und bezahlte Jobs empfahl.

Weniger gesellschaftlich problematisch, aber in jedem Fall trotzdem zu vermeiden ist der Fall eines Autoherstellers, dessen Kundensupport-Bot auf eine manipulativ formulierte Anfrage einen Kaufvertrag über einen Neuwagen für 1 $ abschloss bzw. dies zumindest versuchte.

Für die von uns erstellten Chatbots ist es wichtig, hier jeweils die Ursachen zu beleuchten. Das Problem der Google KI-Zusammenfassung war, dass sie als faktische Grundlage die Suchergebnisse nutzte. Dabei schaffte es das Sprachmodell nicht, Witze, ironische Antworten und beleidigende Beiträge von seriösen Quellen zu unterscheiden. Er reproduzierte so im betreffenden Fall die Antwort eines Nutzers auf Reddit. Dieses Problem stellt sich nicht, wenn wir die einzubindenden Quellen eingrenzen und kontrollieren. Diese Quelle besonders folgenschwerer Halluzinationen fällt also weg.

Der österreichische Bot wurde entweder mittels «Fine Tuning» angepasst oder nutzte ebenfalls «Retrieval Augemented Generation». Auch hier sind die bereitgestellten Daten wohl das Problem, indem Stereotypen aus den bereitgestellten Informationen durch den Bot reproduziert wurden. Auch dieses Problem stellt sich bei einem durch uns erstellten Bot voraussichtlich nicht, wenn wir als Datengrundlage keinen stereotypen Content nutzen. Solange die Website und die zusätzlichen Dokumente nicht sexistisch sind, ist es auch der Bot jedenfalls nicht mehr als ChatGPT selbst. Auch hier entfällt eine Quelle besonders folgenschwerer Halluzinationen. Die Kontrolle etwa der Website auf Stereotype ist unabhängig von der Einbindung in einen Chatbot eine wichtige Aufgabe des Betreibers.

Durch den Systemprompt, einen Quellen-Check sowie die Nutzung der aktuellsten Modelle des Marktführers OpenAI ergreifen wir mehrere Massnahmen, um Halluzinationen zu vermeiden. Trotzdem können diese nicht ausgeschlossen werden. Es kann in diesem Zusammenhang auch vorkommen, dass der Chatbot die Frage völlig unabhängig von den bereitgestellten Quellen so beantwortet, wie es das gewöhnliche ChatGPT (mit demselben Systemprompt) tun würde. In diesem Fall besteht das abstrakte Risiko einer besonders folgenschweren Halluzination, weil ein Sprachmodell theoretisch jede erdenkliche Tokenfolge antworten könnte.

Eine derartige Halluzination ist aber bei einer «ehrlichen», auf Information abzielenden Anfrage sehr unwahrscheinlich. ChatGPT hat sehr ausgeprägte sogenannte Guardrails, wird also stark darauf trainiert, keine anstössigen Antworten zu geben. Selbst wenn ein Nutzer – aus welchem Grund auch immer – gerade an einen Chatbot wie «Frag den Onlinekommentar» Anfragen zum Thema Suizid richtet, ist der Bot darauf trainiert, hierauf entweder nicht zu antworten oder sich im Fall einer inhaltlichen Antwort politisch korrekt zu äussern. Das Risiko ist also insoweit ähnlich wie das von OpenAI, diesbezüglich sind mir entsprechende Skandale bei «ehrlichen» Anfragen bislang nicht bekannt.

Etwas anders stellt sich die Situation im Fall einer sogenannten «Prompt Injection» dar. Hier formulieren Nutzer gezielt, oft über viele Versuche mit jeweils leichten Anpassungen, die Anfrage so, dass der Chatbot 1. sein Training und/oder 2. den Systemprompt nicht beachtet. Genau das ist im Autokauf-Beispiel geschehen.

Von uns erstellte Chatbots wurden in der Vergangenheit auch schon dazu bewegt, Themen der Physik zu erklären, obwohl dies aus den Quellen nicht hervorging (konkretes Beispiel beim Frag den Onlinekommentar). Es ist grundsätzlich möglich, dass Nutzer, die es darauf anlegen, z.B. auch Antworten zum Thema Suizid aus dem Chatbot «herauskitzeln» könnten.

Ich denke aber, solche Vorgänge stellen sich aus PR-Perspektive völlig anders dar als etwa der Fall der Google KI-Zusammenfassung. Hier kann man etwa die Nutzeranfrage veröffentlichen und auf den gezielten Missbrauch hinweisen. Wichtig ist aus meiner Sicht, dass Nutzer nicht versehentlich bei «ehrlicher» Nutzung mit unangemessenen Antworten konfrontiert werden. Hier sind wir aus meiner Sicht mit den genannten Massnahmen bereits gut aufgestellt, auch wenn das abstrakte Risiko aus technischen Gründen nicht ausgeschlossen werden kann.

Jan Nicklaus