Menschen und KI bevorzugen oft kriecherische Chatbot-Antworten gegenüber der Wahrheit – Studieren

Laut einer Studie von Anthropic neigen große Sprachmodelle (LLMs) mit künstlicher Intelligenz (KI), die auf einem der gängigsten Lernparadigmen basieren, dazu, den Menschen zu sagen, was sie hören möchten, anstatt Ausgaben zu generieren, die die Wahrheit enthalten.

In einer der ersten Studien, die sich eingehend mit der Psychologie von LLMs befassten, haben Forscher von Anthropic dies getan bestimmt dass sowohl Menschen als auch KI zumindest zeitweise sogenannte kriecherische Reaktionen gegenüber wahrheitsgemäßen Aussagen bevorzugen.

Laut der Forschungsarbeit des Teams:

„Konkret zeigen wir, dass diese KI-Assistenten häufig fälschlicherweise Fehler zugeben, wenn sie vom Benutzer befragt werden, vorhersehbar voreingenommenes Feedback geben und Fehler des Benutzers nachahmen. Die Konsistenz dieser empirischen Ergebnisse legt nahe, dass Speichelleckerei tatsächlich eine Eigenschaft der Art und Weise sein könnte, wie RLHF-Modelle trainiert werden.“

Im Wesentlichen weist das Papier darauf hin, dass selbst die robustesten KI-Modelle etwas verwaschen sind. Während der Forschung gelang es dem Team immer wieder, die KI-Ausgaben subtil zu beeinflussen, indem es Aufforderungen mit einer Sprache formulierte, die Speichelleckerei hervorrief.

Im obigen Beispiel, das einem Beitrag auf Möglicherweise aufgrund der Art und Weise, wie die Aufforderung formuliert wurde, halluziniert die KI eine unwahre Antwort, was ein klarer Fall von Speichelleckerei zu sein scheint.

Ein weiteres Beispiel aus dem Artikel, das im Bild unten gezeigt wird, zeigt, dass ein Benutzer, der mit einer Ausgabe der KI nicht einverstanden ist, sofort zu Speichelleckereien führen kann, da das Modell seine richtige Antwort mit minimaler Aufforderung in eine falsche ändert.

Beispiele für kriecherische Antworten als Reaktion auf menschliches Feedback. Quelle: Sharma et. al., 2023.

Letztendlich kam das Anthropic-Team zu dem Schluss, dass das Problem möglicherweise auf die Art und Weise zurückzuführen ist, wie LLMs trainiert werden. Da sie Datensätze voller Informationen unterschiedlicher Genauigkeit verwenden – z. B. Beiträge in sozialen Medien und Internetforen – erfolgt die Ausrichtung oft durch eine Technik namens „Reinforcement Learning from Human Feedback“ (RLHF).

Im RLHF-Paradigma interagieren Menschen mit Modellen, um ihre Präferenzen abzustimmen. Dies ist beispielsweise nützlich, wenn Sie festlegen möchten, wie eine Maschine auf Eingabeaufforderungen reagiert, die potenziell schädliche Ausgaben wie personenbezogene Daten oder gefährliche Fehlinformationen hervorrufen könnten.

Unglücklicherweise neigen, wie die Forschung von Anthropic empirisch zeigt, sowohl Menschen als auch KI-Modelle, die zur Abstimmung von Benutzerpräferenzen entwickelt wurden, zumindest in einem „nicht zu vernachlässigenden“ Teil der Zeit dazu, kriecherische Antworten gegenüber wahrheitsgemäßen Antworten zu bevorzugen.

Derzeit scheint es kein Gegenmittel für dieses Problem zu geben. Anthropic schlug vor, dass diese Arbeit „die Entwicklung von Trainingsmethoden anregen sollte, die über die Verwendung von menschlichen Bewertungen ohne fremde Hilfe und ohne Experten hinausgehen“.

Dies stellt eine offene Herausforderung für die KI-Community dar, da einige der größten Modelle, darunter ChatGPT von OpenAI, durch den Einsatz großer Gruppen nicht fachkundiger menschlicher Arbeitskräfte zur Bereitstellung von RLHF entwickelt wurden.