Anthropic erklärt, wie Claudes KI-Verfassung ihn vor gegnerischen Eingaben schützt


Es ist überhaupt nicht schwer, die heutigen Chatbots dazu zu bringen, Tabuthemen zu diskutieren, bigotte Inhalte wiederzugeben und Fehlinformationen zu verbreiten. Aus diesem Grund hat der KI-Pionier Anthropic seine generative KI Claude mit einer Mischung aus 10 geheimen Fairnessprinzipien ausgestattet, die er im März enthüllte. In einem Blogbeitrag am Dienstag erläuterte das Unternehmen weiter, wie sein Constitutional-KI-System konzipiert ist und wie es funktionieren soll.

Wenn ein generatives KI-Modell trainiert wird, ist normalerweise ein Mensch beteiligt, der für die Qualitätskontrolle und das Feedback zu den Ergebnissen sorgt – etwa wenn ChatGPT oder Bard Sie auffordern, Ihre Gespräche mit ihren Systemen zu bewerten. „Für uns bedeutete dies, dass menschliche Auftragnehmer zwei Antworten verglichen“, schrieb das Anthropic-Team. „Wählen Sie aus einem Modell das Modell aus, das ihrer Meinung nach nach einem bestimmten Prinzip besser ist (z. B. das Modell, das hilfreicher oder harmloser ist).“

Das Problem bei dieser Methode besteht darin, dass ein Mensch auch über die wirklich schrecklichen und verstörenden Ergebnisse auf dem Laufenden sein muss. Niemand muss das sehen, noch weniger müssen es sehen 1,50 $ pro Stunde von Meta erhalten um das zu sehen. Auch bei der Skalierung ist die Methode des menschlichen Beraters schlecht, da einfach nicht genug Zeit und Ressourcen dafür vorhanden sind. Deshalb macht Anthropic es mit einer anderen KI.

So wie Pinocchio Jiminy Cricket hatte, hatte Luke Yoda und Jim hatte ShartClaude hat seine Verfassung. „Auf hoher Ebene leitet die Verfassung das Modell an, das beschriebene normative Verhalten anzunehmen [therein]„, erklärte das Anthropic-Team, ob es dabei darum geht, „toxische oder diskriminierende Ergebnisse zu vermeiden, zu vermeiden, einem Menschen bei illegalen oder unethischen Aktivitäten zu helfen, und im Großen und Ganzen ein KI-System zu schaffen, das ‚hilfreich, ehrlich und harmlos‘ ist.“

Laut Anthropic kann diese Trainingsmethode Erfolge erzielen Pareto-Verbesserungen in der späteren Leistung der KI im Vergleich zu einer KI, die nur auf menschliches Feedback trainiert wurde. Im Wesentlichen wurde der Mensch im Kreislauf durch eine KI ersetzt und jetzt ist angeblich alles besser als je zuvor. „In unseren Tests reagierte unser CAI-Modell angemessener auf gegnerische Eingaben, lieferte aber dennoch hilfreiche Antworten und war nicht ausweichend“, schrieb Anthropic. „Das Modell erhielt keine menschlichen Daten zur Unbedenklichkeit, was bedeutet, dass alle Ergebnisse zur Unbedenklichkeit ausschließlich aus der KI-Überwachung stammten.“

Das Unternehmen gab am Dienstag bekannt, dass seine bisher nicht veröffentlichten Prinzipien aus „einer Reihe von Quellen, darunter der UN-Erklärung der Menschenrechte, Best Practices für Vertrauen und Sicherheit, von anderen KI-Forschungslabors vorgeschlagenen Prinzipien, einem Versuch, nicht-westliche Perspektiven zu erfassen, usw.“ stammen Prinzipien, von denen wir durch unsere Forschung herausgefunden haben, dass sie gut funktionieren.“

Das Unternehmen ging der unveränderlichen Gegenreaktion der Konservativen bewusst zuvor und betonte, dass „unsere aktuelle Verfassung weder endgültig noch wahrscheinlich die beste ist, die sie sein kann“.

„Viele Leute haben kritisiert, dass KI-Modelle trainiert werden, um einen bestimmten Standpunkt oder eine bestimmte politische Ideologie widerzuspiegeln, normalerweise eine, mit der der Kritiker nicht einverstanden ist“, schrieb das Team. „Aus unserer Sicht besteht unser langfristiges Ziel nicht darin, unsere Systeme so zu gestalten, dass sie eine Zukunft darstellen Spezifisch Ideologie, sondern um einer folgen zu können gegeben Reihe von Grundsätzen.“

Alle von Engadget empfohlenen Produkte werden von unserem Redaktionsteam unabhängig von unserer Muttergesellschaft ausgewählt. Einige unserer Geschichten enthalten Affiliate-Links. Wenn Sie über einen dieser Links etwas kaufen, erhalten wir möglicherweise eine Affiliate-Provision. Alle Preise gelten zum Zeitpunkt der Veröffentlichung.

source-115

Leave a Reply