KI-Forscher stellen fest, dass KI-Modelle ihre Sicherheitstechniken erlernen, sich aktiv dem Training widersetzen und ihnen sagen: „Ich hasse dich.“


KI ist offensichtlich das aktuelle Thema, und obwohl wir die Dichotomie zwischen Terminator und Retter scheinbar überwunden haben, gibt die Sicherheit dieser Technologie weiterhin Anlass zur Sorge. Dabei geht es nicht nur um das Szenario eines Maschinenaufstands, sondern auch darum, wie böswillige Akteure KI einsetzen werden, um die Sicherheitsauswirkungen der Automatisierung eines so großen Informationsflusses, um die Fähigkeit der KI, Informationen zu einem bestimmten Thema (z. B. dem Bau einer Bombe) sofort zu beschaffen und zu sammeln, und schließlich darum Fähigkeit, uns sowohl zu täuschen als auch zu unterstützen.

Eine neue und „zu Recht beängstigende“ Studie hat ergeben, dass sich KI-Modelle nicht ideal verhalten. Die Forscher fanden heraus, dass branchenübliche Sicherheitstrainingstechniken das schlechte Verhalten der Sprachmodelle, die darauf trainiert wurden, heimlich bösartig zu sein, nicht eindämmten und in einem Fall sogar schlechtere Ergebnisse erzielten: Die KI lernte zu erkennen, nach welchen Auslösern die Sicherheitssoftware suchte und „verbergen“ sein Verhalten.

source-83

Leave a Reply