Meta veröffentlicht die KI-Sicherheitssuite „Purple Llama“, um Verpflichtungen des Weißen Hauses zu erfüllen

Meta hat am 7. Dezember eine Reihe von Tools zur Sicherung und zum Benchmarking von Modellen generativer künstlicher Intelligenz (KI) veröffentlicht.

Das Toolkit mit dem Namen „Purple Llama“ soll Entwicklern dabei helfen, sicher mit generativen KI-Tools wie dem Open-Source-Modell Llama-2 von Meta zu bauen.

KI-Lila-Teaming

Laut einem Blogbeitrag von Meta ist der „Purple“-Teil von „Purple Llama“ verweist zu einer Kombination aus „Red Teaming“ und „Blue Teaming“.

Red Teaming ist ein Paradigma, bei dem Entwickler oder interne Tester ein KI-Modell absichtlich angreifen, um zu sehen, ob es Fehler, Störungen oder unerwünschte Ausgaben und Interaktionen erzeugen kann. Dadurch können Entwickler Resilienzstrategien gegen böswillige Angriffe entwickeln und sich vor Sicherheitsmängeln schützen.

Blue Teaming hingegen ist so ziemlich das genaue Gegenteil. Hier reagieren Entwickler oder Tester auf Red-Teaming-Angriffe, um die Abhilfestrategien zu ermitteln, die zur Bekämpfung tatsächlicher Bedrohungen in Produktions-, Verbraucher- oder Kundenmodellen erforderlich sind.

Pro Meta:

„Wir glauben, dass wir sowohl eine Angriffshaltung (rotes Team) als auch eine defensive Haltung (blaues Team) einnehmen müssen, um die Herausforderungen, die generative KI mit sich bringt, wirklich zu bewältigen. Purple Teaming, bestehend aus Verantwortlichkeiten des roten und blauen Teams, ist ein kollaborativer Ansatz zur Bewertung und Minderung potenzieller Risiken.“

Modelle schützen

Die Veröffentlichung, von der Meta behauptet, sie sei die „erste branchenweite Reihe von Cybersicherheitsbewertungen für Large Language Models (LLMs)“, umfasst:

  • Metriken zur Quantifizierung des LLM-Cybersicherheitsrisikos
  • Tools zur Bewertung der Häufigkeit unsicherer Codevorschläge
  • Tools zur Bewertung von LLMs, um die Generierung von Schadcode zu erschweren oder bei der Durchführung von Cyberangriffen zu helfen.

Die große Idee besteht darin, das System in Modellpipelines zu integrieren, um unerwünschte Ausgaben und unsicheren Code zu reduzieren und gleichzeitig den Nutzen von Modell-Exploits für Cyberkriminelle und böswillige Akteure zu begrenzen.

„Mit dieser ersten Veröffentlichung“, schreibt das Meta AI-Team, „zielen wir darauf ab, Tools bereitzustellen, die dabei helfen, die in den Verpflichtungen des Weißen Hauses dargelegten Risiken anzugehen.“

Verwandt: Die Biden-Regierung erlässt eine Durchführungsverordnung für neue KI-Sicherheitsstandards


source site-1

Leave a Reply