Lakera wird eingeführt, um große Sprachmodelle vor böswilligen Eingabeaufforderungen zu schützen


Große Sprachmodelle (LLMs) sind die treibende Kraft hinter der aufkeimenden generativen KI-Bewegung. Sie sind in der Lage, aus einfachen Eingabeaufforderungen Texte in menschlicher Sprache zu interpretieren und zu erstellen – das kann alles sein, von der Zusammenfassung eines Dokuments über das Verfassen eines Gedichts bis hin zur Beantwortung einer Frage mithilfe von Daten aus unzähligen Quellen .

Diese Aufforderungen können jedoch auch von böswilligen Akteuren manipuliert werden, um weitaus zweifelhaftere Ergebnisse zu erzielen, indem sie sogenannte „Prompt-Injection“-Techniken verwenden, bei denen eine Person sorgfältig gestaltete Textaufforderungen in einen LLM-gestützten Chatbot eingibt, um ihn dazu zu verleiten, unberechtigte Angaben zu machen B. den Zugriff auf Systeme oder die anderweitige Umgehung strenger Sicherheitsmaßnahmen durch den Benutzer.

Und vor diesem Hintergrund entstand das Schweizer Startup Lakera wird heute offiziell der Welt vorgestellt und verspricht, Unternehmen vor verschiedenen LLM-Sicherheitslücken wie sofortigen Injektionen und Datenlecks zu schützen. Parallel zum Start gab das Unternehmen auch bekannt, dass es Anfang des Jahres eine bisher nicht genannte Finanzierungsrunde in Höhe von 10 Millionen US-Dollar abgeschlossen hat.

Datenzauberei

Lakera hat eine Datenbank entwickelt, die Erkenntnisse aus verschiedenen Quellen enthält, darunter öffentlich verfügbare Open-Source-Datensätze, eigene interne Forschung und – interessanterweise – Daten aus einem interaktiven Spiel, das das Unternehmen Anfang des Jahres gestartet hat Gandalf.

Mit Gandalf werden Benutzer aufgefordert, das zugrunde liegende LLM durch sprachliche Tricks zu „hacken“ und zu versuchen, ein geheimes Passwort preiszugeben. Wenn der Benutzer dies schafft, gelangt er zum nächsten Level, wobei Gandalf mit jedem Level immer raffinierter darin wird, sich dagegen zu verteidigen.

Lakeras Gandalf

Lakeras Gandalf. Bildnachweis: TechCrunch

Basierend auf GPT3.5 von OpenAI und LLMs von Cohere und Anthropic scheint Gandalf – zumindest oberflächlich betrachtet – kaum mehr als ein unterhaltsames Spiel zu sein, das die Schwächen von LLMs aufzeigen soll. Dennoch werden die Erkenntnisse von Gandalf in das Flaggschiffprodukt des Startups, Lakera Guard, einfließen, das Unternehmen über eine API in ihre Anwendungen integrieren.

„Gandalf wird buchstäblich vom Sechsjährigen bis zu meiner Großmutter und allen dazwischen gespielt“, erklärte David Haber, CEO und Mitbegründer von Lakera, gegenüber TechCrunch. „Aber ein großer Teil der Leute, die dieses Spiel spielen, ist tatsächlich die Cybersicherheits-Community.“

Haber sagte, das Unternehmen habe in den letzten sechs Monaten rund 30 Millionen Interaktionen von einer Million Benutzern aufgezeichnet und könne so eine „Prompt-Injection-Taxonomie“ entwickeln, die Haber nennt und die Angriffsarten in zehn verschiedene Kategorien unterteilt. Dies sind: direkte Angriffe; Jailbreaks; Angriffe ausweichen; Multi-Prompt-Angriffe; Rollenspiel; Modelbetrug; Verschleierung (Token-Schmuggel); mehrsprachige Angriffe; und versehentlicher Kontextverlust.

Auf dieser Grundlage können die Kunden von Lakera ihre Eingaben im großen Maßstab mit diesen Strukturen vergleichen.

„Wir verwandeln sofortige Injektionen in statistische Strukturen – das ist letztendlich das, was wir tun“, sagte Haber.

Schnelle Injektionen sind jedoch nur eine der Cyber-Risikobranchen, auf die sich Lakera konzentriert, da das Unternehmen auch daran arbeitet, Unternehmen davor zu schützen, dass private oder vertrauliche Daten versehentlich in die Öffentlichkeit gelangen, und Inhalte moderiert, um sicherzustellen, dass LLMs nichts Unangemessenes anbieten für Kinder.

„Wenn es um Sicherheit geht, ist die Erkennung toxischer Sprache die beliebteste Funktion, nach der die Leute fragen“, sagte Haber. „Deshalb arbeiten wir mit einem großen Unternehmen zusammen, das generative KI-Anwendungen für Kinder bereitstellt, um sicherzustellen, dass diese Kinder keinen schädlichen Inhalten ausgesetzt werden.“

Lakera-Wache

Lakera-Wache. Bildnachweis: Lakera

Darüber hinaus geht Lakera auch auf LLM-bedingte Fehlinformationen oder sachliche Ungenauigkeiten ein. Laut Haber gibt es zwei Szenarien, in denen Lakera bei sogenannten „Halluzinationen“ helfen kann – wenn die Ausgabe des LLM den anfänglichen Systemanweisungen widerspricht und wenn die Ausgabe des Modells aufgrund von Referenzwissen sachlich falsch ist.

„In beiden Fällen stellen unsere Kunden Lakera den Kontext zur Verfügung, in dem das Modell interagiert, und wir stellen sicher, dass das Modell nicht außerhalb dieser Grenzen agiert“, sagte Haber.

Lakera ist also wirklich eine Mischung aus Sicherheit, Schutz und Datenschutz.

EU-KI-Gesetz

Da mit dem EU-KI-Gesetz die ersten großen KI-Vorschriften in Sicht sind, startet Lakera zum richtigen Zeitpunkt. Konkret konzentriert sich Artikel 28b des EU-KI-Gesetzes auf die Absicherung generativer KI-Modelle, indem er LLM-Anbietern gesetzliche Anforderungen auferlegt, sie verpflichtet, Risiken zu erkennen und entsprechende Maßnahmen zu ergreifen.

Tatsächlich waren Haber und seine beiden Mitbegründer in beratender Funktion für das Gesetz tätig und halfen dabei, einige der technischen Grundlagen vor der Einführung zu legen – die irgendwann in den nächsten ein oder zwei Jahren erwartet wird.

„Es gibt einige Unsicherheiten darüber, wie generative KI-Modelle im Gegensatz zum Rest der KI tatsächlich reguliert werden sollen“, sagte Haber. „Wir sehen, dass der technologische Fortschritt viel schneller voranschreitet als die Regulierungslandschaft, die sehr herausfordernd ist. Unsere Rolle in diesen Gesprächen besteht darin, die Perspektiven der Entwickler zu teilen, denn wir möchten die politische Entscheidungsfindung durch ein Verständnis dafür ergänzen, was diese regulatorischen Anforderungen tatsächlich für die Menschen in den Schützengräben bedeuten, in die sie diese Modelle bringen Produktion?”

Lakera-Gründer: CEO David Haber flankiert von CPO Matthias Kraft (links) und CTO Mateo Rojas-Carulla. Bildnachweis: Lakera

Der Sicherheitsblocker

Das Fazit ist, dass ChatGPT und seinesgleichen zwar in den letzten neun Monaten die Welt im Sturm erobert haben wie kaum eine andere Technologie in jüngster Zeit, Unternehmen jedoch aus Sicherheitsgründen möglicherweise eher zurückhaltend bei der Einführung generativer KI in ihren Anwendungen sind.

„Wir sprechen mit einigen der coolsten Startups und einigen der weltweit führenden Unternehmen – entweder haben sie diese bereits [generative AI apps] „Sie sind entweder in Produktion, oder sie blicken auf die nächsten drei bis sechs Monate“, sagte Haber. „Und wir arbeiten bereits hinter den Kulissen mit ihnen zusammen, um sicherzustellen, dass sie dies problemlos umsetzen können. Bei vielen davon ist die Sicherheit ein großes Hindernis [companies] um ihre generativen KI-Apps in die Produktion zu bringen, und hier kommen wir ins Spiel.“

Das 2021 in Zürich gegründete Unternehmen Lakera behauptet bereits, zahlende Großkunden zu haben, deren Namen das Unternehmen aufgrund der Sicherheitsrisiken, die sich aus der Offenlegung von zu viel über die Art der von ihnen verwendeten Schutztools ergeben, nicht überprüfen kann. Das Unternehmen hat jedoch bestätigt, dass der LLM-Entwickler Cohere – ein Unternehmen, das kürzlich eine Bewertung von 2 Milliarden US-Dollar erreichte – neben einer „führenden Enterprise-Cloud-Plattform“ und „einem der weltweit größten Cloud-Speicherdienste“ ein Kunde ist.

Mit 10 Millionen US-Dollar auf der Bank ist das Unternehmen ziemlich gut finanziert, um seine Plattform auszubauen, nachdem sie nun offiziell gemeinfrei ist.

„Wir wollen dabei sein, wenn Menschen generative KI in ihre Stacks integrieren, um sicherzustellen, dass diese sicher sind und die Risiken gemindert werden“, sagte Haber. „Deshalb werden wir das Produkt basierend auf der Bedrohungslandschaft weiterentwickeln.“

Die Investition von Lakera wurde von Swiss VC geleitet Redalpinemit zusätzlichem Kapital bereitgestellt von Fly Ventures, Inovia Capital und mehreren Angel-Investoren.

source-116

Leave a Reply