Vera möchte mithilfe von KI die schlimmsten Verhaltensweisen generativer Modelle ausmerzen


Liz O’Sullivan hat es sich zur Aufgabe gemacht, KI nach ihren eigenen Worten „ein bisschen sicherer“ zu machen.

Als Mitglied des National AI Advisory Committee, das Empfehlungen an das Weiße Haus und den Kongress zur Förderung der Einführung von KI bei gleichzeitiger Regulierung ihrer Risiken ausarbeitet, war O’Sullivan 12 Jahre lang auf der Geschäftsseite von KI-Startups tätig und überwachte die Datenkennzeichnung, den Betrieb und den Kundenerfolg . Im Jahr 2019 nahm sie eine Stelle beim Surveillance Technology Oversight Project an, wo sie Kampagnen zum Schutz der bürgerlichen Freiheiten der New Yorker durchführte, und war Mitbegründerin von Arthur AI, einem Startup, das mit der Zivilgesellschaft und der Wissenschaft zusammenarbeitet, um Licht in die „Black Box“ der KI zu bringen.

Jetzt bereitet sich O’Sullivan auf ihren nächsten Auftritt vor Veraein Startup, das ein Toolkit entwickelt, das es Unternehmen ermöglicht, „Richtlinien zur akzeptablen Nutzung“ für generative KI – die Art von KI-Modellen, die Text, Bilder, Musik und mehr generieren – festzulegen und diese Richtlinien über Open-Source- und benutzerdefinierte Modelle hinweg durchzusetzen.

Vera hat heute eine Finanzierungsrunde in Höhe von 2,7 Millionen US-Dollar unter der Leitung von Differential Venture Partners unter Beteiligung von Essence VC, Everywhere VC, Betaworks, Greycroft und ATP Ventures abgeschlossen. Laut O’Sullivan beläuft sich die Gesamteinnahme von Vera auf 3,3 Millionen US-Dollar. Das neue Geld soll in den Ausbau des fünfköpfigen Teams von Vera, in Forschung und Entwicklung sowie in die Skalierung von Unternehmenseinsätzen fließen, sagt O’Sullivan.

„Vera wurde gegründet, weil wir aus erster Hand gesehen haben, wie leistungsfähig die KI ist, um echte Probleme anzugehen, genauso wie wir gesehen haben, auf welche wilde und verrückte Weise sie Unternehmen, der Öffentlichkeit und der Welt Schaden zufügen kann“, sagte O’Sullivan TechCrunch in einem E-Mail-Interview. „Wir müssen diese Technologie verantwortungsvoll in die Welt tragen, und während Unternehmen darum kämpfen, ihre generativen KI-Strategien zu definieren, treten wir in ein Zeitalter ein, in dem es entscheidend ist, dass wir über die KI-Prinzipien hinaus in die Praxis übergehen. Vera ist ein Team, das tatsächlich helfen kann.

O’Sullivan gründete Vera im Jahr 2021 zusammen mit Justin Norman, ehemals Forschungswissenschaftler bei Cisco, leitender Datenwissenschaftler im KI-Forschungslabor von Cloudera und Vizepräsident für Datenwissenschaft bei Yelp. Im September wurde Norman zum Mitglied des Wissenschafts- und Technologieausschusses des Department of the Navy ernannt, der die US-Marine in Fragen und Richtlinien im Zusammenhang mit wissenschaftlichen, technischen und verwandten Funktionen berät und berät.

Die Plattform von Vera versucht, Risiken in Modelleingaben zu identifizieren – zum Beispiel eine Aufforderung wie „Schreiben Sie ein Anschreiben für eine Stelle als Softwareentwickler“ an ein textgenerierendes Modell – und blockiert, schwärzt oder anderweitig transformiert Anfragen, die Dinge wie personenbezogene Daten enthalten könnten , Sicherheitsdaten, geistiges Eigentum und Prompt-Injection-Angriffe. (Prompt-Injection-Angriffe, im Wesentlichen sorgfältig formulierte bösartige Eingabeaufforderungen, werden häufig verwendet, um Modelle dazu zu „tricksen“, Sicherheitsfilter zu umgehen.)

Laut O’Sullivan schränkt Vera auch ein, was Modelle als Reaktion auf Aufforderungen „sagen“ können, was Unternehmen eine größere Kontrolle über das Verhalten ihrer Modelle in der Produktion gibt.

Wie erreicht Vera das? Durch die Verwendung dessen, was O’Sullivan als „proprietäre Sprach- und Visionsmodelle“ beschreibt, die zwischen Benutzern und internen oder Drittanbietermodellen (z. B. GPT-4 von OpenAI) sitzen und problematische Inhalte erkennen. Vera kann „unangemessene“ Aufforderungen oder Antworten eines Models in jeder Form blockieren, behauptet O’Sullivan, sei es Text, Code, Bild oder Video.

„Unser Deep-Tech-Ansatz zur Durchsetzung von Richtlinien geht über passive Formen der Dokumentation und Checklisten hinaus, um die direkten Punkte anzugehen, an denen diese Risiken auftreten“, sagte O’Sullivan. „Unsere Lösung … verhindert riskantere Reaktionen, die kriminelles Material beinhalten oder Benutzer zur Selbstverletzung ermutigen könnten.“

Bei der Einführung generativer KI-Modelle für ihre Zwecke stehen Unternehmen sicherlich vor Herausforderungen – vor allem im Zusammenhang mit der Compliance. Sie befürchten, dass ihre vertraulichen Daten beispielsweise bei Entwicklern landen, die die Modelle anhand von Benutzerdaten trainiert haben. In den letzten Monaten haben große Unternehmen wie Apple, Walmart und Verizon ihren Mitarbeitern die Nutzung von Tools wie ChatGPT von OpenAI verboten.

Und anstößige Models sind offensichtlich schlecht für die Öffentlichkeit. Keine Marke möchte, dass das textgenerierende Modell, das ihren Kundenservice-Chatbot antreibt, beispielsweise rassistische Schimpfwörter von sich gibt oder selbstzerstörerische Ratschläge gibt.

Aber dieser Reporter fragt sich, ob Veras Ansatz so zuverlässig ist, wie O’Sullivan vermutet.

Kein Modell ist perfekt – nicht einmal das von Vera – und es hat sich immer wieder gezeigt, dass Modelle zur Inhaltsmoderation einer ganzen Reihe von Vorurteilen unterliegen. Einige KI-Modelle, die darauf trainiert sind, Toxizität in Texten zu erkennen, halten Phrasen im African-American Vernacular English, der von einigen schwarzen Amerikanern verwendeten informellen Grammatik, für unverhältnismäßig „toxisch“. Inzwischen gibt es bestimmte Computer-Vision-Algorithmen haben Es wurde festgestellt, dass Thermometer, die von Schwarzen gehalten werden, als „Waffen“ gekennzeichnet werden, während Thermometer, die von hellhäutigen Personen gehalten werden, als „elektronische Geräte“ gekennzeichnet werden.

Um O’Sullivan gegenüber fair zu sein, behauptet sie nicht, dass Veras Modelle kugelsicher seien – nur, dass sie die schlimmsten Verhaltensweisen generativer KI-Modelle ausmerzen können. Daran mag etwas Wahres dran sein (zumindest abhängig vom Modell) – und auch der Grad, in dem Vera ihre eigenen Modelle iteriert und verfeinert hat.

„Der heutige KI-Hype-Zyklus verschleiert die sehr ernsten, sehr gegenwärtigen Risiken, denen die heute lebenden Menschen ausgesetzt sind“, sagte O’Sullivan. „Wo KI zu viel verspricht, sehen wir, wie echte Menschen durch unvorhersehbares, schädliches, toxisches und potenziell kriminelles Modellverhalten verletzt werden … KI ist ein mächtiges Werkzeug und sollte wie jedes mächtige Werkzeug aktiv kontrolliert werden, damit sein Nutzen diese Risiken überwiegt, weshalb es Vera gibt.“ .“

Abgesehen von Veras möglichen Mängeln hat das Unternehmen Konkurrenz auf dem entstehenden Markt für Modellmoderationstechnologie.

Ähnlich wie Vera versuchen Nvidias NeMo Guardrails und Salesforces Einstein Trust Layer zu verhindern, dass textgenerierende Modelle sensible Daten wie Kundenbestellungen und Telefonnummern speichern oder wiedergeben. Microsoft stellt einen KI-Dienst zur Moderation von Text- und Bildinhalten, auch von Models, bereit. Andernorts entwickeln Startups wie HiddenLayer, DynamoFL und Protect AI Tools, um generative KI-Modelle gegen schnelle technische Angriffe zu verteidigen.

Soweit ich das beurteilen kann, besteht das Wertversprechen von Vera darin, dass es eine ganze Reihe generativer KI-Bedrohungen gleichzeitig bekämpft – oder zumindest verspricht. Vorausgesetzt, dass die Technologie wie beworben funktioniert, ist dies mit Sicherheit attraktiv für Unternehmen, die auf der Suche nach einem Komplettanbieter für Content-Moderation und KI-Modell-Angriffsbekämpfung sind.

Tatsächlich sagt O’Sullivan, dass Vera bereits eine Handvoll Kunden hat. Die Warteliste für weitere Personen wird heute eröffnet.

„CTOs, CISOs und CIOs auf der ganzen Welt kämpfen darum, die ideale Balance zwischen KI-gestützter Produktivität und den Risiken, die diese Modelle mit sich bringen, zu finden“, sagte O’Sullivan. „Vera erschließt generative KI-Funktionen mit Richtliniendurchsetzung, die nicht nur auf heutige Modelle, sondern auch auf zukünftige Modelle übertragen werden können, ohne die Anbieterbindung, die auftritt, wenn man sich für einen Ein-Modell- oder Einheitsansatz für generative KI entscheidet.“ .“

source-116

Leave a Reply