DatologyAI entwickelt Technologien zur automatischen Kuratierung von KI-Trainingsdatensätzen


Riesige Trainingsdatensätze sind das Tor zu leistungsstarken KI-Modellen – aber oft auch der Untergang dieser Modelle.

Vorurteile entstehen durch voreingenommene Muster, die in großen Datensätzen verborgen sind, wie etwa Bilder von überwiegend weißen CEOs in einem Bildklassifizierungssatz. Und große Datensätze können chaotisch sein und in Formaten vorliegen, die für ein Modell unverständlich sind – Formate, die viel Rauschen und irrelevante Informationen enthalten.

In einem aktuellen Deloitte Umfrage 40 % der Unternehmen, die KI einführen, gaben an, dass datenbezogene Herausforderungen – darunter die gründliche Aufbereitung und Bereinigung von Daten – zu den größten Bedenken gehörten, die ihre KI-Initiativen behinderten. Ein separates Umfrage der Datenwissenschaftler haben herausgefunden, dass etwa 45 % ihrer Zeit mit Datenvorbereitungsaufgaben wie dem „Laden“ und Bereinigen von Daten verbracht werden.

Ari Morcos, der seit fast einem Jahrzehnt in der KI-Branche tätig ist, möchte viele der Datenvorbereitungsprozesse rund um das KI-Modelltraining abstrahieren – und hat zu diesem Zweck ein Startup gegründet.

Morcos’ Unternehmen, DatologieAI, erstellt Tools zur automatischen Kuratierung von Datensätzen, wie sie zum Trainieren von OpenAIs ChatGPT, Googles Gemini und anderen ähnlichen GenAI-Modellen verwendet werden. Die Plattform kann je nach Modellanwendung (z. B. Schreiben von E-Mails) erkennen, welche Daten am wichtigsten sind, behauptet Morcos. Darüber hinaus kann sie herausfinden, wie der Datensatz um zusätzliche Daten erweitert werden kann und wie er während des Vorgangs gestapelt oder in überschaubarere Abschnitte aufgeteilt werden sollte Modelltraining.

„Modelle sind das, was sie essen – Modelle spiegeln die Daten wider, auf denen sie trainiert werden“, sagte Morcos gegenüber TechCrunch in einem E-Mail-Interview. „Allerdings sind nicht alle Daten gleich und einige Trainingsdaten sind wesentlich nützlicher als andere. Das Training von Modellen mit den richtigen Daten auf die richtige Art und Weise kann einen dramatischen Einfluss auf das resultierende Modell haben.“

Morcos, der in Harvard in Neurowissenschaften promoviert hat, verbrachte zwei Jahre bei DeepMind mit der Anwendung neurologisch inspirierter Techniken, um KI-Modelle zu verstehen und zu verbessern, und fünf Jahre im KI-Labor von Meta, wo er einige der grundlegenden Mechanismen aufdeckte, die den Funktionen von Modellen zugrunde liegen. Zusammen mit seinen Mitbegründern Matthew Leavitt und Bogdan Gaza, einem ehemaligen technischen Leiter bei Amazon und dann bei Twitter, gründete Morcos DatologyAI mit dem Ziel, alle Formen der Kuratierung von KI-Datensätzen zu rationalisieren.

Wie Morcos betont, wirkt sich die Zusammensetzung eines Trainingsdatensatzes auf nahezu alle Eigenschaften eines darauf trainierten Modells aus – von der Leistung des Modells bei Aufgaben bis hin zu seiner Größe und der Tiefe seines Domänenwissens. Effizientere Datensätze können die Trainingszeit verkürzen und ein kleineres Modell ergeben, wodurch Rechenkosten eingespart werden, während Datensätze, die ein besonders vielfältiges Spektrum an Stichproben umfassen, esoterische Anforderungen (im Allgemeinen) besser bewältigen können.

Mit Interesse in GenAI – das hat eine Ruf weil sie teuer sind – die Kosten für die KI-Implementierung sind so hoch wie nie zuvor und stehen für Führungskräfte im Vordergrund.

Viele Unternehmen entscheiden sich dafür, bestehende Modelle (einschließlich Open-Source-Modelle) für ihre Zwecke zu optimieren oder sich für verwaltete Anbieterdienste über APIs zu entscheiden. Aber einige – aus Governance- und Compliance-Gründen oder aus anderen Gründen – bauen Modelle von Grund auf auf benutzerdefinierten Daten auf und geben Zehntausende bis Millionen Dollar für Rechenleistung aus, um sie zu trainieren und auszuführen.

„Unternehmen haben Datenschätze gesammelt und möchten effiziente, leistungsstarke und spezialisierte KI-Modelle trainieren, die den Nutzen für ihr Unternehmen maximieren können“, sagte Morcos. „Die effektive Nutzung dieser riesigen Datensätze ist jedoch eine unglaubliche Herausforderung und führt bei falscher Vorgehensweise zu leistungsschwächeren Modellen, deren Training und Schulung länger dauert [are larger] als nötig.“

DatologyAI kann bis zu „Petabytes“ an Daten in jedem Format skalieren – ob Text, Bilder, Video, Audio, tabellarisch oder „exotischere“ Modalitäten wie Genomik und Geodaten – und in der Infrastruktur eines Kunden bereitgestellt werden, entweder vor Ort oder über ein virtuelle private Cloud. Dies unterscheidet es von anderen Tools zur Datenvorbereitung und -kuration wie CleanLab, Lilac, Labelbox, YData und Galileo, behauptet Morcos, die tendenziell einen begrenzteren Umfang und die Art der Daten haben, die sie verarbeiten können.

DatologyAI ist auch in der Lage zu bestimmen, welche „Konzepte“ innerhalb eines Datensatzes – zum Beispiel Konzepte im Zusammenhang mit der US-amerikanischen Geschichte in einem Bildungs-Chatbot-Trainingssatz – komplexer sind und daher qualitativ hochwertigere Stichproben erfordern, und auch, welche Daten ein Modellverhalten bewirken könnten auf unbeabsichtigte Weise.

„Lösen [these problems] erfordert die automatische Identifizierung von Konzepten, ihrer Komplexität und der tatsächlich erforderlichen Redundanz“, sagte Morcos. „Die Datenerweiterung, oft unter Verwendung anderer Modelle oder synthetischer Daten, ist unglaublich leistungsfähig, muss aber sorgfältig und zielgerichtet durchgeführt werden.“

Die Frage ist: Wie effektiv ist die Technologie von DatologyAI? Es gibt Grund zur Skepsis. Die Geschichte hat gezeigt, dass die automatisierte Datenkuratierung nicht immer wie beabsichtigt funktioniert, egal wie ausgefeilt die Methode ist – oder wie vielfältig die Daten auch sein mögen.

LAION, eine deutsche gemeinnützige Organisation, die eine Reihe von GenAI-Projekten leitet, war gezwungen einen algorithmisch kuratierten KI-Trainingsdatensatz zu entfernen, nachdem festgestellt wurde, dass der Satz Bilder von sexuellem Kindesmissbrauch enthielt. An anderer Stelle wurde gezeigt, dass Modelle wie ChatGPT, die anhand einer Mischung aus manuell und automatisch nach Toxizität gefilterten Datensätzen trainiert werden, bei bestimmten Eingabeaufforderungen toxische Inhalte generieren.

An der manuellen Kuration führt kein Weg vorbei, würden einige Experten argumentieren – zumindest nicht, wenn man mit einem KI-Modell starke Ergebnisse erzielen möchte. Die größten Anbieter heute, von AWS über Google bis OpenAI, Verlassen Sie sich auf Teams von menschlichen Experten und (manchmal unterbezahlt) Annotatoren, um ihre Trainingsdatensätze zu formen und zu verfeinern.

Morcos besteht darauf, dass die Tools von DatologyAI nicht dazu gedacht sind ersetzen Die manuelle Kuratierung erfolgt insgesamt nicht mehr, sondern bietet vielmehr Vorschläge, die Datenwissenschaftlern möglicherweise nicht in den Sinn kommen, insbesondere Vorschläge, die das Problem der Reduzierung der Größe von Trainingsdatensätzen berühren. Er ist so etwas wie eine Autorität – das Trimmen von Datensätzen bei gleichzeitiger Beibehaltung der Modellleistung stand im Mittelpunkt eines wissenschaftliche Arbeit Morcos verfasste 2022 gemeinsam mit Forschern aus Stanford und der Universität Tübingen einen Artikel, der im selben Jahr auf der NeurIPS-Konferenz für maschinelles Lernen mit dem Best Paper Award ausgezeichnet wurde.

„Die richtigen Daten im großen Maßstab zu identifizieren, ist äußerst herausfordernd und ein bahnbrechendes Forschungsproblem“, sagte Morcos. „[Our approach] führt zu Modellen, die deutlich schneller trainieren und gleichzeitig die Leistung bei nachgelagerten Aufgaben steigern.“

Die Technologie von DatologyAI war offensichtlich vielversprechend genug, um Titanen in Technologie und KI davon zu überzeugen, in die Startkapitalrunde des Startups zu investieren, darunter Google-Chefwissenschaftler Jeff Dean, Meta-Chef-KI-Wissenschaftler Yann LeCun, Quora-Gründer und OpenAI-Vorstandsmitglied Adam D’Angelo und Geoffrey Hinton Ihm wird die Entwicklung einiger der wichtigsten Techniken im Herzen der modernen KI zugeschrieben.

Weitere Angel-Investoren im Startkapital von DatologyAI im Wert von 11,65 Millionen US-Dollar, das von Amplify Partners unter Beteiligung von Radical Ventures, Conviction Capital, Outset Capital und Quiet Capital geleitet wurde, waren die Mitbegründer von Cohere, Aidan Gomez und Ivan Zhang, sowie der Gründer von Contextual AI, Douwe Kiela, ex-Intel AI-VP Naveen Rao und Jascha Sohl-Dickstein, einer der Erfinder generativer Diffusionsmodelle. Es ist, gelinde gesagt, eine beeindruckende Liste von KI-Koryphäen – und legt nahe, dass an den Behauptungen von Morcos möglicherweise etwas dran sein könnte.

„Modelle sind nur so gut wie die Daten, auf denen sie trainiert werden, aber die Identifizierung der richtigen Trainingsdaten aus Milliarden oder Billionen von Beispielen ist eine unglaublich herausfordernde Aufgabe“, sagte LeCun gegenüber TechCrunch in einer E-Mail-Erklärung. „Ari und sein Team bei DatologyAI gehören zu den weltweiten Experten für dieses Problem, und ich glaube, dass das Produkt, das sie entwickeln, um jedem, der ein Modell trainieren möchte, eine qualitativ hochwertige Datenkuration zur Verfügung zu stellen, von entscheidender Bedeutung dafür ist, dass KI funktioniert für jeden.”

DatologyAI mit Sitz in San Francisco beschäftigt derzeit 10 Mitarbeiter, einschließlich der Mitbegründer, plant jedoch, bis Ende des Jahres auf etwa 25 Mitarbeiter zu expandieren, wenn bestimmte Wachstumsmeilensteine ​​erreicht werden.

Ich fragte Morcos, ob die Meilensteine ​​mit der Kundenakquise zu tun hätten, aber er lehnte eine Antwort ab – und verriet geheimnisvollerweise auch nicht die Größe des aktuellen Kundenstamms von DatologyAI.

source-116

Leave a Reply