Hugging Face und ServiceNow starten BigCode, ein Projekt zur Open-Source-Code-Generierung von KI-Systemen


Codegenerierende Systeme wie AlphaCode von DeepMind, CodeWhisperer von Amazon und Codex von OpenAI, das den Copilot-Dienst von GitHub antreibt, bieten einen verlockenden Einblick in die heutigen Möglichkeiten der KI im Bereich der Computerprogrammierung. Aber bisher nur a Hand voll solcher KI-Systeme wurden der Öffentlichkeit frei zugänglich und Open Source zur Verfügung gestellt – was die kommerziellen Anreize der Unternehmen widerspiegelt, die sie bauen.

Um das zu ändern, haben heute das KI-Startup Hugging Face und ServiceNow Research, die Forschungs- und Entwicklungsabteilung von ServiceNow, den Startschuss gegeben Big Code, ein neues Projekt, das darauf abzielt, „modernste“ KI-Systeme für Code auf „offene und verantwortungsvolle“ Weise zu entwickeln. Das Ziel ist es, schließlich einen Datensatz freizugeben, der groß genug ist, um ein Codegenerierungssystem zu trainieren, das dann zur Erstellung eines Prototyps verwendet wird – eines Modells mit 15 Milliarden Parametern, größer als Codex (12 Milliarden Parameter), aber kleiner als AlphaCode (~41,4 Milliarden Parameter) – mit dem hauseigenen Grafikkarten-Cluster von ServiceNow. Beim maschinellen Lernen sind Parameter die Teile eines KI-Systems, die aus historischen Trainingsdaten gelernt wurden und im Wesentlichen die Fähigkeiten des Systems bei einem Problem definieren, z. B. beim Generieren von Code.

Inspiriert von den BigScience-Bemühungen von Hugging Face, hochentwickelte Textgenerierungssysteme als Open Source zu veröffentlichen, steht BigCode jedem offen, der über einen professionellen KI-Forschungshintergrund verfügt und Zeit für das Projekt aufwenden kann, sagen die Organisatoren. Das Anfrageformular ging heute Nachmittag live.

„Im Allgemeinen erwarten wir von Bewerbern, dass sie einer Forschungsorganisation (entweder in der Wissenschaft oder in der Industrie) angehören und an den technischen/ethischen/rechtlichen Aspekten von arbeiten [large language models] für Codierungsanwendungen“, schrieb ServiceNow in a Blogeintrag. „Einmal die [code-generating system] geschult ist, werden wir seine Fähigkeiten bewerten … Wir werden uns bemühen, die Bewertung einfacher und umfassender zu gestalten, damit wir mehr über die lernen können [system’s] Fähigkeiten.”

Durch die gemeinsame Entwicklung eines Codegenerierungssystems, das unter einer Open-Source-Lizenz verfügbar sein wird, die es Entwicklern erlaubt, es unter bestimmten Bedingungen wiederzuverwenden, versucht BigCode, einige der Kontroversen anzugehen, die um die Praxis der KI entstanden sind. angetriebene Codegenerierung – insbesondere im Hinblick auf faire Nutzung. Die gemeinnützige Software Freedom Conservancy hat unter anderem GitHub und OpenAI dafür kritisiert, öffentlichen Quellcode zu verwenden, der nicht vollständig unter einer freizügigen Lizenz steht, um Codex zu trainieren und zu monetarisieren. Codex ist über die kostenpflichtige API von OpenAI verfügbar, während GitHub vor kurzem damit begonnen hat, Gebühren für den Zugriff auf Copilot zu erheben. GitHub und OpenAI ihrerseits behaupten weiterhin, dass Codex und Copilot keine Lizenzbestimmungen verletzen.

Die BigCode-Organisatoren sagen, dass sie sich Mühe geben werden, sicherzustellen, dass nur Dateien aus Repositories mit zulässigen Lizenzen in den oben genannten Trainingsdatensatz gelangen. Auf ihrem Weg, sagen sie, werden sie daran arbeiten, „verantwortungsvolle“ KI-Praktiken für das Training und den Austausch von Code-generierenden Systemen aller Art zu etablieren, und Feedback von relevanten Interessengruppen einholen, bevor sie politische Erklärungen abgeben.

ServiceNow und Hugging Face gaben keinen Zeitplan an, wann das Projekt abgeschlossen sein könnte. Sie erwarten jedoch, dass es in den nächsten Monaten verschiedene Formen der Codegenerierung untersuchen wird, darunter Systeme, die Code aus Codeschnipseln und Beschreibungen in natürlicher Sprache automatisch vervollständigen und synthetisieren und in einer Vielzahl von Domänen, Aufgaben und Programmiersprachen funktionieren.

Unter der Annahme, dass die ethischen, technischen und rechtlichen Probleme eines Tages ausgeräumt werden, könnten KI-gestützte Codierungstools die Entwicklungskosten erheblich senken und es den Programmierern ermöglichen, sich auf kreativere Aufgaben zu konzentrieren. Laut a lernen von der University of Cambridge wird mindestens die Hälfte der Bemühungen der Entwickler auf das Debuggen und nicht auf das aktive Programmieren verwendet, was die Softwareindustrie schätzungsweise 312 Milliarden US-Dollar pro Jahr kostet.

source-116

Leave a Reply