Was du wissen musst
- Apple-Forscher haben ein neues KI-Bildtool vorgestellt, mit dem Benutzer Bilder mithilfe von Textaufforderungen bearbeiten können.
- Das MLLM-Guided Image Editing (MGIE)-Tool kann über Texteingabeaufforderungen die Größe von Bildern ändern, spiegeln, zuschneiden und sogar Filter hinzufügen.
- Sie können es auf GitHub herunterladen, Apple hat seine Pläne für das Modell jedoch nicht kategorisch bekannt gegeben.
Mit der schnellen Einführung der generativen KI-Technologie entstehen zunehmend Tools zur Bildgenerierung wie Microsofts Image Creator von Designer (ehemals Bing Image Creator), Midjourney und mehr. Als begeisterter Benutzer dieser Modelle finde ich es ärgerlich, dass es keine schnelle Möglichkeit gibt, ein bereits erstelltes Bild zu bearbeiten.
Google ist auf dem besten Weg, dieses Problem mit seinem experimentellen Bildgenerierungstool ImageFX zu beheben. Was es von der Masse abhebt, besteht darin, dass es den Benutzern nicht nur ermöglicht, Bilder mithilfe von Eingabeaufforderungen zu generieren, sondern auch die Möglichkeit bietet, Eingabeaufforderungen mithilfe ausdrucksstarker Chips zu ändern, wodurch die Feinabstimmung der Ausgabe erleichtert wird.
Und jetzt hat sich offenbar auch Apple dem Kampf angeschlossen ein neues KI-gestütztes Modell, mit dem Benutzer Änderungen beschreiben können, die sie an einem Foto vornehmen möchten ohne durch die Software navigieren zu müssen. Das MLLM-Guided Image Editing (MGIE)-Modell kann über Texteingabeaufforderungen die Größe von Bildern ändern, spiegeln, zuschneiden und sogar Filter hinzufügen.
Das MGIE-Modell interpretiert die Eingabeaufforderung und „bildet“ dann die vom Benutzer beschriebenen Änderungen ab, bevor es sie in Echtzeit anwendet. In der Forschungsarbeit verwendeten die Forscher ein Foto einer Peperoni-Pizza und die Aufforderung „Machen Sie sie gesünder“ als Anleitung für die Änderungen, die sie auf dem Foto vornehmen möchten. Folglich fügte das Model der Peperoni-Pizza Gemüse hinzu.
Laut den Forschern:
„Anstelle einer kurzen, aber mehrdeutigen Anleitung leitet MGIE eine explizite visuelle Absicht ab und führt zu einer angemessenen Bildbearbeitung. Wir führen umfangreiche Studien zu verschiedenen Bearbeitungsaspekten durch und zeigen, dass unser MGIE die Leistung effektiv verbessert und gleichzeitig die Wettbewerbseffizienz aufrechterhält. Wir glauben auch an die MLLM-Anleitung.“ Das Framework kann zur zukünftigen Vision- und Sprachforschung beitragen.“
Es ist großartig zu sehen, dass ein KI-Modell mit dieser dringend benötigten Funktion ausgestattet ist, die möglicherweise die Bilderzeugung einfacher und schneller macht.
KI-Deepfakes sind weiterhin ein Problem
Das Generieren von Bildern mithilfe von KI ist ein Spaß und ein Spiel, bis Menschen anfangen, die Technologie zu nutzen, um gefälschte Bilder und explizite Inhalte zu erstellen. Popstar Taylor Swift geriet kürzlich in die Schlagzeilen, nachdem in den sozialen Medien explizite Bilder von ihr aufgetaucht waren, die vermutlich mit Microsoft Designer erstellt wurden.
Es ist erwähnenswert, dass Microsoft Designer mit neuen Vorschriften und Leitplanken aktualisiert wurde, die Benutzer daran hindern, explizite Inhalte mit dem Tool zu erstellen. Dies erfolgt zusätzlich zum neu eingeführten Disrupt Explicit Forged Images and Non-Consensual Edits (DEFIANCE) Act, der solche Vorkommnisse regulieren und verhindern soll.
Während Leitplanken und Zensur die Wahrscheinlichkeit, dass ein solcher Vorfall erneut auftritt, erheblich verringern, haben sich Benutzer darüber beschwert, dass einige dieser Maßnahmen übertrieben sind und scheinbar dazu geführt haben, dass Tools wie Image Creator von Designer lobotomiert wurden.
In der Vergangenheit haben wir mehrere Benutzer gesehen, die KI-Chatbots dazu verleiteten, eingeschränkte Aufgaben auszuführen. Zum Beispiel, als ein Benutzer ChatGPT dazu verleitete, Windows-Schlüssel zu generieren. Daher müssen Apple-Forscher diese Angelegenheit eingehend untersuchen, um alle Lücken zu schließen.
Es bleibt unklar, welche Pläne Apple für MGIE jenseits der Forschung hat, obwohl das Modell auf GitHub zum Download verfügbar ist. Apple war in der KI-Landschaft relativ still, hat aber seit Jahresbeginn subtile Fortschritte gemacht und sich mit der Technologie vertraut gemacht. Auf der anderen Seite ist Microsoft in Topform, da es mit einer milliardenschweren Investition schon früh die Führung im Bereich KI übernommen hat und sich damit nun an die Spitze der Liste der wertvollsten Unternehmen der Welt gesetzt hat.