Apple veröffentlicht ein KI-Modell, das Bilder basierend auf textbasierten Befehlen bearbeiten kann


Apple gehört heute nicht zu den Top-Playern im KI-Bereich, aber das neue Open-Source-KI-Modell des Unternehmens für die Bildbearbeitung zeigt, welchen Beitrag das Unternehmen in diesem Bereich leisten kann. Das Modell namens MLLM-Guided Image Editing (MGIE) verwendet multimodale Large Language Models (MLLMs), um textbasierte Befehle bei der Bearbeitung von Bildern zu interpretieren. Mit anderen Worten: Das Tool verfügt über die Möglichkeit, Fotos basierend auf dem Text zu bearbeiten, den der Benutzer eingibt. Es ist zwar nicht das erste Tool, das dies kann, aber „menschliche Anweisungen sind manchmal zu kurz, als dass aktuelle Methoden sie erfassen und befolgen könnten“, sagte das Tool Projektpapier (PDF) lautet.

Das Unternehmen entwickelte MGIE gemeinsam mit Forschern der University of California, Santa Barbara. MLLMs können einfache oder mehrdeutige Textaufforderungen in detailliertere und klarere Anweisungen umwandeln, denen der Bildbearbeiter selbst folgen kann. Wenn ein Benutzer beispielsweise ein Foto einer Peperoni-Pizza bearbeiten möchte, um sie „gesünder zu machen“, können MLLMs dies als „Gemüsebelag hinzufügen“ interpretieren und das Foto als solches bearbeiten.

Fotos von Pizzen, Cheetas, einem Computer und einer Person.Fotos von Pizzen, Cheetas, einem Computer und einer Person.

Apfel

MGIE kann nicht nur große Änderungen an Bildern vornehmen, sondern auch Fotos zuschneiden, in der Größe ändern und drehen sowie deren Helligkeit, Kontrast und Farbbalance verbessern – alles über Texteingabeaufforderungen. Es kann auch bestimmte Bereiche eines Fotos bearbeiten und beispielsweise die Haare, Augen und Kleidung einer Person darauf ändern oder Elemente im Hintergrund entfernen.

Als VentureBeat stellt fest, dass Apple das Modell durch veröffentlicht hat GitHubaber Interessierte können auch a ausprobieren Demo das derzeit auf Hugging Face Spaces gehostet wird. Apple hat noch nicht gesagt, ob es plant, die Erkenntnisse aus diesem Projekt in einem Tool oder einer Funktion zu nutzen, die es in eines seiner Produkte integrieren kann.

source-115

Leave a Reply