Das physikalische Prinzip, das die moderne KI-Kunst inspirierte


Sohl-Dickstein verwendete die Prinzipien der Diffusion, um einen Algorithmus für die generative Modellierung zu entwickeln. Die Idee ist einfach: Der Algorithmus wandelt komplexe Bilder im Trainingsdatensatz zunächst in einfaches Rauschen um – ähnlich wie von einem Tintenklecks zu diffusem hellblauem Wasser – und bringt dem System dann bei, den Prozess umzukehren und Rauschen in Bilder umzuwandeln.

So funktioniert es: Zuerst nimmt der Algorithmus ein Bild aus dem Trainingsset. Nehmen wir wie zuvor an, dass jedes der Millionen Pixel einen bestimmten Wert hat, und wir können das Bild als Punkt in einem millionendimensionalen Raum darstellen. Der Algorithmus fügt jedem Pixel bei jedem Zeitschritt etwas Rauschen hinzu, was der Diffusion von Tinte nach einem kleinen Zeitschritt entspricht. Wenn dieser Prozess fortgesetzt wird, stehen die Werte der Pixel weniger in Beziehung zu ihren Werten im Originalbild, und die Pixel sehen eher wie eine einfache Rauschverteilung aus. (Der Algorithmus schiebt auch jeden Pixelwert bei jedem Zeitschritt ein wenig in Richtung des Ursprungs, dem Nullwert auf all diesen Achsen. Dieser Schub verhindert, dass Pixelwerte zu groß werden, als dass Computer leicht damit arbeiten könnten.)

Tun Sie dies für alle Bilder im Datensatz, und eine anfänglich komplexe Verteilung von Punkten im millionendimensionalen Raum (die nicht einfach beschrieben und abgetastet werden kann) wird zu einer einfachen, normalen Verteilung von Punkten um den Ursprung herum.

„Die Abfolge der Transformationen verwandelt Ihre Datenverteilung sehr langsam in einen großen Lärmball“, sagt Sohl-Dickstein. Dieser „Vorwärtsprozess“ hinterlässt eine Verteilung, aus der Sie problemlos Proben nehmen können.

Yang Song half bei der Entwicklung einer neuartigen Technik zur Erzeugung von Bildern, indem ein Netzwerk trainiert wurde, verrauschte Bilder effektiv zu entschlüsseln.

Mit freundlicher Genehmigung von Yang Song

Als nächstes kommt der Teil des maschinellen Lernens: Geben Sie einem neuronalen Netzwerk die verrauschten Bilder, die von einem Vorwärtsdurchgang erhalten wurden, und trainieren Sie es, die weniger verrauschten Bilder vorherzusagen, die einen Schritt früher kamen. Es wird zunächst Fehler machen, also passen Sie die Parameter des Netzwerks an, damit es besser funktioniert. Schließlich kann das neuronale Netzwerk zuverlässig ein verrauschtes Bild, das repräsentativ für eine Probe aus der einfachen Verteilung ist, vollständig in ein Bild umwandeln, das repräsentativ für eine Probe aus der komplexen Verteilung ist.

Das trainierte Netzwerk ist ein vollwertiges generatives Modell. Jetzt brauchen Sie nicht einmal ein Originalbild, um einen Vorwärtsdurchgang durchzuführen: Sie haben eine vollständige mathematische Beschreibung der einfachen Verteilung, sodass Sie direkt Proben davon nehmen können. Das neuronale Netzwerk kann diese Probe – im Wesentlichen nur statisch – in ein endgültiges Bild umwandeln, das einem Bild im Trainingsdatensatz ähnelt.

Sohl-Dickstein erinnert sich an die ersten Ergebnisse seines Diffusionsmodells. “Du würdest die Augen zusammenkneifen und sagen: ‘Ich denke, dieser farbige Klecks sieht aus wie ein Lastwagen'”, sagte er. „Ich hatte so viele Monate meines Lebens damit verbracht, auf verschiedene Pixelmuster zu starren und zu versuchen, Strukturen zu erkennen, dass ich dachte: ‚Das ist viel strukturierter als je zuvor.’ Ich war sehr aufgeregt.”

Sich die Zukunft vorstellen

Sohl-Dickstein veröffentlichte seine Diffusionsmodellalgorithmus im Jahr 2015, aber es war immer noch weit hinter dem zurück, was GANs leisten konnten. Während Diffusionsmodelle die gesamte Verteilung abtasten konnten und niemals nur eine Teilmenge von Bildern ausspuckten, sahen die Bilder schlechter aus und der Prozess war viel zu langsam. „Ich glaube nicht, dass das damals als aufregend angesehen wurde“, sagte Sohl-Dickstein.

Es würde zwei Studenten brauchen, die weder Sohl-Dickstein noch einander kannten, um die Punkte dieser ersten Arbeit mit modernen Diffusionsmodellen wie DALL·E 2 zu verbinden. Der erste war Song, ein Doktorand zu dieser Zeit in Stanford . 2019 er und sein Berater veröffentlichte eine neuartige Methode zum Erstellen generativer Modelle, die die Wahrscheinlichkeitsverteilung der Daten (die hochdimensionale Oberfläche) nicht geschätzt haben. Stattdessen wurde der Gradient der Verteilung geschätzt (stellen Sie sich das als Steigung der hochdimensionalen Oberfläche vor).

source-114

Leave a Reply