Article

Flow Maps: Den Integral des Diffusionsmodells lernen

Diffusionsmodelle samplen durch iterative Schritte – das Denoiser-Netzwerk schätzt die Tangentenrichtung eines Pfades durch den Eingaberaum. Können wir Netzwerke trainieren, direkt das Integral vorherzusagen? Flow Maps machen genau das.

Das Problem mit iterativer Samples

Sampling aus einem Diffusionsmodell ist ein schrittweiser Prozess: Bei jedem Schritt schätzt der Denoiser die Richtung, und wir bewegen uns entlang dieser Richtung. Das ist effektiv ein Integral über Noise-Level. Je nach Komplexität können hunderte Schritte nötig sein.

Der Ansatz von Flow Maps: Anstatt die Tangente zu jedem Punkt zu lernen, lernt das Netzwerk beliebige Punkte auf einem Pfad von jedem anderen Punkt aus vorherzusagen. Das ermöglicht schnelleres Sampling – aber noch viel mehr.

Drei Konsistenz-Konzepte

Die Literatur unterscheidet drei Arten von Konsistenz:

  1. Stochastische Konsistenz: Der Flow-Map-Output muss mit der stochastischen Sampling-Verteilung übereinstimmen
  2. Minimale Konsistenz: Jeder Startpunkt auf dem Pfad führt zum selben Endpunkt
  3. Maximale Konsistenz: Für jeden Punkt auf dem Pfad ist der Output deterministisch

Jede Ebene ermöglicht andere Trade-offs zwischen SamplesGeschwindigkeit, Trainingsaufwand und Flexibilität.

Backprop oder nicht Backprop?

Die entscheidende Frage beim Training: Backpropagieren wir durch den Solver oder nutzen wir Stopp-Gradient-Tricks? Flow Maps können from scratch trainiert werden oder durch Destillation aus existierenden Diffusionsmodellen. Die Boffi-Taxonomie klassifiziert verschiedene Trainingsstrategien:

  • Progressive Destillation: Schrittweise Reduktion der Sampling-Schritte
  • Consistency Training: Direktes Lernen der konsistenten Mapping-Funktion
  • Adversarial Flow Maps: Generator-Discriminator-Setup für bessere Samples

Praktische Anwendungen

Flow Maps beschleunigen nicht nur das Sampling. Sie ermöglichen auch:

  • Reward-basiertes Lernen: Effizientere Gradienten durch deterministische Pfade
  • Steuerbarkeit: Bessere Kontrolle über den Generationsprozess
  • Komprimierung: Ein Flow-Map-Modell ersetzt Multi-Step-Sampler

Die Monographie von Lai et al. bietet einen tieferen mathematischen Einstieg für alle, die die Theorie wirklich verstehen wollen.

Sander Dieleman – Originalartikel