Tutorials

Multimodale Embedding-Modelle trainieren mit Sentence Transformers

tutorials sentence-transformers embeddings multimodal finetuning

Warum Finetuning den Unterschied macht

Allgemeine multimodale Embedding-Modelle wie Qwen3-VL-Embedding-2B sind auf diverse Daten trainiert – gut für Breite, selten optimal für Spezialfälle. Visual Document Retrieval (VDR) ist ein solcher Fall: Eine Text-Query wie “Wie hoch war der Q3-Umsatz?” muss das richtige Dokument aus Tausenden finden. Das erfordert Verständnis von Layouts, Charts, Tables – nicht von Schuh-Fotos.

Die Ergebnisse sprechen für sich: Finetuning steigerte NDCG@10 von 0.888 auf 0.947. Damit outperformt das finetuned Modell alle getesteten VDR-Modelle, inklusive 4x größerer.

Die drei Training-Komponenten:

  1. Dataset: Visual Document Retrieval Dataset mit Query-Dokument-Paaren. Format: (query, positive_doc, negative_docs).

  2. Loss Function:

    • CachedMultipleNegativesRankingLoss – cached Embeddings für effizientes Hard-Negative-Mining
    • MatryoshkaLoss – trainiert mehrere Embedding-Dimensionen gleichzeitig (768, 512, 256)
  3. Training Arguments: Batch-Size, Learning-Rate, Eval-Frequency.

Der Workflow: Modell laden, Dataset vorbereiten, Loss definieren, Trainer initialisieren, finetunen.

Das finetuned Modell tomaarsen/Qwen3-VL-Embedding-2B-vdr ist auf Hugging Face verfügbar. Der Code ist Open Source, das Training auf einer einzelnen GPU machbar.

Original bei Hugging Face