Tutorials
Multimodale Embedding-Modelle trainieren mit Sentence Transformers
Warum Finetuning den Unterschied macht
Allgemeine multimodale Embedding-Modelle wie Qwen3-VL-Embedding-2B sind auf diverse Daten trainiert – gut für Breite, selten optimal für Spezialfälle. Visual Document Retrieval (VDR) ist ein solcher Fall: Eine Text-Query wie “Wie hoch war der Q3-Umsatz?” muss das richtige Dokument aus Tausenden finden. Das erfordert Verständnis von Layouts, Charts, Tables – nicht von Schuh-Fotos.
Die Ergebnisse sprechen für sich: Finetuning steigerte NDCG@10 von 0.888 auf 0.947. Damit outperformt das finetuned Modell alle getesteten VDR-Modelle, inklusive 4x größerer.
Die drei Training-Komponenten:
Dataset: Visual Document Retrieval Dataset mit Query-Dokument-Paaren. Format: (query, positive_doc, negative_docs).
Loss Function:
- CachedMultipleNegativesRankingLoss – cached Embeddings für effizientes Hard-Negative-Mining
- MatryoshkaLoss – trainiert mehrere Embedding-Dimensionen gleichzeitig (768, 512, 256)
Training Arguments: Batch-Size, Learning-Rate, Eval-Frequency.
Der Workflow: Modell laden, Dataset vorbereiten, Loss definieren, Trainer initialisieren, finetunen.
Das finetuned Modell tomaarsen/Qwen3-VL-Embedding-2B-vdr ist auf Hugging Face verfügbar. Der Code ist Open Source, das Training auf einer einzelnen GPU machbar.