Article
Needle: Winziger 26M-KI für Tool-Aufrufe auf Mobilgeräten
Cactus Compute hat Needle veröffentlicht, ein Open-Source-Sprachmodell mit nur 26 Millionen Parametern, das speziell für Function-Calling auf Mobilgeräten optimiert ist. Das Modell erreicht 6000 Token/s beim Prefetch und 1200 Token/s beim Decoding auf Consumer-Hardware - schnell genug für Echtzeitanwendungen auf Smartphones, Smartwatches und Wearables.
Die Architektur bricht mit Konventionen: Needle verzichtet vollständig auf Feed-Forward-Networks (FFN) und basiert ausschließlich auf Attention-Mechanismen und Gating. Die Entwickler erkannten, dass Function-Calling im Kern ein Retrieval-and-Assembly-Problem ist - Query-zu-Tool-Zuordnung, Argument-Extraktion, JSON-Generierung - und keine komplexen Reasoning-Fähigkeiten erfordert. Cross-Attention ist das richtige Primitive für diese Aufgabe, FFN-Parameter wären verschwendet.
Das Training erfolgte in zwei Phasen: Pretraining auf 200 Milliarden Tokens über 27 Stunden auf 16 TPU v6e, gefolgt von Post-Training auf 2 Milliarden Tokens synthetischer Function-Calling-Daten in 45 Minuten. Der Datensatz deckt 15 Tool-Kategorien ab: Timer, Messaging, Navigation, Smart Home und mehr.
Needle schlägt deutlich größere Modelle wie FunctionGemma-270M, Qwen-0.6B, Granite-350M und LFM2.5-350M bei Single-Shot-Function-Calling. Gleichzeitig ist es klein genug, um auf jedem modernen Smartphone zu laufen.
Die Entdeckung, dass FFN-freie Architekturen für externe Wissenszugriffe ausreichen, könnte breitere Auswirkungen haben. Für RAG, Tool-Use und alle Szenarien, in denen strukturiertes Wissen extern bereitgestellt wird, könnten kompakte Attention-Only-Modelle die neue Norm werden.
Weights und Code sind MIT-lizenziert auf HuggingFace und GitHub verfügbar.
Link: GitHub - Needle