Article

Stanford CS336: Sprachmodelle von Grund auf lernen

Stanford Language Models Transformer Deep Learning PyTorch

Stanford CS336 ist ein fortschrittlicher Kurs, der Studierende durch den kompletten Prozess der Entwicklung eines eigenen Sprachmodells fuehrt – angelehnt an das bewaehrte Konzept von Betriebssystemkursen, bei denen ein komplettes OS von Grund auf erstellt wird. Instruktorinnen Percy Liang und Tatsunori Hashimoto leiten die Teilnehmenden dabei durch alle wesentlichen Phasen: von der Datensammlung und -vorearbeitung ueber die Konstruktion der Transformer-Architektur bis hin zu Training, Evaluierung und Deployment.

Der praxisorientierte Aufbau besteht aus fuenf umfangreichen Assignments. Zunaechst implementieren Studierende alle Kernkomponenten eines Transformer-Modells: Tokenizer, Modellarchitektur und Optimizer. Darauf aufbauend werden System-aspekte behandelt – darunter Profiling, die eigene Implementierung von FlashAttention2 mit Triton sowie verteiltes Training ueber mehrere GPUs. Weitere Schwerpunkte sind Skalierungsstrategien, Datenverarbeitung sowie Alignment und Reasoning mit Reinforcement Learning, einschliesslich DPO fuer sicherheitsrelevante Anwendungen.

Besonderheit des Kurses ist der minimale Scaffolding-Ansatz: Studierende schreiben deutlich mehr Code als in vergleichbaren AI-Kursen. Vorausgesetzt werden fundierte Python- und PyTorch-Kenntnisse, Erfahrung mit Deep Learning, Lineare Algebra sowie Grundlagen des Machine Learning. Als 5-Unit-Kurs erfordert CS336 einen erheblichen Zeitaufwand und richtet sich an Studierende, die ein tiefgreifendes Verstaendnis der Funktionsweise moderner Sprachmodelle entwickeln moechten. Vorlesungsaufzeichnungen sind oeffentlich ueber YouTube verfuegbar.

Link: Original