Wat is het toch een geweldige tijd in AI. Hierbij een top analyse wat deepseek, dankzij slim werken, minder energie en veel minder processors alles kon doen in 2 maanden met een laatste trainings run van $6m en waarom er nu een giga acceleratie is bij de competitie omdat met open source alles te reproduceren is
youtu.be/4Tmn-XP93m4?si=0OXc… dame van Y combinator met een chinees accent die weet waar ze het over heeft
Samenvatting
Gedetailleerde Lijst van Verbeteringen door DeepSeek
1. Efficiëntere Training van het Model
•Geoptimaliseerde Berekeningen met FP8: DeepSeek trainde zijn V3-model met 8-bits floating point (FP8) in plaats van de traditionele 16-bit of 32-bit. Dit verminderde het geheugenverbruik terwijl de prestaties behouden bleven.
•FP8 Accumulatie Fix: Een techniek die berekeningen periodiek omzet naar FP32, waardoor numerieke fouten worden voorkomen.
•Hogere GPU-benutting: GPU’s staan 66% (😩😩😩) stil vanwege gegevensoverdracht. DeepSeek optimaliseerde het systeem om de model flops utilization (MFU) te verbeteren, waardoor hardware veel efficiënter wordt benut.
•Mixture of Experts (MoE) Architectuur: DeepSeek V3 heeft 671 miljard parameters, maar gebruikt slechts 37 miljard per tokenvoorspelling, wat de rekencapaciteit aanzienlijk vermindert in vergelijking met modellen die alle parameters activeren. Giga Training en uitvoering besparing
•Multi-Head Latent Attention (MLA): Een methode die sleutel- en waardeopslag verkleint en deze alleen reconstrueert wanneer nodig, wat opslag overhead vermindert en prestaties verhoogt.
•Multi-Token Prediction (MTP): In plaats van één token per keer te voorspellen, kan MTP meerdere tokens tegelijk voorspellen, wat de trainings efficiëntie verhoogt.
2. Snellere en Efficiëntere Gebruikersinteractie (inference!)
•Hooggeoptimaliseerd Redeneermodel (R1): DeepSeek R1 is gebouwd bovenop V3, met specifieke verbeteringen voor redeneer taken, en presteert vergelijkbaar met OpenAI’s GPT-4o en Google’s Gemini Flash.
•Speculatieve Decodering: Vermindert sequentiële verwerkingsstappen, waardoor reacties sneller en coherenter worden.
•Efficiënte Hardwarebenutting: Door geavanceerde GPU-optimalisatie kunnen modellen zelfs op beperkte hardware efficiënt draaien.
•Gratis Toegang tot het Model: In tegenstelling tot sommige concurrenten stelt DeepSeek zijn modellen gratis beschikbaar, zodat gebruikers ze lokaal kunnen downloaden en draaien.
3. Slimmere Redeneer Capabilities
•Pure Reinforcement Learning (RL) Training: DeepSeek R1 werd getraind met alleen reinforcement learning (RL), zonder menselijke voorbeelden.
•Group Relative Policy Optimization (GRPO): Een nieuwe RL-techniek waarmee het model zelf fouten herkent en corrigeert.
•Emergent Chain of Thought (CoT): Het model leerde stap-voor-stap redeneren zonder expliciete supervisie.
•Gestructureerde Redeneer Fine-Tuning: DeepSeek introduceerde een voorafgaande trainingsfase om taal vermenging te voorkomen en de leesbaarheid te verbeteren.
•Vergelijkbare Prestaties met OpenAI 01: R1 behaalt topresultaten in wiskunde- en codeer benchmarks, en is een van de beste open-source redeneer modellen.
4. Gevolgen en Reacties van Concurrenten
•Nvidia’s Aandelenval: DeepSeek’s aankondiging leidde tot een verlies van bijna $600 miljard in marktkapitalisatie voor Nvidia, door speculatie over veranderingen in de vraag naar AI-hardware.
•Snelle Reactie van OpenAI: Slechts twee weken na de release van R1, bracht OpenAI GPT-o3 mini en Deep Research ) uit, dat R1 en eerdere OpenAI-modellen overtrof.
•Academische Reproduceerbaarheid: Een UC Berkeley-lab repliceerde DeepSeek’s technieken, wat aantoont dat hoogwaardige redeneer modellen met relatief lage kosten kunnen worden gebouwd. Voor $30 trainde ze een klein model met deze methodes
•Nieuwe Kansen voor AI Startups en Europa. DeepSeek’s kostenefficiënte methoden geven de mogelijkheid om te concurreren
Erg motiverend voor ons allemaal