Zeszły tydzień był szalony dla otwartych modeli AI
25 🤯 premier modeli open-weight 👇
🧠 LLM-y
-> NVIDIA Nemotron 3 Ultra: hybryda Mamba-MoE 550B, tylko 55B aktywnych, kontekst 1M, 89.1 na MMLU. Wariant NVFP4 obiecuje ~5x przepustowości na chipach Blackwell. Pierwsza otwarta hybryda Mamba-Transformer w skali 550B
-> Google Gemma 4 12B: w pełni otwarty, gęsty model any-to-any (tekst/obraz/audio/wideo), kontekst 256k, bez enkodera, 140 języków, AIME 2026 na poziomie 77.5. Wypuszczony z falą 23 checkpointów QAT (mobilne ONNX MLX). Najłatwiejszy do wdrożenia model tygodnia.
→ Liquid AI LFM2.5-8B-A1B: MoE na edge, raptem 1.5B aktywnych, kontekst 128k, MATH500 88.8, gotowy pod MLX. Najlepsza opcja on-device w tym tygodniu.
→ JetBrains Mellum2-12B-A2.5B-Thinking: ich pierwszy otwarty MoE, koduje prawie jak Qwen3-14B przy 2.5B aktywnych. Apache 2.0.
🎨 Generowanie obrazów )
→ Ideogram 4: ich PIERWSZE otwarte wagi w historii. Diffusion Transformer (DiT) typu flow-matching, 9.3B, trenowany od zera. #2 ogółem za GPT Image 2 i najlepszy model open-weight na Design Arena LMArena. Najlepszy otwarty model do obrazów z dużą ilością tekstu,
🔊 Audio i mowa (przełomowy tydzień dla otwartego TTS wypuściły 4 laby)
→ Higgs Boson Audio v3 4B: 102 języki, 21 emocji, śpiew/szept/krzyk, TTFA poniżej sekundy.
→ rednote dots.tts: jedyny w pełni ciągły (bez kodeka) otwarty pipeline TTS, Apache 2.0.
→ Google Magenta RealTime 2: generowanie muzyki w czasie rzeczywistym, latencja <200ms, tekst audio MIDI. multimodalart przeportował to do PyTorcha w kilka godzin, z działającymi demami na ZeroGPU.
→ NVIDIA Nemotron-3.5 ASR: streamingowe 600M, 17x więcej równoległych strumieni niż Parakeet RNNT 1.1B.
👁️ Wizja i VLM-y
→ StepFun Step-3.7-Flash: rzadki MoE VLM 198B, ~11B aktywnych, SWE-Bench PRO 56.3. Apache 2.0.
→ PaddleOCR-VL-1.6: SOTA w parsowaniu dokumentów przy 1B parametrów, Apache 2.0.
→ Baidu NAVA: wspólne generowanie audio-wideo 6.3B, najlepsza w klasie synchronizacja A/V, Apache 2.0.
🎬 Wideo, 3D i modele świata
→ NVIDIA Cosmos3-Super: omnimodalny model świata 64B, łączy trajektorie akcji z generowaniem wideo audio, pod Physical AI.
→ JD JoyAI-Echo: tekst-do-wideo do 5 minut, wieloujęciowe, na LTX-2.3.
→ ByteDance Bernini-R VAST TripoSplat (z jednego obrazu do gaussian splattingu 3D, MIT).