Mam wrażenie, że chińskie laby zaczęły bardzo celnie rozumieć gdzie mają szansę wygrać!😅
GLM-5V-Turbo od Zhipu AI nie stara się być najlepszym modelem ogólnym. Jest robiony w jednym celu!
Ma patrzeć na interfejs aplikacji (czyli to co widzisz na ekranie: przyciski, menu, formularze, całe layouty stron) i pisać kod, który odtworzy ten interfejs lub wejdzie z nim w interakcję🔥
I tam gdzie ta specjalizacja ma znaczenie bije Claude Opus 4.6:👇
- Design2Code (94.8 vs 77.3)- pokazujesz mu screena dowolnej strony internetowej, a on pisze Ci gotowy, działający front-end. Różnica to aż 17 punktów!
- AndroidWorld (75.7 vs 62.0) - samodzielnie klika i nawiguje po apkach na Androidzie.
- BrowseComp-VL (51.9 vs 35.9) - rozumie co widzi w przeglądarce i potrafi z tego wyciągać informacje.
Reasumując! Tam gdzie agent AI musi „widzieć" ekran i na tej podstawie działać, tam GLM jest lepszy🔥
Natomiast Claude nie odpuszcza w OSWorld z wynikiem 72.2 vs 62.3.
I to jest benchmark na który warto zwrócić uwagę, gdyż tam model musi samodzielnie obsługiwać komputer jak normalny użytkownik (otwiera programy, zmienia ustawienia, przełącza się między oknami, wykonuje wieloetapowe zadania w realnych aplikacjach). Claude ogarnia to wyraźnie lepiej💁
Więc pytanie przy wyborze modelu do pracy z agentami nie brzmi już „który jest mądrzejszy" tylko „co dokładnie ma robić". Pisać kod z designu? GLM. Samodzielnie ogarniać komputer za Ciebie? Claude! 🍻
Jak wybieracie modele? Dobieracie pod konkretne zadanie czy macie jeden ulubiony i lecicie z nim na ślepo?🤠