Dobry wieczór polskie AI @ Dzisiaj to miałem małą jazdę z ilością chlebodajnego zajęcia ze sztucznym myśleniem. Ale było jak w mrowisku - pracowicie i z punktu widzenia człowieka ciekawie (działo się).
Za dużo dzisiaj nie napiszę bo też czasu na zgłębianie nowości było tyle ile opadu śniegu dzisiaj.
Na co dzisiaj ledwo zerknąłem ... ale mnie zaciekawiło:
-
#Aletheia i FirstProof - 6/10 zadań matematycznych rozwiązanych autonomicznie. Autorzy mówią, że tego w internecie nie ma. Ja mam coraz większe wątpliwości czy tak jest. Może całości nie ma ale transformer po częściach też nieźle składa klocki w całość. Niestety paper słaby - nie mogę się powstrzymać od komentarza. Nic nie wnosi oprócz tego, że można sobie popatrzeć na dowód. Na próżno szukać szczegółów technicznych.
- OAI - Codex po API - używam dzisiaj w jednym projekcie. Chciałem zobaczyć jak chodzi. Całkiem fajnie. Mam proste zadanie automatyzacyjne gdzie agent ma się sam usprawniać - przepisuje swój kod - Codex po API fajnie generuje diffy a je tylko scalam. API trzeba używać przez v1/responses oraz gtp-5.3-codex.
Mercury 2 - czyli druga osłona modelu dyfuzyjnego. Tym razem z reasoningiem - tak to pierwszy model z tym ficzerem. W sumie nie wiem co o tym sądzić. Śledzę rozwój tych modeli od momentu kiedy stały się (w dziedzinie generowania tekstów) popularne. Mercury jest szybki. Mówi po polsku (sprawdziłem to i ... daje całkiem fajne odpowiedzi). Nie zna za bardzo kontekstu polskiego - odpowiedzi są sztywne, mało ludzkie. Z jakością to widziałem, że odstaje od TOP w niezależnych benchmarkach - porównywalny do Haiku i GPT-5.2-mini (w kilku benchmarkach). Nawet dzisiaj myślałem by coś tam dodatkowego grzebnąć ale wolałem poczytać Golema XIV (jest wybitny).
Qwen-3.5 - sporo tych modeli. Sprawdzałem na localu 27B w kodowaniu. Wersja dense. Działa całkiem dobrze. Oczywiście wymaga to większych testów ale ... pierwsze standardowe przykłady poszły. Napiszę więcej pewnie w kolejnym tygodniu.
Gemini-3.1-pro - muszę Wam powiedzieć, że go wyłączyłem. Korzystałem w CLI - zmienił mi kod mimo polecenia "zrób przegląd kodu i napisz raport co byś poprawił" (oczywiście po angielsku) to zaczął sobie niektóre pliki przepisywać i je sprawdzać. Kolejne to generuje śmieci w odpowiedziach (jakby się zapętlał). W kolejnym moim projekcie nie słuchał poleceń - dlatego wyżej przeszedłem na Codexa po API - poszło od ręki. Ogólnie coś u mnie nie działa Gemini-3.1 a na początku roku zakładałem się z ludźmi, że Google w tym roku przegoni OpenAI ale jak widać ... ciężar korporacyjny nie pomaga. Raz z góry, a raz pod górę.
- Claude Code Remote control - pokazywałem w poprzednim poście. Może się przekonam.
Publikacje:
- DeepSeek - Conditional Memory via Scalable Lookup:
A New Axis of Sparsity for Large Language Models: 2601.07372
- Demis Hasabis z DeepMind wiele mówi o jagged intelligence więc opublikowali definicję czym to jest - zerknijcie na ten profil
@SamuelAlbanie
Miłego wieczoru, wpatrywania się w literki terminala, zaklinania AGI i spokojnej nocy. Widzimy się jutro ... a to już czwartek, czwarteczek. Do zobaczenia i usłyszenia.