To, co dzieje się z AI, to podręcznikowa ilustracja Paradoksu Jevonsa: gwałtowny spadek kosztów sztucznej inteligencji wywołuje eksplozję popytu. Przy koszcie "myślenia" dążącym do zera poszerza się spektrum możliwych zastosowań AI.
W historii technologii, a w szczególności w historii IT, mieliśmy wiele przykładów taniejących dóbr podstawowych. Jednakże nie mieliśmy dotychczas doczynienia z tak szybko zachodzącymi zmianami. Prawo Moore'a mówiło o tym, że koszt tranzystora zmniejsza się dwukrotnie co każde dwa lata. Prawo Edholma o tym, że koszt przesyłu informacji zmniejsza się dwukrotnie co 18 miesięcy. Dziś mamy LLMflation - chyba brakuje jeszcze innej nazwy - które mówi, że koszt inferencji spada o 10x rocznie (Wykres 1). To tempo szybsze niż w jakiejkolwiek poprzedniej rewolucji technologicznej.
Co ciekawe wiele danych wskazuje, że najszybciej tanieje ta najbardziej zaawansowana inteligencja. Dane z raportu Epoch AI (Wykres 2) to pokazują koszt najsłabszego modelu GPT-3.5 spadał 9x rocznie, a ten najbardziej zaawansowanych z modeli - tutaj GPT-4o - 900x rok do roku.
Podobnie zaskakujące wyniki pokazują wyniki testu ARC-AGI (Wykres 3). W grudzieniu 2024, model o3 (High) osiągnął wynik 88% przy koszcie ok. 4500 $ za zadanie. Rok później model GPT-5.2 Pro osiągnął nieznacznie wyższy wynik 90,5% kosztując jedyne 11,64 $. To niemal 400-krotna redukcja kosztów w rok. Ludzka praca tak się nie skaluje.
Spadek kosztów inferencji to efekt wielu czynników:
- Wydajniejszy hardware: Prawo Moore’a i ulepszenia strukturalne GPU drastycznie poprawiają stosunek ceny do wydajności.
- Kwantyzacja modeli: Przejście z formatu 16-bit na 4-bit (np. w układach Blackwell) to ponad 4-krotny wzrost wydajności przy takim samym ruchu danych.
- Optymalizacje software: Oprogramowanie lepiej zarządza mocą obliczeniową i eliminuje wąskie gardła przepustowości pamięci.
- Mniejsze, sprawniejsze modele: Dzięki lepszemu treningowi dzisiejsze modele 1B parametrów biją giganty 175B sprzed 3 lat.
- Presja Open Source: Modele od Meta, Mistral, czy sam DeepSeek mogą być hostowane na dowolnej infrastrukturze, co wymuszają spadek marż u dostawców modeli przez API.
- Architektura: Kluczowe są zmiany takie jak MoE (Mixture of Experts) i rzadka atencja. W IDEAS rozwijamy te koncepcje, co opisaliśmy
m.in. w pracy
arxiv.org/abs/2402.07871.
Dla nas ważne jest to, że spadek ceny inferencji zmienia sposób, w jaki korzystamy z technologii AI. Kiedy produkt staje się tani, znajdujemy dla niego miliony nowych zastosowań. Dzięki ciągłemu spadkowi cen, który będzie długookresowo dążyć do zero, inteligencja może stać się nową elektrycznością.
A linki do artykułów na, których powstał post są tutaj:
epoch.ai/data-insights/llm-i…,
a16z.com/llmflation-llm-infe….