Lody dla wszystkich? Czy lody za ciężką prace? A może lody dawać za inteligencję? Systemy nagród mają fundamentalne znaczenie w budowaniu trwałej motywacji do ciężkiej pracy, ale też ich dobra konstrukcja ma fundamentalne znaczenia w budowaniu SI.
Eksperymenty empiryczne potwierdzają ogroną wagę modeli nagród. W klasycznym, sześciostopniowym badaniu Mueller i Dweck (1998) uczniowie rozwiązywali problemy logiczne oparte na matrycach Ravena. Po początkowym, sukcesie, jedną grupę chwalono za inteligencję, a drugą za wysiłek. Różnice w zachowaniu ujawniły się natychmiast, gdy w kolejnym etapie dzieci napotkały zadania obiektywnie przekraczające ich możliwości.
Reakcje w obydwu grupach były bardzo różne. Grupa chwalona wcześniej za inteligencję wykazała natychmiastowy spadek wytrwałości i mniejszą radość z pracy, i co najważniejsze przypisywała porażkę brakowi wrodzonych zdolności. Zjawisko to obnaża niezwykle destrukcyjny mechanizm: jeśli sukces definiuje, że jesteś z natury "mądry", to w obliczu porażki pojawia się logiczny, wyniszczający wniosek, że jesteś "głupi". Brakuje tu powiązania sukcesu z włożonym nakładem pracy. Wydajność tej grupy uległa znacznemu pogorszeniu.
Z perspektywy społeczno-psychologicznej, brak silnej korelacji między nakładem pracy a wielkością nagrody indukuje tzw. próżniactwo społeczne. Gdy wynik końcowy i nagroda są dla każdego identyczne, niezależnie od indywidualnego wkładu, naturalną i ewolucyjnie optymalną reakcją organizmu jest redukcja wysiłku. Jednostka podświadomie kalkuluje i oczekuje, że inni przejmą obciążenie. Taki system szybko przestaje promować doskonałość, równając motywację całej grupy w dół do poziomu najsłabszego ogniwa.
Jednak najgroźniejszą konsekwencją nagradzania bezwarunkowego jest alienacja sprawcza (tzn. brak poczucia, że ma się wpływ na swoje otoczenie), prowadząca wprost do wyuczonej bezradności. Stałe nagrody bez twardego, merytorycznego uzasadnienia uczą postawy roszczeniowej - jednostki są wtedy przekone, że gratyfikacja należy im się wyłącznie z tytułu samej egzystencji. Brak warunkowości uniemożliwia wykształcenie mechanizmów niezbędnych do radzenia sobie z przeszkodami. Koreluje to
m.in. z alienacją szkolną, poczuciem utraty elementarnej kontroli nad własnym życiem i brakiem zaufania do instytucji.
Podobieństwa na poziomie obliczeniowym do modeli uczenia ze wzmocnieniem jest bardzo duże, wprowadzenie jednorodnego sygnału gratyfikacyjnego - niezależnego od faktycznej jakości podejmowanych działań - uwalnia ten sam mechanizm destrukcji motywacji i natychmiast prowadzi do kolapsu uczenia sieci neuronowej. Jeżeli algorytm w każdym kroku doświadczenia - bez względu na to, czy zbliży się do rozwiązania, czy zdecyduje się na bezczynność - otrzymuje stale tę samą nagrodę numeryczną. Taki model momentalnie degraduje architekturę sieci i powoduje, że jest do niczego nieprzydatna.
Innymi słowy system, który nagradza wszystkich po równo, ostatecznie nie jest w stanie nauczyć niczego.