"Sie haben es bemerkt. ChatGPT fühlt sich dümmer an als früher. Ihre Eingabeaufforderungen, die vor sechs Monaten funktionierten, führen jetzt zu schlechteren Ergebnissen. Der Schreibstil klingt flacher. Die Ideen klingen sicherer. Das Internet selbst fühlt sich an, als würde es schrumpfen. Jeder Artikel liest sich gleich. Jede E-Mail klingt gleich. Jede Antwort klingt, als wäre sie von derselben Stimme geschrieben worden.
Du dachtest, du wärst es. Du bist es nicht.
Forscher aus Oxford und Cambridge haben in „Nature“ einen Artikel veröffentlicht, der beweist, was passiert. Sie nennen es Modellkollaps.
Hier ist der Mechanismus in einem Satz. KI, die auf KI-generierten Daten trainiert wird, wird von Generation zu Generation dümmer, bis sie vergisst, wie echte menschliche Daten aussahen.
Das Internet füllt sich mit KI-generierten Inhalten. Blogbeiträge. Artikel. Rezensionen. Kommentare. Soziale Medien. KI-Unternehmen durchsuchen das Internet, um die nächste Generation von Modellen zu trainieren. Das bedeutet, dass die nächste Generation der KI auf den Ergebnissen der aktuellen Generation trainiert wird.
Bei jedem Zyklus gehen Informationen verloren. Nicht zufällig. Es verliert zuerst die seltensten, ungewöhnlichsten und kreativsten Teile. Die Forscher nennen diese die „Tails of the Distribution“. Die seltsamen Ideen. Die unerwarteten Perspektiven. Die Dinge, die das Internet menschlich erscheinen ließen. Diese verschwinden zuerst.
Was bleibt, ist der Durchschnitt. Der Safe. Das erwartete. Das Langweilige.
Darauf trainiert dann die nächste Generation. Und verliert mehr. Und die nächste Generation trainiert darauf. Und verliert mehr. Die Forscher bewiesen, dass es sich hierbei nicht um einen langsamen Rückgang handelt. Innerhalb weniger Iterationen kommt es zu einer erheblichen Verschlechterung. Auch wenn einige der ursprünglichen menschlichen Daten erhalten bleiben.
Sie haben es an großen Sprachmodellen getestet. Über Bildgeneratoren. Über statistische Modelle. Das Muster war jedes Mal das gleiche. Die Ausgabe konvergiert in Richtung einer schmalen, abgeflachten Version der Realität, die nichts mit den Originaldaten zu tun hat.
Der leitende Forscher brachte es klar auf den Punkt. „Große Sprachmodelle sind wie Feuer. Ein nützliches Werkzeug. Aber eines, das die Umwelt verschmutzt.“
Die Verschmutzung ist unsichtbar. Sie können nicht sehen, welcher Satz im Internet von einem Menschen und welcher von einer KI geschrieben wurde. Auch die KI, die darauf trainieren will, kann das nicht. Und wenn die Schwänze einmal weg sind, kommen sie nicht wieder zurück. Der Schaden ist irreversibel.
Dies ist keine Vorhersage mehr. Es ist eine Diagnose.
Das Internet, in dem Sie aufgewachsen sind, wurde von Menschen aufgebaut, die Dinge schrieben, die kein Algorithmus geschrieben hätte. Seltsam, persönlich, unvollkommen, lebendig. Dieses Internet wird verwässert. Eine Generation von KI nach der anderen. Und die Modelle, die auf dem, was bleibt, trainiert werden, lernen eine immer kleinere Version der Welt kennen.
Der Modellkollaps ist kein technisches Problem. Es ist eine kulturelle Angelegenheit. Das, was das Internet lesenswert gemacht hat, ist das, was zuerst verschwindet."
You have noticed it. ChatGPT feels dumber than it used to. Your prompts that worked six months ago produce worse results now. The writing sounds flatter. The ideas sound safer. The internet itself feels like it is shrinking. Every article reads the same. Every email sounds the same. Every answer sounds like it was written by the same voice.
You thought it was you. It is not you.
Researchers at Oxford and Cambridge published a paper in Nature proving what is happening. They call it Model Collapse.
Here is the mechanism in one sentence. AI trained on AI-generated data gets dumber every generation until it forgets what real human data looked like.
The internet is filling with AI-generated content. Blog posts. Articles. Reviews. Comments. Social media. AI companies scrape the internet to train the next generation of models. Which means the next generation of AI is being trained on the output of the current generation.
Each cycle loses information. Not randomly. It loses the rarest, most unusual, most creative parts first. The researchers call these the "tails of the distribution." The weird ideas. The unexpected perspectives. The things that made the internet feel human. Those disappear first.
What remains is the average. The safe. The expected. The bland.
Then the next generation trains on that. And loses more. And the next generation trains on that. And loses more. The researchers proved this is not a slow decline. Major degradation happens within just a few iterations. Even when some of the original human data is preserved.
They tested it on large language models. On image generators. On statistical models. The pattern was the same every time. The output converges toward a narrow, flattened version of reality that looks nothing like the original data.
The lead researcher put it plainly. "Large language models are like fire. A useful tool. But one that pollutes the environment."
The pollution is invisible. You cannot see which sentence on the internet was written by a human and which was written by AI. Neither can the AI that is about to train on it. And once the tails are gone, they do not come back. The damage is irreversible.
This is not a prediction anymore. It is a diagnosis.
The internet you grew up on was built by humans writing things no algorithm would have written. Strange, personal, imperfect, alive. That internet is being diluted. One generation of AI at a time. And the models trained on what remains are learning a smaller and smaller version of the world.
Model Collapse is not a technical problem. It is a cultural one. The thing that made the internet worth reading is the thing that disappears first.