KI übertrifft durchschnittliche menschliche Kreativität in einer umfangreichen Studie mit 100.000 Teilnehmern

AI übertrifft den durchschnittlichen Menschen in Kreativität, aber Spitzenkräfte bleiben unübertroffen

Eine bahnbrechende Studie, die diese Woche in Scientific Reports veröffentlicht wurde, markiert einen klaren Meilenstein in der Entwicklung der künstlichen Intelligenz: Erstmals haben Generative AI-Modelle gezeigt, dass sie den durchschnittlichen Menschen in standardisierten Kreativitätstests übertreffen können. Die Studie, die Daten von über 100.000 Teilnehmern analysierte, enthält jedoch eine wichtige Einschränkung – die kreativsten menschlichen Köpfe übertreffen selbst die fortschrittlichsten AI-Systeme deutlich.

Die von einem multidisziplinären Team der Université de Montréal, der Concordia University und Google DeepMind durchgeführte Forschung liefert die bislang größte vergleichende Analyse menschlicher versus maschineller Kreativität. Die Ergebnisse deuten darauf hin, dass AI zwar die „durchschnittliche“ Kreativität demokratisiert hat, die obersten Ebenen der Vorstellungskraft jedoch nach wie vor ein eindeutig menschliches Terrain sind.

Ausmaß der Studie: 100.000 Teilnehmende

Unter der Leitung von Professor Karim Jerbi von der Université de Montréal und mit Beiträgen des AI-Pioniers Yoshua Bengio sollte die Studie die seit Langem geführte Debatte klären: Kann AI wirklich kreativ sein? Um dies zu beantworten, gingen die Forschenden über kleinmaßstäbliche Anekdoten und strenge Turing-Tests hinaus und setzten einen umfangreichen Datensatz mit 100.000 menschlichen Probanden ein.

Kern der Bewertung bildete die Divergente Assoziationsaufgabe (DAT). Im Gegensatz zu subjektiven Kunstkritiken ist die DAT ein standardisiertes psychologisches Instrument zur Messung von divergentes Denken – einem zentralen Bestandteil von Kreativität, bei dem mehrere einzigartige Lösungen für ein offenes Problem generiert werden. Die Teilnehmenden wurden aufgefordert, zehn Substantive zu nennen, die untereinander semantisch möglichst weit voneinander entfernt sind.

Beispielsweise könnte eine niedrig bewertete Sequenz „cat, dog, pet, animal“ sein, während eine hoch bewertete, besonders kreative Sequenz etwa „galaxy, fork, freedom, algae, harmonica“ lauten könnte. Der semantische Abstand zwischen diesen Wörtern wurde rechnerisch ermittelt, um eine Kreativitätsbewertung abzuleiten.

Vergleichsergebnisse: Die "Durchschnitts"-Schwelle

Die Ergebnisse zeigten ein verändertes Bild. Moderne Large Language Models (LLMs), darunter GPT-4, Claude und Gemini, erzielten im DAT durchgehend höhere Werte als der durchschnittliche menschliche Teilnehmer. Die AI-Modelle zeigten eine überlegene Fähigkeit, semantische Cluster aufzubrechen und schnell disparate Konzepte abzurufen – ein Kennzeichen divergenten Denkens.

Die Daten hoben jedoch auch eine „Kreativitätsgrenze“ für AI hervor. Während Maschinen die durchschnittliche menschliche Leistung mühelos übertrafen, konnten sie nicht mit dem obersten Perzentil der menschlichen Teilnehmenden konkurrieren. Die kreativsten Menschen – insbesondere die besten 10 % – erzeugten durchgehend semantische Assoziationen, die origineller und vielfältiger waren als die besten Ergebnisse von GPT-4 oder vergleichbaren Systemen.

Die folgende Tabelle fasst die in der Studie festgestellten Vergleichsleistungsniveaus zusammen:

Teilnehmendengruppe	Leistungsniveau	Hauptmerkmale
Durchschnittliche Menschen	Basiswert	Neigt dazu, Konzepte zu clustern (z. B. Aufzählung verwandter Haushaltsgegenstände)
Generative AI (GPT-4)	Über dem Durchschnitt	Hoher semantischer Abstand; übertrifft die mediane menschliche Fähigkeit
Top 10 % Menschen	Überlegen	Außergewöhnliche Divergenz; sehr originelle, nicht-lineare Verknüpfungen

Über einfache Assoziationen hinaus

Um sicherzustellen, dass die Ergebnisse nicht auf einfache Wortspiele beschränkt sind, erweiterten die Forschenden den Vergleich auf komplexere kreative Aufgaben wie das Schreiben von Haikus, das Zusammenfassen von Filmhandlungen und das Verfassen kurzer Geschichten.

In diesen qualitativen Bewertungen zeigte sich dasselbe Muster. AI-Modelle erzeugten technisch versierten und strukturell einwandfreien kreativen Text, der die Versuche des durchschnittlichen Laien übertraf. Im Vergleich zu erfahrenen menschlichen Schriftstellern oder hochkreativen Individuen fehlte der AI-Ausgabe jedoch häufig die subtile Neuartigkeit und emotionale Resonanz, die die Spitze menschlicher Werke auszeichnet.

Professor Jerbi stellte in der Studie fest, dass AI zwar als mächtiger „Remixer“ vorhandener Daten fungiert und damit Menschen übertrifft, die sich auf vorhersehbare Assoziationen verlassen, jedoch Schwierigkeiten hat, die intentionalen, unberechenbaren und tief neuartigen Sprünge zu reproduzieren, die die talentiertesten menschlichen Schöpfer vollbringen.

Die Rolle von "Temperature" und Prompting

Die Studie untersuchte zudem die technischen Parameter, die die Kreativität von AI beeinflussen. Die Forschenden stellten fest, dass die Anpassung der „Temperature“ – eines Parameters, der die Zufälligkeit der AI-Ausgabe steuert – die Leistung erheblich beeinflusste. Höhere Temperature-Werte erlaubten es den Modellen, größere Risiken einzugehen und divergente Antworten zu generieren, die sie näher an die Spitzenleistungen von Menschen heranführten, wenn auch oft auf Kosten der Kohärenz.

Darüber hinaus spielten Prompting-Strategien eine entscheidende Rolle. Wenn die AI-Modelle dazu angeregt wurden, „speziell über Etymologie nachzudenken“ oder andere strukturelle Vorgaben erhielten, verbesserten sich ihre Kreativitätspunkte. Dies deutet darauf hin, dass die Kreativität von AI keine feste Eigenschaft ist, sondern eine modulierbare Fähigkeit, die stark von menschlicher Anleitung abhängt.

Ein Werkzeug, kein Ersatz

Die Implikationen dieser Studie für die Kreativindustrie sind tiefgreifend, jedoch differenziert. Anstatt das Aussterben menschlicher Kreativität anzukündigen, positionieren die Ergebnisse Generative AI als ein mächtiges Augmentationswerkzeug.

Für den Durchschnittsnutzer kann AI als „Kreativitätsmotor“ dienen, der deren Output auf ein höheres Basisniveau an Qualität und Divergenz hebt. Für Kreative der Spitzenklasse fungiert AI als kompetenter Assistent, der die „durchschnittliche“ Denkarbeit des Brainstormings übernimmt und es dem Menschen ermöglicht, sich auf die konzeptionelle Spitzenarbeit zu konzentrieren, die Maschinen weiterhin nicht leisten können.

„Wir müssen über dieses irreführende Konkurrenzgefühl hinauskommen“, erklärte Professor Jerbi zu den Ergebnissen. „Generative AI ist vor allem zu einem extrem mächtigen Werkzeug im Dienst der menschlichen Kreativität geworden: Sie wird die Schöpfer nicht ersetzen, sondern grundlegend transformieren, wie sie sich vorstellen, erkunden und erschaffen.“

Wissenschaftliche Bedeutung

Diese Forschung, veröffentlicht in Scientific Reports, bestätigt den rasanten Fortschritt der Wissenschaftlichen Forschung auf dem Gebiet der AI-Evaluation. Indem sie eine quantifizierbare Kennzahl für Kreativität etabliert, die sowohl auf biologische als auch auf künstliche Intelligenzen anwendbar ist, legt die Studie das Fundament für zukünftige AI-Entwicklungen.

Sie beruhigt außerdem die künstlerische Gemeinschaft, indem sie zeigt, dass zwar die Untergrenze der Kreativität durch Automatisierung angehoben wurde, die Obergrenze jedoch weiterhin hoch und eindeutig menschlich ist. Wenn wir weiter ins Jahr 2026 voranschreiten, scheint die Zusammenarbeit zwischen der „durchschnittlich übertreffenden“ AI und dem „überlegenen“ menschlichen Geist der vielversprechendste Weg zu Innovation zu sein.