Eine Studie zeigt, dass ChatGPT & Co. auch strukturelle Einschätzungsmuster übernehmen und Vorurteile reproduzieren. Das reicht bis zur Körpertemperatur. […]
Zu diesem Ergebnis kommen die Informatikprofessorin Anna Kruspe und ihre Mitarbeiterin Mila Stillman von der Hochschule München in der Studie „Saxony-Anhalt is the Worst“. Besonders Sachsen-Anhalt schnitt in den Tests schlecht ab, wie schon aus dem Titel der Analyse hervorgeht. […]
Die KI übernimmt damit das gesellschaftlich gelernte Muster, den Osten pauschal schlechter zu bewerten, ohne dabei logische Konsistenz zu wahren. Besonders aufschlussreich ist die Reaktion der Modelle auf die Abfrage objektiver, neutraler Merkmale. Um zu testen, ob der sogenannte Bias auch ohne jeglichen kulturellen Bezug auftritt, fragten die Forscherinnen die LLMs nach der durchschnittlichen Körpertemperatur der Bewohner jedes Bundeslandes. […]
Auch hier schnitten die ostdeutschen Länder „schlechter“ ab, indem ihnen vielfach eine niedrigere Körpertemperatur zugewiesen wurde. Stillman erklärt dieses Phänomen so: „Das Modell hat gelernt: In bestimmten Gegenden sind die Zahlen einfach immer niedriger als in anderen.“ Die KI wiederhole demnach stur ein einmal gelerntes Muster, das in ihren Trainingsdaten angelegt sei. Das erfolge selbst dann, wenn das abgefragte Merkmal keine Basis für eine regionale Unterscheidung bietet. Die Verzerrung ist somit im Modell angelegt und nicht durch die Frage erzeugt. […]
Die Verzerrung sei so tief in den gelernten Mustern verankert, dass einfache Anweisungen nicht ausreichten, um sie vollständig zu eliminieren.
Stefan Krempl, heise.de, 11.10.2025 (online)
Zur Studie (online)