Heute ist der 9.02.2026 und wir werfen einen Blick auf ein spannendes neues Forschungsfeld, das sich mit den Herausforderungen der Künstlichen Intelligenz (KI) befasst. Ein internationales Team von Wissenschaftlern aus der Schweiz und Deutschland hat einen neuen Benchmark entwickelt, genannt „Halluhard“. Dieser Benchmark zielt darauf ab, die Halluzinationen in KI-Modellen zu messen. Dies ist besonders wichtig, da KI-Modelle, einschließlich der weit verbreiteten Generativen Künstlichen Intelligenz, anfällig für Fehler sind, die die Zuverlässigkeit ihrer Ergebnisse in Frage stellen können.
Der „Halluhard“-Benchmark umfasst insgesamt 950 Ausgangsfragen, die sich auf vier Wissensgebiete konzentrieren: Rechtsfälle, Forschungsfragen, medizinische Leitlinien und Programmierung. Diese detaillierte Herangehensweise ermöglicht es den Forschern, die Halluzinationsraten verschiedener KI-Modelle systematisch zu bewerten. So zeigte das Modell Claude Opus 4.5 mit Websuche eine Halluzinationsrate von etwa 30%, während ohne Websuche dieser Wert sogar auf 60% anstieg. Auch GPT-5.2 Thinking mit Websuche hatte eine Halluzinationsrate von 38,2%. Besonders auffällig ist, dass chinesische Modelle wie Kimi-K2-Thinking und GLM-4.7-Thinking am schlechtesten abschnitten, obwohl sie in anderen Benchmarks besser abschneiden konnten. Diese Ergebnisse sind im Detail auf der Projektseite des Benchmarks veröffentlicht und der Code ist auf GitHub verfügbar, was die Forschung weiter vorantreiben könnte (The Decoder).
Ursachen und Auswirkungen von Halluzinationen
Halluzinationen in KI-Modellen sind Inhalte, die zwar realistisch erscheinen, jedoch nicht mit den ursprünglichen Quellen übereinstimmen. Diese Diskrepanz kann gravierende Folgen haben, insbesondere in kritischen Bereichen wie Medizin und Rechtssystem. Die Ursachen für diese Halluzinationen sind vielfältig. Sie reichen von fehlerhaften oder veralteten Trainingsdaten bis hin zu Schwächen in der Modellarchitektur. Auch die verwendeten Trainingsmethoden und Inferenzstrategien können dazu beitragen, dass KI-Modelle unsichere oder falsche Informationen generieren. Ein Beispiel für eine Halluzination ist das KI-Modell Dall-E 3, das bei der Darstellung von Händen häufig zu viele Finger zeigt (Fraunhofer IESE).
Um die Halluzinationsraten zu reduzieren, sind verschiedene Lösungsansätze erforderlich. Dazu gehören sorgfältige Datenaufbereitung, Anpassungen in der Modellarchitektur und der Einsatz moderner Techniken wie Prompting und Retrieval Augmented Generation (RAG). Die Forschung zu Halluzinationen in Large Language Models (LLMs) ist entscheidend, um die Zuverlässigkeit dieser Technologien zu verbessern und sicherzustellen, dass sie in der Praxis angewendet werden können, ohne die Benutzer in die Irre zu führen.
Ausblick und Relevanz
Die Implementierung des „Halluhard“-Benchmarks und die damit verbundenen Forschungen bieten nicht nur einen wertvollen Beitrag zur Verbesserung von KI-Modellen, sondern verdeutlichen auch die Notwendigkeit, die Qualität von Trainingsdaten und Algorithmen zu optimieren. In einer Welt, die zunehmend von KI-gestützten Anwendungen abhängt, ist es von zentraler Bedeutung, dass diese Systeme zuverlässig und vertrauenswürdig sind. Die Herausforderungen, die durch Halluzinationen entstehen, müssen ernst genommen und aktiv angegangen werden, um die Potenziale der Künstlichen Intelligenz voll ausschöpfen zu können.