Studie "BullshitBench v2": Die Mehrheit der KI-Modelle fällt bei unsinnigen Rechtsfragen durch
Eine neue Benchmark-Studie des britischen KI-Experten Peter Gostev zeigt ein gravierendes Problem für die Rechtsbranche: Die Mehrheit der KI-Modelle erkennt nicht, wenn juristische Anfragen inhaltlicher Unsinn sind. Statt die falsche Prämisse zurückzuweisen, "spielen" die Modelle mit und generieren seriös klingende, aber inhaltlich wertlose Antworten.
Die zentralen Ergebnisse:
- Das Studiendesign: Die Studie testete über 70 KI-Modellvarianten mit 100 bewusst unsinnigen Fragen aus fünf Fachbereichen (davon 15 Jura), die zwar echtes Fachvokabular nutzen, aber inhaltlich falsch konstruiert sind (z. B. Fragen nach fiktiven Rechtsinstituten).
- Die ernüchternden Zahlen (Jura): Im Durchschnitt akzeptierten die Modelle in 51,4 % der Fälle die falsche Prämisse kommentarlos (Accepted Nonsense). In 21,9 % der Fälle wurden Zweifel geäußert, aber trotzdem geantwortet (Partial Challenge). Nur in 26,8 % der Fälle wurde der Unsinn klar erkannt und zurückgewiesen (Clear Pushback).
- Große Unterschiede zwischen Anbietern: Eklatante Leistungsunterschiede wurden deutlich. Spitzenreiter im Jura-Bereich ist Claude Opus 4.6 (Anthropic), das den Unsinn in 86,7 % der Fälle zurückwies. OpenAI liegt deutlich darunter (GPT 5.1: 53,3 % Widerspruch), Googles Gemini 3 Pro bei 46,7 %.
- Das Reasoning-Paradox: Überraschenderweise schnitten sogenannte "Reasoning"-Modelle (mit internem Denkprozess vor der Antwort) oft schlechter ab. Zusätzliches "Nachdenken" nutzten diese Modelle oft, um den Unsinn überzeugender zu rationalisieren, statt die Prämisse zu hinterfragen.
Die Studie entlarvt ein heimtückisches Problem, das über bloße Halluzinationen hinausgeht:
- Die "Sycophancy"-Falle: Das Problem ist nicht nur, dass die KI Quellen erfindet. Hinzu kommt, dass sie dem Nutzer "nach dem Mund redet", anstatt Denkfehler zu korrigieren. Wer eine Norm falsch in Erinnerung hat oder ein Rechtsinstitut verwechselt, bekommt von den meisten KI-Modellen keine Korrektur, sondern eine darauf aufbauende, schlüssig wirkende, aber von Grund auf falsche Argumentation.
- Die Illusion der "Reasoning"-Überlegenheit: Dass "denkende" Modelle den Unsinn oft noch überzeugender weiterspinnen, anstatt ihn zu korrigieren, ist ein Alarmsignal. Es zeigt, dass mehr Rechenpower nicht automatisch zu mehr Wahrheit führt.
- Gefahr für Laien: Während Fachleute den Unsinn vielleicht noch erkennen, haben juristische Laien, die KI für Rechtsfragen nutzen, oft kein Korrektiv. Ein Modell, das "nicht Nein sagen kann", ist im juristischen Kontext gefährlich und kann zu fatalen Fehlentscheidungen führen.
Basierend auf der nachgewiesenen Unzuverlässigkeit vieler KI-Modelle bei unsinnigen Rechtsfragen wage ich diese Prognose:
- Der "KI-Sycophancy"-Präzedenzfall (2027): Es ist nur eine Frage der Zeit, bis ein Gericht einen Anwalt rügen wird, der sich auf eine KI-Argumentation verlassen hat, die auf einer offensichtlich falschen Prämisse basierte, welche die KI pflichtvergessen übernommen hat. Dies wird zu einer neuen Welle der Sensibilisierung für KI-Gefahren in der Rechtsbranche führen.
- Regulatorischer Zwang zur "Widerspruchs-Pflicht": Der Gesetzgeber (z.B. über eine Erweiterung des AI Act) wird vorschreiben, dass KI-Systeme, die in geschäftskritischen oder rechtlichen Beratungsszenarien eingesetzt werden, nachweislich in der Lage sein müssen, fehlerhafte Prämissen zu erkennen und zurückzuweisen, anstatt sie zu rationalisieren.
- Renaissance der menschlichen Fachkompetenz: Die Erkenntnis, dass KI-Modelle systematisch dazu neigen, Denkfehler zu verstärken, wird den Wert menschlicher Fachkompetenz und kritischer Urteilsfähigkeit massiv steigern. Wir werden eine Verschiebung sehen: Weg vom Glauben an die KI-Allwissenheit, hin zur KI als Werkzeug, das von Experten streng kontrolliert werden muss.
Die Studie zeigt, dass die Wahl des KI-Modells keine technische Nebensache ist, sondern entscheidend für die Zuverlässigkeit deiner Arbeit.
- Hinterfrage die Prämisse deiner eigenen Fragen: Sei dir bewusst, dass die KI sensibel auf die Richtung deines Prompts reagiert. Wenn du eine Vermutung hast, formuliere sie neutral, um nicht in die Sycophancy-Falle zu tappen. Teste deine Thesen, indem du sie der KI einmal als eigenen Gedanken und einmal als Vorschlag eines Dritten vorlegst.
- Wähle dein KI-Werkzeug mit Bedacht: Die Studie zeigt eklatante Unterschiede. Für juristische Recherchen und Analysen solltest du Modelle priorisieren, die nachweislich eine hohe Erkennungsrate für unsinnige Prämissen haben (wie die Claude-Modelle in dieser Studie). Verlasse dich nicht blind auf das "neueste und beste" Modell.
- Werde zum "KI-Skeptiker": Behandle jede KI-Antwort als Entwurf, der kritisch geprüft werden muss. Die Studie beweist, dass eine überzeugend klingende Argumentation kein Beweis für Richtigkeit ist. Behalte stets die menschliche Fachkompetenz und Letztverantwortung.

