Claude Opus 4.7: Benchmark-Realität vs. Marketing-Versprechen

Veröffentlicht am 17. Apr. 2026 | ca. 3 Min. Lesezeit |

ki meinung

Am 16. April 2026 hat Anthropic Claude Opus 4.7 veröffentlicht. Die Pressemitteilung liest sich wie erwartet: „unser fähigstes Modell", „substanziell besser bei Anweisungen", „komplexe Aufgaben mit Sorgfalt und Beständigkeit". Die unabhängigen Benchmark-Ergebnisse zeichnen ein differenzierteres Bild.

Die guten Zahlen

Auf dem Papier ist Opus 4.7 ein solider Fortschritt gegenüber seinem Vorgänger Opus 4.6 — besonders im Coding:

Benchmark	Opus 4.7	Opus 4.6	Delta
SWE-bench Verified	87.6%	80.8%	+6.8
SWE-bench Pro	64.3%	53.4%	+10.9
Terminal-Bench 2.0	69.4%	65.4%	+4.0
MCP-Atlas	77.3%	62.7%	+14.6
CharXiv-R (Vision)	91.0%	84.7%	+6.3

Keine Frage: Wer täglich mit Claude Code arbeitet, wird den Unterschied bei komplexen Multi-File-Refactorings spüren. Der SWE-bench-Pro-Sprung von +10.9 Punkten ist beeindruckend.

Wo GPT-5.4 gewinnt

Was in Anthropics Ankündigung fehlt: In mehreren Kategorien liegt OpenAIs GPT-5.4 vorne.

Benchmark	Opus 4.7	GPT-5.4
Terminal-Bench 2.0	69.4%	75.1%
Humanity's Last Exam (mit Tools)	54.7%	58.7%
GPQA Diamond	94.2%	94.4%
BrowseComp (agentische Suche)	79.3%	84.0%+

Terminal-Bench 2.0 misst die Fähigkeit, Terminal-basierte Aufgaben autonom zu lösen. Genau der Anwendungsfall, den Anthropic mit Claude Code bewirbt. Dass GPT-5.4 hier mit 75.1% zu 69.4% klar führt, ist relevant für jeden, der KI-Agenten im Terminal einsetzt.

Auch bei GPQA Diamond (Graduate-Level Reasoning) und Humanity's Last Exam liegt GPT-5.4 vorne, wenn auch knapp. Gemini 3.1 Pro holt sich außerdem den Sieg bei multilingualen Aufgaben.

Die Regressionen

Besonders aufschlussreich sind die Bereiche, in denen Opus 4.7 schlechter ist als sein Vorgänger:

Benchmark	Opus 4.7	Opus 4.6	Delta
BrowseComp	79.3%	84.0%	-4.7
CyberGym	73.1%	73.8%	-0.7

BrowseComp misst agentische Websuche. Ein Minus von 4.7 Punkten ist keine Schwankung, das ist eine messbare Verschlechterung. Bei CyberGym (Security-Aufgaben) gibt Anthropic offen zu, dass sie „experimentiert haben, um Cyber-Fähigkeiten differenziert zu reduzieren". Heise berichtet, dass Opus 4.7 „bei der Reproduktion von Sicherheitslücken sogar etwas schlechter als der Vorgänger" sei. Die absichtliche Drosselung mag aus Sicherheitsperspektive sinnvoll sein — aber wer für IT-Security-Audits zahlt, bekommt weniger als vorher.

Die versteckte Preiserhöhung

Der Preis pro Token bleibt identisch: 5 Dollar pro Million Input-Tokens, 25 Dollar pro Million Output-Tokens. Klingt fair.

Was Anthropic weniger prominent kommuniziert: Der neue Tokenizer erzeugt bis zu 1,35-mal mehr Tokens für denselben Text. Heise schreibt dazu: „Je nach Input können bis zu einem Drittel mehr Token nötig sein." Anthropic schlägt als Lösung vor, „das Modell dazu aufzufordern, sich prägnanter auszudrücken."

In der Praxis bedeutet das: Gleiche Aufgabe, gleiches Prompt, bis zu 35% höhere Kosten. Dazu kommt das neue xhigh Effort-Level, das noch mehr Reasoning-Tokens verbraucht. Für Teams mit hohem API-Volumen ist das eine faktische Preiserhöhung.

„Befolgt Anweisungen wörtlich" — Fluch und Segen

Anthropic bewirbt, dass Opus 4.7 „substanziell besser" Anweisungen befolge. In der Praxis heißt das: Prompts, die mit Opus 4.6 funktionierten, können unerwartete Ergebnisse liefern. Bullet-Listen, die frühere Modelle als optionale Hinweise behandelten, werden jetzt als harte Anforderungen interpretiert.

Anthropic selbst warnt: „Opus 4.7 befolgt die Anweisungen wörtlich. Deshalb sollten bestehende Anweisungen überprüft werden." Wer ein eingespieltes Setup mit System-Prompts hat, darf also erstmal alles re-tunen.

Mein Fazit

Opus 4.7 ist ein gutes Coding-Modell — wahrscheinlich das beste für SWE-bench-Aufgaben. Aber „das fähigste Modell aller Zeiten" ist es nicht. GPT-5.4 schlägt es in Terminal-Aufgaben, bei allgemeinem Reasoning und bei agentischer Suche. Es hat messbare Regressionen gegenüber dem Vorgänger. Und die Kombination aus neuem Tokenizer und höherem Token-Verbrauch macht es faktisch teurer, ohne dass sich der Listenpreis ändert.

Für meinen Workflow (Claude Code für Symfony/Shopware-Projekte) werde ich Opus 4.7 testen, sobald es als Standard in Claude Code verfügbar ist. Aber die Zeiten, in denen ein einzelnes Modell in allen Kategorien dominiert, sind vorbei. Die KI-Landschaft ist ein Wettkampf auf Augenhöhe geworden und das ist gut für uns Nutzer.

Thomas Wunner

Fachinformatiker für Anwendungsentwicklung mit Ausbildereignungsprüfung und über 14 Jahre Erfahrung im Aufbau skalierbarer Webanwendungen mit Symfony und Shopware. Abseits der Tastatur ist Thomas als Rettungsschwimmer in der Wasserwacht aktiv, legt als DJ auf und erkundet die Umgebung auf dem Motorrad.

Kommentare

Kommentare werden von Remark42 bereitgestellt. Beim Laden werden Daten an unseren Kommentar-Server übertragen.

Claude Opus 4.7: Benchmark-Realität vs. Marketing-Versprechen

Die guten Zahlen¶

Wo GPT-5.4 gewinnt¶

Die Regressionen¶

Die versteckte Preiserhöhung¶

„Befolgt Anweisungen wörtlich" — Fluch und Segen¶

Mein Fazit¶