Am 16. April 2026 hat Anthropic Claude Opus 4.7 veröffentlicht. Die Pressemitteilung liest sich wie erwartet: „unser fähigstes Modell", „substanziell besser bei Anweisungen", „komplexe Aufgaben mit Sorgfalt und Beständigkeit". Die unabhängigen Benchmark-Ergebnisse zeichnen ein differenzierteres Bild.
Die guten Zahlen
Auf dem Papier ist Opus 4.7 ein solider Fortschritt gegenüber seinem Vorgänger Opus 4.6 — besonders im Coding:
| Benchmark | Opus 4.7 | Opus 4.6 | Delta |
|---|---|---|---|
| SWE-bench Verified | 87.6% | 80.8% | +6.8 |
| SWE-bench Pro | 64.3% | 53.4% | +10.9 |
| Terminal-Bench 2.0 | 69.4% | 65.4% | +4.0 |
| MCP-Atlas | 77.3% | 62.7% | +14.6 |
| CharXiv-R (Vision) | 91.0% | 84.7% | +6.3 |
Keine Frage: Wer täglich mit Claude Code arbeitet, wird den Unterschied bei komplexen Multi-File-Refactorings spüren. Der SWE-bench-Pro-Sprung von +10.9 Punkten ist beeindruckend.
Wo GPT-5.4 gewinnt
Was in Anthropics Ankündigung fehlt: In mehreren Kategorien liegt OpenAIs GPT-5.4 vorne.
| Benchmark | Opus 4.7 | GPT-5.4 |
|---|---|---|
| Terminal-Bench 2.0 | 69.4% | 75.1% |
| Humanity's Last Exam (mit Tools) | 54.7% | 58.7% |
| GPQA Diamond | 94.2% | 94.4% |
| BrowseComp (agentische Suche) | 79.3% | 84.0%+ |
Terminal-Bench 2.0 misst die Fähigkeit, Terminal-basierte Aufgaben autonom zu lösen. Genau der Anwendungsfall, den Anthropic mit Claude Code bewirbt. Dass GPT-5.4 hier mit 75.1% zu 69.4% klar führt, ist relevant für jeden, der KI-Agenten im Terminal einsetzt.
Auch bei GPQA Diamond (Graduate-Level Reasoning) und Humanity's Last Exam liegt GPT-5.4 vorne, wenn auch knapp. Gemini 3.1 Pro holt sich außerdem den Sieg bei multilingualen Aufgaben.
Die Regressionen
Besonders aufschlussreich sind die Bereiche, in denen Opus 4.7 schlechter ist als sein Vorgänger:
| Benchmark | Opus 4.7 | Opus 4.6 | Delta |
|---|---|---|---|
| BrowseComp | 79.3% | 84.0% | -4.7 |
| CyberGym | 73.1% | 73.8% | -0.7 |
BrowseComp misst agentische Websuche. Ein Minus von 4.7 Punkten ist keine Schwankung, das ist eine messbare Verschlechterung. Bei CyberGym (Security-Aufgaben) gibt Anthropic offen zu, dass sie „experimentiert haben, um Cyber-Fähigkeiten differenziert zu reduzieren". Heise berichtet, dass Opus 4.7 „bei der Reproduktion von Sicherheitslücken sogar etwas schlechter als der Vorgänger" sei. Die absichtliche Drosselung mag aus Sicherheitsperspektive sinnvoll sein — aber wer für IT-Security-Audits zahlt, bekommt weniger als vorher.
Die versteckte Preiserhöhung
Der Preis pro Token bleibt identisch: 5 Dollar pro Million Input-Tokens, 25 Dollar pro Million Output-Tokens. Klingt fair.
Was Anthropic weniger prominent kommuniziert: Der neue Tokenizer erzeugt bis zu 1,35-mal mehr Tokens für denselben Text. Heise schreibt dazu: „Je nach Input können bis zu einem Drittel mehr Token nötig sein." Anthropic schlägt als Lösung vor, „das Modell dazu aufzufordern, sich prägnanter auszudrücken."
In der Praxis bedeutet das: Gleiche Aufgabe, gleiches Prompt, bis zu 35% höhere Kosten. Dazu kommt das neue xhigh Effort-Level, das noch mehr Reasoning-Tokens verbraucht. Für Teams mit hohem API-Volumen ist das eine faktische Preiserhöhung.
„Befolgt Anweisungen wörtlich" — Fluch und Segen
Anthropic bewirbt, dass Opus 4.7 „substanziell besser" Anweisungen befolge. In der Praxis heißt das: Prompts, die mit Opus 4.6 funktionierten, können unerwartete Ergebnisse liefern. Bullet-Listen, die frühere Modelle als optionale Hinweise behandelten, werden jetzt als harte Anforderungen interpretiert.
Anthropic selbst warnt: „Opus 4.7 befolgt die Anweisungen wörtlich. Deshalb sollten bestehende Anweisungen überprüft werden." Wer ein eingespieltes Setup mit System-Prompts hat, darf also erstmal alles re-tunen.
Mein Fazit
Opus 4.7 ist ein gutes Coding-Modell — wahrscheinlich das beste für SWE-bench-Aufgaben. Aber „das fähigste Modell aller Zeiten" ist es nicht. GPT-5.4 schlägt es in Terminal-Aufgaben, bei allgemeinem Reasoning und bei agentischer Suche. Es hat messbare Regressionen gegenüber dem Vorgänger. Und die Kombination aus neuem Tokenizer und höherem Token-Verbrauch macht es faktisch teurer, ohne dass sich der Listenpreis ändert.
Für meinen Workflow (Claude Code für Symfony/Shopware-Projekte) werde ich Opus 4.7 testen, sobald es als Standard in Claude Code verfügbar ist. Aber die Zeiten, in denen ein einzelnes Modell in allen Kategorien dominiert, sind vorbei. Die KI-Landschaft ist ein Wettkampf auf Augenhöhe geworden und das ist gut für uns Nutzer.
Kommentare
Kommentare werden von Remark42 bereitgestellt. Beim Laden werden Daten an unseren Kommentar-Server übertragen.