🤔 Están muy bien los papers y sus benchmarks pero cuando el río suena…
Lejos de hablar de la sensación generalizada de muchas personas muy top, voy a dar mi humilde opinión.
Llevo usando Claude Code casi desde la Beta. Opus 4.5 fue un antes y un después y Opus 4.6 fue una gran evolución.
Hasta ~finales de Marzo todo iba como la seda. Llevo con un harness para desarrollo local que he ido iterando desde Noviembre del año pasado y me daba resultados fantásticos.
Los equipos de agentes de Claude Code eran una maravilla (que quema tokens como locos pero una maravilla)
Desde que empezó Abril sin embargo ha empezado a haber cosas muy raras:
- peores respuestas en general (tanto para administrar infra como para desarrollar)
- estimaciones de tiempo random que nadie le ha pedido (Ejem: “voy a tardar 12h en esta tarea” luego tarda 3 minutos y mal)
- se salta reglas deliberadamente indicadas en sus ficheros de config de múltiples formas cosa que antes nunca hacía
- se salta levantar su equipo de agentes y toca recordárselo, incluso sin haber compactado su contexto antes
Podría listar mil cosas pero el resumen es el mismo y repito que si varias personas hemos notado lo mismo. Raro es que algo no hayan tocado por mucho que digan que no.
Opus 4.7 se siente “igual” que cuando salió Opus 4.6 pero con la diferencia de que con el nuevo tokenizador usa ~el doble de tokens que antes. Lo que equivale a gastarte antes tus límites… y mira que tengo el Max x20 pero pues me da que están allanando el terreno para un plan superior dentro de no mucho.
En fin, repito que esta sensación es bastante generalizada. No algo de 2/3 personas. Por lo que la skill issue pues bueno, podría decir quizá de mí pero de otra gente mucho más top que yo me extrañaría.
Lo importante de todas formas es ser críticos con lo que usamos para obtener un mejor servicio. Si simplemente leemos un paper y vemos un benchmark y aplaudimos no sirve para nada y el servicio empeora. Pasa con todo, no solo con esto.
1. Opus 4.7 es otro modelo. No es 4.6
2. Opus 4.6 no ha sido nerfeado en forma alguna. Funciona igual de bien que al principio (si sabes usarlo, claro).
3. El nuevo tokenizador de Opus 4.7 es parte de la capacidad de mejora del modelo.
4. Si no te gusta, ahí tienes GLM u otros.
Esto no está copiado y pegado de otros: esto es trabajo real, lectura de papers, estudio y compresión.