Joined March 2009
199 Photos and videos
Si corres más de un agente de código, sabes que cuando empiezan a pisarse los archivos es un caos. Bastion aísla cada agente en su propia VM. Le defines el entorno con un JSON (runtimes, repo, credenciales) y lo hosteas tú en Linux con KVM. Nada de compartir directorios ni procesos. Me pregunto cuánto overhead añade tener una VM por agente para proyectos pequeños.
20
Toni Soriano retweeted
The US government, citing national security authorities, has issued an export control directive to suspend all access to Fable 5 and Mythos 5 by any foreign national, whether inside or outside the United States, including foreign national Anthropic employees. The net effect of this order is that we must abruptly disable Fable 5 and Mythos 5 for all our customers to ensure compliance. Access to all other Claude models is not affected. We apologize for this disruption to our customers. We believe this is a misunderstanding and are working to restore access as soon as possible. Read our full statement: anthropic.com/news/fable-myt…
12,378
25,660
87,366
87,719,985
Te compras la suscripción más cara de Anthropic y de repente el gobierno te deja sin los modelos por los que pagaste. EEUU ordenó suspender Fable 5 y Mythos 5 para todos los clientes. Dicen que encontraron un jailbreak. Anthropic responde que la vulnerabilidad es menor y que otros modelos públicos también la tienen sin necesidad de saltarse nada. La pregunta de fondo: ¿quién decide cuándo un modelo deja de estar disponible para todos?
1
61
¿Y si el que te ayuda a escribir código es el mismo que mañana te saca del negocio? Esa es la apuesta de Niteshift: fundada por ex-Datadog, rutea entre OpenAI, Anthropic y open source para que no dependas de un solo modelo. La lección de Datadog fue que los e-commerce no querían correr en AWS por miedo a Amazon. Lo mismo está pasando con la IA. Lo que no me queda claro es si el ruteo justifica la capa extra o si acaba siendo más complejidad que solución.
41
Cuando le preguntas a Google y te inventa una estafa que no existe, la culpa es de Google. Un tribunal alemán acaba de decidir que los AI Overviews son contenido propio de Google. No aplica la protección de los buscadores tradicionales. Google es responsable directo de lo que la IA dice. Si esto se extiende, los resúmenes generados con IA dejarán de ser un experimento sin consecuencias.
21
Dejé a Claude Code trabajando mientras me tomaba un café. Cuando volví, había gastado el presupuesto del día en un bucle infinito de retries. Guardian Runtime se pone entre el agente y la API: corta el internet si se encalla y escanea cada petición antes de enviarla para que no se te vaya una API key filtrada en una llamada normal. También aprieta los prompts para que el modelo responda más corto, y corre en local sin depender de la nube. Lo bajo para probarlo, pero me pregunto cuánta latencia añade cuando el agente va rápido.
1
31
He visto a un agente hacer veinte búsquedas iguales y traerse el mismo resultado cada vez porque no podía afinar el filtro. Perplexity lo cambia: en vez de llamar a una API fija, el agente escribe su propio script de búsqueda en Python. Puede lanzar consultas en paralelo, descartar duplicados y quedarse solo con lo que necesita. El ahorro de tokens suena bien. Lo que no me queda claro es cuánto tarda el sandbox en arrancar para búsquedas simples.
27
Tener un agente de código es genial hasta que ves la factura y te das cuenta de que le estás pagando a Claude Opus para que te ponga comas. NerfGuard mete un clasificador antes de cada petición y manda lo trivial al modelo barato. Reserva el cerebrazo solo para lo que de verdad lo necesita. Dicen 3x más uso por el mismo gasto. Me gusta la idea, pero me pregunto cuánto se complica cuando el clasificador se equivoca y una tarea compleja acaba en el modelo cutre.
45
Siempre he querido un modelo que vea, oiga y razone en el portátil sin tener que pedirle una GPU a un amigo. Google acaba de soltar Gemma 4 12B: abierto, procesa texto, imágenes y audio sin codificadores separados, y corre con 16 GB de RAM. Casi iguala al modelo de 26B en benchmarks. Lo que me falta es saber cómo se porta con audio real (ruido de fondo, acentos, cortes). Apache 2.0, así que lo bajo para probarlo este fin de semana.
51
Llevas quince minutos esperando a que el LLM termine una llamada de herramienta y cuando por fin llega, el JSON se corta por la mitad. Error de parseo. El tool call se pierde y tienes que repetir toda la petición. Suture se coloca entre tu app y el proveedor y repara el JSON en vivo: detecta dónde se truncó y añade los caracteres que faltan (una comilla, una llave) sin cachear el stream ni añadir latencia. Me pregunto cuántas tool calls rotas hemos aceptado como normales cuando se podían reparar en microsegundos.
35
Cuando le pido a ChatGPT que invente algo, me da una de dos: lo que ya sabía o un sinsentido con buena redacción. Richard Sutton lo define con un chiste de investigadores: "esto es novedoso y bueno. Lástima que lo bueno no es novedoso y lo novedoso no es bueno". Su punto es que los LLMs generan sin evaluar. Sin testear si lo nuevo sirve, la novedad se enciende y se apaga. Para ciencia se necesita el paso que falta: medir, seleccionar, retener.
1
33
Cada vez que encadeno varios LLMs acabo con scripts que solo yo entiendo y un YAML mentiroso. llmff trata los pipelines como FFmpeg trata el video: un grafo tipado con YAML reproducible y adaptadores para cada backend. También valida y repara JSON sobre la marcha y deja trazas JSONL para depurar. Me gusta la abstracción, pero el éxito depende de que los adaptadores se mantengan al día. Lo pruebo cuando tenga que orquestar más de dos modelos.
38
La empresa que más cree en la IA te pide que no la uses durante la entrevista. Anthropic prohíbe modelos de lenguaje en las rondas en vivo. Quieren ver cómo piensas sin red: valores, dilemas éticos, criterio propio. Suena coherente con su obsesión por la alineación. Pero también es una forma de filtrar a quienes dependen de la máquina para parecer listos. ¿Justo o elitista?
40
Salesforce dice que con Claude Code movió una migración de 231 días a 13 días. Y sin disparar los errores: los incidentes cayeron un 5%. Los desarrolladores ya no escriben código, orquestan agentes. Pull requests subieron un 79%, pero el rol cambió: ahora construyen "skills" reutilizables y flujos de sub-agentes. Las cifras son del propio Salesforce, sin auditoría externa. Pero me interesa más el cambio de fondo: el desarrollador pasa de escritor a director de orquesta. Eso sí redefine el trabajo de verdad.
1
60
Una empresa gastó 500 millones de dólares en Claude en un solo mes. No por productividad, sino porque nadie puso límites de uso en las licencias. El problema no es el precio de los modelos. Es que la gente usa IA para consultar el tiempo o dejan el contexto abierto eternamente. Medio billón por no configurar un par de reglas. Lo barato sale caro. Las empresas necesitan gente que sepa gobernar esto: elegir modelo, cerrar contextos y poner topes. Si no, lo que ahorras en salarios lo quemas en tokens.
2
93
Mistral renombra LeChat a Vibe y lo reposiciona como agente de trabajo completo. Work Mode conecta con Google Workspace, Slack y GitHub para tareas recurrentes. Code Mode mete agentes en sandboxes aislados que abren PRs y sobreviven al cierre del portátil. Lo que me chirría: los límites de los planes son un misterio. Mistral solo dice 'hasta 6x mensajes, 40x imágenes' del plan gratuito, pero nunca dice cuánto da el gratuito. 14.99€/mes por saber cuánto te dan me parece poco serio. El producto mola, pero la transparencia, cero.
1
70
I can see opus 4.8 in claude.ai/new only me ?
44
Robinhood permite que Claude o Cursor compren y vendan acciones por ti vía MCP. El agente ejecuta trades sin pedir permiso. Recibes notificación, pero el responsable sigues siendo tú. La letra pequeña lo pone negro sobre blanco: "riesgo significativo, incluida la pérdida total de la inversión". FINRA ya clasifica a los agentes de IA como nuevo riesgo regulatorio. Que un bróker de retail apueste por esto me parece lógico. Que lo hagan sin preguntar antes de cada trade, una decisión interesante.
49
Paul Graham no lee emails escritos con IA. Dice que se siente como si le mintieran. No es que odie la tecnología (Y Combinator invirtió en OpenAI), es que usar IA para comunicación personal es una señal de desinterés. Un estudio de Ohio State lo confirma: los destinatarios perciben estos mensajes como pereza. 40% de empleados reciben contenido IA low-quality de colegas. El problema no es la herramienta, es la pérdida de confianza. Y eso sí que no lo arregla un prompt.
1
61
George Hotz dice que los coding agents serán uno de los errores más caros del desarrollo de software. Pasó de creer en o1-preview a declararse en el 'campo LeCun/Marcus' tras seis meses probándolos. Su diagnóstico: los modelos hacen prototipos rápido pero se caen en los detalles finos. Y los errores son más difíciles de detectar porque el código imita patrones estadísticos. Las organizaciones grandes son las que más riesgo corren: un dev junior no va a ver la basura. La comunidad se parte. Karpathy se ha vuelto a subir al carro con GPT-5.4 y Opus 4.6. A mí el debate me parece sano: cuándo confiar en un agente y cuándo no. El problema no es si funciona, sino para quién.
2
42