800× menos custo de API. 4× menos latência. E apenas 3,2 pontos percentuais abaixo do melhor modelo cloud disponível.
O OpenJarvis acabou de tornar a dependência de nuvem para IA pessoal um problema opcional.
O framework foi publicado por pesquisadores de Stanford e Lambda Labs. Não é um modelo — é uma arquitetura que compõe qualquer modelo suportado com uma stack configurável de agentes, memória e aprendizado, tudo rodando inteiramente no dispositivo.
𝗢 𝗾𝘂𝗲 𝗺𝘂𝗱𝗮 𝗮𝗾𝘂𝗶
A maioria dos frameworks de agentes assume que você vai chamar uma API cloud em cada query. Latência de rede, custo por token, dados saindo da sua máquina — tudo aceito como custo de operação.
O OpenJarvis inverte essa premissa.
A pesquisa por trás do framework parte de um dado concreto: modelos locais já lidam com 88,7% das queries de chat e raciocínio com latência interativa. Esse número vem do estudo anterior da equipe, o Intelligence Per Watt, que também registrou uma melhoria de 5,3× em eficiência de inteligência entre 2023 e 2025.
O problema nunca foi o modelo local. Foi a falta de uma stack que o fizesse operar com a mesma qualidade sistêmica de um setup cloud.
𝗢𝘀 𝗰𝗶𝗻𝗰𝗼 𝗽𝗿𝗶𝗺𝗶𝘁𝗶𝘃𝗼𝘀
O OpenJarvis decompõe um sistema de IA pessoal em cinco camadas tipadas, compostas por um único objeto de configuração declarativo — um arquivo TOML chamado spec:
- 𝗜𝗻𝘁𝗲𝗹𝗹𝗶𝗴𝗲𝗻𝗰𝗲 — modelo, pesos, parâmetros de geração, formato de quantização.
- 𝗘𝗻𝗴𝗶𝗻𝗲 — runtime de inferência (Ollama, vLLM, SGLang, entre outros), batching, configurações de KV-cache.
- 𝗔𝗴𝗲𝗻𝘁𝘀 — loop de raciocínio (ReAct ou CodeAct), system prompts, política de uso de ferramentas.
- 𝗧𝗼𝗼𝗹𝘀 & 𝗠𝗲𝗺𝗼𝗿𝘆 — interfaces externas, 25 conectores de dados, 32 canais de mensagem, suporte nativo a MCP, backends de memória intercambiáveis.
- 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴 — otimizador que atualiza a spec a partir de traces. Aceita LoRA, DSPy, GEPA ou busca de spec guiada por LLM.
Cada primitivo é independentemente substituível. Dois specs podem compartilhar a mesma configuração de agente e ferramenta e diferir apenas no modelo e engine — o mesmo comportamento roda num Mac Mini e numa workstation sem reescrever um prompt.
𝗔 𝗽𝗮𝗿𝘁𝗲 𝘁𝗲́𝗰𝗻𝗶𝗰𝗮 𝗾𝘂𝗲 𝗿𝗲𝗮𝗹𝗺𝗲𝗻𝘁𝗲 𝗶𝗺𝗽𝗼𝗿𝘁𝗮
O diferencial não é a modularidade em si. É o que chamam de LLM-guided spec search.
A ideia: um modelo cloud frontier atua como professor na fase de busca. Ele lê traces, diagnostica clusters de falha e propõe edições coordenadas across Intelligence, Engine, Agents e Tools & Memory. Uma edição só é aceita se melhora o cluster alvo sem causar regressões relevantes nas demais métricas — o paper chama isso de gate, com tolerância padrão de 1%.
O spec otimizado roda inteiramente on-device na inferência. Zero chamadas cloud depois da otimização.
O custo amortizado do professor cai abaixo de US$ 0,001 por query em seis meses a 100 queries por dia.
Por que isso importa? Otimizadores anteriores — GEPA, DSPy, LoRA — trabalham um primitivo por vez. Otimizadores de prompt isolados recuperam cerca de 5 pontos percentuais do gap cloud-local. A busca guiada por LLM recupera 13 a 32 pp porque edita múltiplos primitivos de forma coordenada, a um custo de otimização 7 a 11× menor que os baselines de primitivo único.
𝗢𝘀 𝗻𝘂́𝗺𝗲𝗿𝗼𝘀 𝗱𝗼𝘀 𝗯𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝘀
O framework foi avaliado em 8 benchmarks cobrindo 508 tarefas — tool calling, workflows agentic, coding, atendimento ao cliente, pesquisa profunda.
O teste de portabilidade revela o problema que o OpenJarvis resolve: substituir o modelo cloud por Qwen3.5-9B em frameworks existentes (OpenClaw, Hermes Agent) derruba a acurácia em 25 a 39 pp. Com o mesmo modelo sob um spec OpenJarvis, a queda residual encolhe para 5,6 a 16,5 pp — recuperando 56 a 77% da perda de portabilidade.
O melhor modelo local testado, Qwen3.5-122B, chega a 80,3% de acurácia média versus 83,5% do Claude Opus 4.6 — gap de 3,2 pp. Em 4 dos 8 benchmarks, os specs locais igualam ou superam o cloud: ToolCall-15, PinchBench, LiveCodeBench e τ-Bench V2.
O Qwen3.5-122B entrega seus 80,3% a aproximadamente um milésimo de centavo por query, contra US$ 0,009 por query do Claude Opus 4.6 — vantagem de custo marginal de ~800×.
𝗢 𝗾𝘂𝗲 𝗷𝗮́ 𝗳𝘂𝗻𝗰𝗶𝗼𝗻𝗮 𝗻𝗮 𝗽𝗿𝗮́𝘁𝗶𝗰𝗮
Instalação é um comando só (macOS, Linux ou WSL2).
O instalador provisiona o ambiente, Ollama e um modelo starter em cerca de três minutos. Presets prontos cobrem briefings matinais com TTS, pesquisa multi-hop com citações, agente de código com acesso a shell, e agente com estado em schedule.
O framework já conecta a 25 fontes de dados (Gmail, Calendar, iMessage, Notion, Obsidian, Slack, GitHub) e expõe agentes por 32 canais de mensagem (WhatsApp, Telegram, Discord, iMessage, Signal). Skills importáveis de catálogos externos — cerca de 150 do Hermes Agent e cerca de 13.700 da comunidade OpenClaw — seguem a especificação
agentskills.io.
𝗢 𝗾𝘂𝗲 𝗶𝘀𝘀𝗼 𝗱𝗲𝘀𝗹𝗼𝗰𝗮
A lógica atual de IA pessoal é pay-per-thought. Cada query tem custo variável, latência de rede e dados transitando por servidores externos. O modelo de negócio dos grandes provedores depende disso.
O OpenJarvis não é um produto competindo com o Claude ou o GPT. É uma infraestrutura que torna a escolha entre cloud e local uma decisão racional baseada em custo-benefício, não uma imposição técnica.
Quando 88,7% das queries do dia a dia já rodam bem localmente, e a pesquisa mostra que um spec bem otimizado chega a 3,2 pp do topo do cloud — a pergunta muda de "será que modelo local resolve?" para "por que ainda estou pagando por query nessas tarefas?"
A resposta, cada vez mais, é: conveniência. E conveniência tem prazo de validade quando a alternativa custa 800× menos e responde 4× mais rápido.