Filter
Exclude
Time range
-
Near
Prof Abhik Roychoudhury’s @autocoderover technology launched globally as @SonarSource's SonarQube Remediation Agent at #ATxSummit2026. Built on AutoCodeRover, the Sonar Foundation Agent has achieved top-ranking results on the SWE-bench Verified: tinyurl.com/3sk3s2p7
186
From NUS research right into your workflow. 🇸🇬 The SonarQube Remediation Agent (originally developed at NUS as AutoCodeRover) is featured in IMDA's national AI promo. 🚀We're bringing agentic program repair to your workflow. Watch here: youtube.com/watch?v=owVSDm8p… #AI #AAAI2026!
1
4
483
6/ The cross-repository aspect is important. Most prior work (SWE-Agent, AutoCodeRover) only retrieves within the same repo. ExpeRepair and SWE-Exp generate synthetic experiences. This actually mines real human debugging patterns at scale.
1
9
This paper shows today’s coding agents burn lots of energy on small models and barely fix bugs. AutoCodeRover used 9.4x more energy than OpenHands, and the best success rate was 4%. They ran 4 frameworks on 50 SWE-bench Verified Mini issues with Gemma-3 4B and Qwen-3 1.7B. An agentic framework is the step-by-step process that tells the model how to search code and apply edits. A Small Language Model is a smaller, local-running model, but it often cannot keep a long plan straight. On fixed hardware, they measured CPU and GPU energy, runtime, token counts (text chunks), and peak memory. Energy rose with longer runtimes and more output tokens, because the model kept generating and rereading extra text. ReAct-style loops made some agents repeat failed commands until they hit context limits and timed out, with 0 fixes. For local, budget-minded teams, this study says architecture choices can waste power even when the model cannot solve tasks. ---- Paper Link – arxiv. org/abs/2512.09543 Paper Title: "SWEnergy: An Empirical Study on Energy Efficiency in Agentic Issue Resolution Frameworks with SLMs"
7
2
17
3,187
This paper shows today’s coding agents burn lots of energy on small models and barely fix bugs. AutoCodeRover used 9.4x more energy than OpenHands, and the best success rate was 4%. They ran 4 frameworks on 50 SWE-bench Verified Mini issues with Gemma-3 4B and Qwen-3 1.7B. An agentic framework is the step-by-step process that tells the model how to search code and apply edits. A Small Language Model is a smaller, local-running model, but it often cannot keep a long plan straight. On fixed hardware, they measured CPU and GPU energy, runtime, token counts (text chunks), and peak memory. Energy rose with longer runtimes and more output tokens, because the model kept generating and rereading extra text. ReAct-style loops made some agents repeat failed commands until they hit context limits and timed out, with 0 fixes. For local, budget-minded teams, this study says architecture choices can waste power even when the model cannot solve tasks. ---- Paper Link – arxiv. org/abs/2512.09543 Paper Title: "SWEnergy: An Empirical Study on Energy Efficiency in Agentic Issue Resolution Frameworks with SLMs"
7
5
37
4,098
20 Nov 2025
🚨 @SonarSource prepara el lanzamiento de 𝙎𝙤𝙣𝙖𝙧 𝙁𝙤𝙪𝙣𝙙𝙖𝙩𝙞𝙤𝙣 𝘼𝙜𝙚𝙣𝙩, un nuevo agente capaz de analizar errores, investigar su origen y generar parches de forma autónoma. Nace tras la integración de AutoCodeRover y funciona con tool-calling sobre LlamaIndex. Conoce todos los detalles en nuestro blog: tinyurl.com/43xy9wrj
2
58
20 Nov 2025
@SonarSource prepara el lanzamiento de 𝙎𝙤𝙣𝙖𝙧 𝙁𝙤𝙪𝙣𝙙𝙖𝙩𝙞𝙤𝙣 𝘼𝙜𝙚𝙣𝙩, un nuevo agente capaz de analizar errores, investigar su origen y generar parches de forma autónoma. Nace tras la integración de AutoCodeRover y funciona con tool-calling sobre LlamaIndex. Conoce todos los detalles en nuestro blog: tinyurl.com/43xy9wrj
1
1
14
"1 Introdução Os grandes modelos de linguagem (LLMs) avançaram significativamente a inteligência artificial por meio de sistemas conversacionais capazes de compreender e gerar linguagem natural fluente [1, 2]. A adoção precoce no desenvolvimento de software posicionou os LLMs como assistentes complementares — os desenvolvedores empregavam prompts de linguagem natural para gerar trechos de código, mas limitações significativas de precisão exigiam revisão manual e depuração iterativa ao longo do ciclo de vida do desenvolvimento de software [3, 4, 5, 6, 7]. O surgimento de arquiteturas avançadas como GPT-4 [8] e Claude Sonnet 4 [9] permitiu melhorias qualitativas, levando a agentes de codificação capazes de completar autonomamente tarefas de programação por meio da interação dinâmica com o ambiente via comandos shell, operações de arquivo e execução de testes [10]. Esses agentes demonstraram rápido progresso em tarefas de programação do mundo real. Tomando o SWE-bench como exemplo [11], o SWE-agent atingiu 12,5% com interfaces personalizadas [12], o AutoCodeRover alcançou 19,0% de resolução por meio da pesquisa de código e localização de falhas [13], o Agentless atingiu 27,3% [14], o OpenHands alcançou 53% no SWE-bench Verified [15] e os agentes com autoaperfeiçoamento demonstraram ganhos de desempenho de 17 a 53% no SWE-bench Verified [16]. Com o avanço de grandes modelos de linguagem, como GPT-5 Pro [17] e Claude Sonnet 4.5 [9], os recursos dos agentes de codificação baseados em llm alcançaram avanços significativos, dando origem ao “Vibe Coding” — um paradigma em que os desenvolvedores confiam no código gerado por IA sem inspeção linha por linha, envolvendo-se, em vez disso, em ciclos iterativos de articulação de requisitos de linguagem natural, observação de execução e feedback [18, 19, 20, 21]. Os agentes de codificação vão além da geração de código — eles configuram ambientes de forma autônoma, executam programas, autodiagnosticam erros e atualizam implementações. Isso representa um aumento substancial na confiança humana e um afastamento das exigências tradicionais de compreensão em direção à validação orientada para resultados [22, 23, 24, 25]. No entanto, possuir agentes poderosos se mostra insuficiente. A complexidade das tarefas expõe limitações fundamentais nas instruções em linguagem natural não estruturada, que não conseguem transmitir requisitos sutis e restrições arquitetônicas [11, 26]. Evidências empíricas revelam que desenvolvedores experientes que usaram o Cursor com o Claude tiveram um aumento de 19% no tempo de conclusão, em vez dos ganhos de produtividade esperados [27]. A colaboração eficaz entre humanos e IA exige engenharia sistemática de prompts e engenharia de contexto [28], instruções estruturadas [29, 3, 30, 31] e distribuição equilibrada de agências entre vários tipos distintos de interação [32, 33]. Para abordar essa lacuna crítica, esta pesquisa fornece a primeira revisão abrangente e sistemática da codificação Vibe com grandes modelos de linguagem. Conforme mostrado na Figura 2, apresentamos a codificação Vibe como uma relação triádica dinâmica entre desenvolvedores humanos, projetos de software e agentes de codificação, fornecendo sua primeira definição formal como uma disciplina de engenharia por meio de um processo de decisão de Markov restrito [34]. Com base nessa fundamentação teórica, destilamos os fluxos de trabalho da codificação Vibe em cinco modelos de desenvolvimento — Modelo de automação irrestrita, Modelo de colaboração conversacional iterativa, Modelo orientado por planejamento, Modelo orientado por testes e Modelo aprimorado por contexto — representando a primeira síntese abrangente das práticas existentes. Por meio dessa estrutura, nós: (1) estabelecemos fundamentos teóricos rigorosos para a compreensão da colaboração entre humanos e agentes no desenvolvimento de software; (2) fornecemos aos desenvolvedores orientações práticas para a seleção e implementação de estratégias de desenvolvimento adequadas; e (3) identificamos desafios críticos e direções futuras que abrangem infraestrutura técnica, mecanismos de segurança e fatores humanos. Este trabalho serve tanto como base conceitual para o campo emergente da engenharia de software aumentada por IA quanto como um roteiro técnico para o avanço da pesquisa e da prática em sistemas de agentes de codificação." -- By DeepL from arxiv.org/html/2510.12399v1

"Resumo O avanço dos grandes modelos de linguagem (LLMs) catalisou uma mudança de paradigma da assistência à geração de código para agentes de codificação autônomos, possibilitando uma nova metodologia de desenvolvimento denominada “Vibe Coding”, na qual os desenvolvedores validam as implementações geradas por IA por meio da observação dos resultados, em vez da compreensão do código linha por linha. Apesar de seu potencial transformador, a eficácia desse paradigma emergente permanece pouco explorada, com evidências empíricas revelando perdas inesperadas de produtividade e desafios fundamentais na colaboração entre humanos e IA. Para abordar essa lacuna, esta pesquisa fornece a primeira revisão abrangente e sistemática da Vibe Coding com grandes modelos de linguagem, estabelecendo bases teóricas e estruturas práticas para essa abordagem de desenvolvimento transformadora. Com base na análise sistemática de mais de 1.000 artigos de pesquisa, pesquisamos todo o ecossistema da Vibe Coding, examinando componentes críticos da infraestrutura, incluindo LLMs para codificação, agente de codificação baseado em LLM, ambiente de desenvolvimento do agente de codificação e mecanismos de feedback. Primeiro, apresentamos a codificação Vibe como uma disciplina formal, formalizando-a por meio de um Processo de Decisão Markov Restrito que captura a relação triádica dinâmica entre desenvolvedores humanos, projetos de software e agentes de codificação. Com base nessa fundamentação teórica, sintetizamos as práticas existentes em cinco modelos de desenvolvimento distintos: automação irrestrita, colaboração conversacional iterativa, orientada por planejamento, orientada por testes e modelos aprimorados por contexto, fornecendo assim a primeira taxonomia abrangente neste domínio. Criticamente, nossa análise revela que o Vibe Coding bem-sucedido depende não apenas das capacidades do agente, mas também da engenharia de contexto sistemática, de ambientes de desenvolvimento bem estabelecidos e de modelos de desenvolvimento colaborativo entre humanos e agentes. Com base nessas descobertas, identificamos os principais desafios que abrangem a otimização da infraestrutura técnica, os mecanismos de segurança e as considerações de design centradas no ser humano. Em última análise, esta pesquisa serve tanto como base conceitual para a engenharia de software aumentada por IA quanto como um roteiro técnico para pesquisadores e profissionais que navegam neste campo em rápida evolução." -- By DeepL from arxiv.org/html/2510.12399v1
22
21 Sep 2025
Localization modules are overly engineered for Python. As discussed in Section 3.1, except for SWE-agent, the systems that we study (Agentless, Moatless, and AutoCodeRover) impose fixed, procedural problem-solving workflows.
21
20 Jul 2025
Microsoftによる開発支援エージェントのセキュリティリスク調査。AgentCoder、AutoCodeRoverの実験において、タスクの40%以上で脆弱なコードを生成しており、特に認証認可や入力検証の不備が多く、セキュリティ要件が無視されるるケースもあった、とのこと。 arxiv.org/abs/2507.09329
1
28
1,816
AIソフトウェアエンジニアってこんな感じになってるみたい。 LLMの進化で自動コーディングへの期待が高まる中、この論文は 「統一されたAIソフトウェアエンジニア(USEagent)」とはどういう感じかというのに踏み込んでいます。 従来の特化型エージェントとは異なり、USEagentは複数のSE活動(メンテ、新機能追加など)を統合・オーケストレーションできる汎用エージェントです。 複雑なタスクも対応可能とのこと USEagentのポイント: ・Meta-AgentがCode Retrieval、Edit Codeなどの「アクション」を動的に構成。 ・ReActスタイルの意思決定で、タスクに適応したワークフローをその場で構築。 ・短期・長期・合意メモリで知識管理。 評価結果(USEbench使用): ・1,271のタスクで33.3%のPASSを達成、既存の汎用エージェントOpenHands CodeActAgent(26.8%)を上回る。 ・特にソフトウェアメンテナンス(SWE-bench-verified)では45.6%と、特化型エージェントAutoCodeRoverに匹敵する性能! ・テスト生成タスク(REPOTEST)でも31.8%の有効性を示し、汎用性を発揮。 ・自己構成能力により、タスクの種類に応じて異なるアクションパターンを選択。 全体的に課題は残るものの(大量コード記述、後戻り機能、オーバーフィッティングなど)、将来の人間とAIが協力する開発チームを俯瞰した感じの論文です。ClaudeCodeだけじゃないよ。世の中色々ある。 Voicyでざっくり話してます。
59
23/ Systems like AutoCodeRover strike a middle ground by using smart navigation tools and structured phases for understanding and fixing code
22
The effectiveness of different agent frameworks like dynamic LLM-based agents (SWE-Agent) and procedural control (AutoCodeRover) were contrasted, highlighting the balance between exploration flexibility and control precision.
1
15
🚀 I recently completed the Spring 2025 Advanced LLM Agents MOOC, which provided an exceptional exploration of the rapidly evolving field of AI agents. Led by distinguished experts from UC Berkeley, DeepMind, Meta FAIR, and Salesforce AI, this comprehensive program balanced theoretical foundations with practical applications, examining both the remarkable capabilities and inherent challenges of LLM-based agents. 🔍Enhanced Reasoning and Optimization Techniques The course thoroughly examined inference-time strategies that amplify LLM reasoning capabilities without requiring model retraining. We explored Chain-of-Thought prompting, analogical reasoning frameworks, and self-consistency methods that significantly improve agent performance. Post-training optimization techniques, including Direct Preference Optimization (DPO) and Chain-of-Verification (CoVe), were highlighted as crucial methods for refining agent behavior, minimizing hallucinations, and ensuring more reliable, safer outputs across diverse applications. 🧠Memory Architecture and Strategic Planning A fascinating aspect covered the development of agents with sophisticated long-term memory capabilities. Advanced techniques like HippoRAG demonstrate how memory architectures can be seamlessly integrated into agent frameworks, enabling persistent context retention and dramatically improved task execution over extended periods. These agents are evolving beyond simple responders into strategic planners capable of orchestrating complex workflows using tools, APIs, and multi-step reasoning processes. 💻Software Engineering and Cybersecurity Applications The program provided deep insights into LLM agents' transformative impact on software development and cybersecurity. Systems like SWE-agent and AutoCodeRover showcase how agents can autonomously identify and remediate code vulnerabilities with performance rivaling traditional static analyzers. These sophisticated agents employ dynamic reasoning and seamless tool integration to navigate complex codebases, detect potential security issues, and propose effective solutions, representing a significant leap forward in automated software development and security management. 📹Multimodal and Interactive Capabilities Real-world deployment requires agents that process more than textual information. Projects such as Mind2Web and VisualWebArena demonstrated agents successfully navigating web environments, interpreting visual elements, and executing complex tasks like online shopping and form completion. These sessions emphasized the critical importance of integrating perception, reasoning, and action capabilities to create agents that operate effectively across diverse, real-world scenarios. ⚖️Formal Mathematical Reasoning The course explored agents' expanding capabilities in mathematics and formal logic. Tools like LeanDojo and AlphaProof illustrate how LLMs are being trained to assist with theorem proving and formal verification—domains traditionally requiring specialized human expertise. This represents a significant advancement in AI's ability to handle rigorous, symbolic reasoning tasks. 🛡️Comprehensive Safety and Security Framework As LLM agents integrate into critical systems, robust safety measures become essential. The course extensively covered defense mechanisms including prompt injection countermeasures through input preprocessing and guardrails, Progent's programmable privilege control enforcing least-privilege principles, and RTBAS framework's selective security metadata propagation. 👉Key Takeaway This program transcended technical capabilities, emphasizing responsible development principles. By combining theoretical depth with practical applications across multiple domains, it equipped participants with essential knowledge for developing intelligent, reliable, and ethical AI agents. 📌For anyone interested in agentic AI, please check out the course website for this comprehensive curriculum: llmagents-learning.org/sp25 @dawnsongtweets
1
83
27 May 2025
🤖 How do LLMs write & fix real-world code? Lecture 5 breaks down coding agents: 🔹 SWE-Agent, AutoCodeRover, RepairAgent 🔹 ReAct loops tool use smart control flow 🔹 AI for vulns & CTFs (Big Sleep, EnIGMA) Agents aren’t just prompting — they act. ayush111111.github.io/Coding…

1
1
19
8 May 2025
AI improves code quality, code security, and reduces technical debt, but #developers should still review its output. 🔎 Hear Sonar's @Marcus Low on AI & software’s future in @readtheedge_sg 👉 theedgesingapore.com/digital… #SingaporeInnovation #AutoCodeRover

2
526
17 Mar 2025
What makes AutoCodeRover 🤖 different? While other LLM agents focus on scanning through file systems and looking at how components interconnect, AutoCodeRover takes a more developer-centric approach. More insights 💡 from @AbhikRoychoudh1: nus.edu/4izIyOP @NUSComputing

1
2
364