Home > Uncategorized > awesome-code-agents

awesome-code-agents

A curated list of products, benchmarks, and research papers on autonomous code agents. Beyond coding — they're redefining how software changes the world.

python

Why this rank:Strong adoptionRecent releaseHealthy release cadence

Description

A curated list of products, benchmarks, and research papers on autonomous code agents. Beyond coding — they're redefining how software changes the world.

README

🤖 Awesome Code Agents
Towards AI-Powered Software 3.0

A curated list of research papers on autonomous code agents.
Beyond coding — these agents are redefining how software changes the world.

Website • X/Twitter • LinkedIn • Discord • Reddit • GitHub

Photo Credit: Gemini-Nano-Banana-Pro🍌.

Quick Navigation

🔥 We are actively tracking the frontier research of code agents.
🧹 We periodically curate our collection, retaining only published papers and interesting arXiv preprints from the last six months.
📚 Currently collected: 516 papers — (Last update: 2026-04-21)

📚 Papers
🗺️ Research Landscape
🤝 Contributing
🌟 Star History
🙏 Acknowledgements

📚 Papers

Explore foundational, recent, and influential works advancing the code agent research landscape.

🌍 Foundation Models

Large Language Models designed or extended for advanced software engineering capabilities.

CWM: An Open-Weights LLM for Research on Code Generation with World Models.
FAIR CodeGen team, Jade Copet, Quentin Carbonneaux, Gal Cohen, Jonas Gehring, Jacob Kahn, Jannik Kossen, Felix Kreuk, Emily McMilin, Michel Meyer, et al. arXiv 2025/09.
Introducing: Devstral 2 and Mistral Vibe CLI.
Mistral. 2025/12.
Qwen3-Coder: Agentic Coding in the World.
QwenTeam. 2025/07.
Kimi K2: Open Agentic Intelligence.
Kimi Team: Yifan Bai, Yiping Bao, Guanduo Chen, Jiahao Chen, Ningxin Chen, Ruijue Chen, Yanru Chen, Yuankun Chen, Yutian Chen, Zhuofu Chen, et al. arXiv 2025/07.

🔧 Software General Engineering Agents

🛠 Issue Resolution

Automated bug fixing, patch generation, repair techniques.

Prometheus: Unified Knowledge Graphs for Issue Resolution in Multilingual Codebases.
Zimin Chen, Yue Pan, Siyu Lu, Jiayi Xu, Claire Le Goues, Martin Monperrus, He Ye. arXiv 2025.
SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving.
Chaofan Tao, Jierun Chen, Yuxin Jiang, Kaiqi Kou, Shaowei Wang, Ruoyu Wang, Xiaohui Li, Sidi Yang, Yiming Du, Jianbo Dai, et al. arXiv 2026/01.
Are "Solved Issues" in SWE-bench Really Solved Correctly? An Empirical Study.
You Wang, Michael Pradel, Zhongxin Liu. ICSE 2026.
Unified Software Engineering Agent as AI Software Engineer.
Leonhard Applis, Yuntong Zhang, Shanchao Liang, Nan Jiang, Lin Tan, Abhik Roychoudhury. ICSE 2026.
Beyond Final Code: A Process-Oriented Error Analysis of Software Development Agents in Real-World GitHub Scenarios.
Zhi Chen, Wei Ma, Lingxiao Jiang. ICSE 2026.
LLM-based Agents for Automated Bug Fixing: How Far Are We?
Xiangxin Meng, Zexiong Ma, Pengfei Gao, Chao Peng. ICSE 2026.
Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem.
Weixun Wang, XiaoXiao Xu, Wanhe An, Fangwen Dai, Wei Gao, Yancheng He, Ju Huang, Qiang Ji, Hanqi Jin, Xiaoyang Li, et al. arXiv 2025/12.
Toward Training Superintelligent Software Agents through Self-Play SWE-RL.
Yuxiang Wei, Zhiqing Sun, Emily McMilin, Jonas Gehring, David Zhang, Gabriel Synnaeve, Daniel Fried, Lingming Zhang, Sida Wang. arXiv 2025/12.
Confucius Code Agent: Scalable Agent Scaffolding for Real-World Codebases.
Zhaodong Wang, Zhenting Qi, Sherman Wong, Nathan Hu, Samuel Lin, Jun Ge, Erwin Gao, Wenlin Chen, Yilun Du, Minlan Yu, et al. arXiv 2025/12.
Is Vibe Coding Safe? Benchmarking Vulnerability of Agent-Generated Code in Real-World Tasks.
Songwen Zhao, Danqing Wang, Kexun Zhang, Jiaxuan Luo, Zhuo Li, Lei Li. arXiv 2025/12.
Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?
Chunqiu Steven Xia, Zhe Wang, Yan Yang, Yuxiang Wei, Lingming Zhang. arXiv 2025/11.
The OpenHands Software Agent SDK: A Composable and Extensible Foundation for Production Agents.
Xingyao Wang, Simon Rosenberg, Juan Michelini, Calvin Smith, Hoang Tran, Engel Nyst, Rohit Malhotra, Xuhui Zhou, Valerie Chen, Robert Brennan, et al. arXiv 2025/11.
CodeClash: Benchmarking Goal-Oriented Software Engineering.
John Yang, Kilian Lieret, Joyce Yang, Carlos E. Jimenez, Ofir Press, Ludwig Schmidt, Diyi Yang. arXiv 2025/11.
Introducing cline-bench: A Real-World, Open Source Benchmark for Agentic Coding.
Cline. 2025/11.
InfCode: Adversarial Iterative Refinement of Tests and Patches for Reliable Software Issue Resolution.
KeFan Li, Mengfei Wang, Hengzhi Zhang, Zhichao Li, Yuan Yuan, Mu Li, Xiang Gao, Hailong Sun, Chunming Hu, Weifeng Lv. arXiv 2025/11.
Agent READMEs: An Empirical Study of Context Files for Agentic Coding.
Worawalan Chatlatanagulchai, Hao Li, Yutaro Kashiwa, Brittany Reid, Kundjanasith Thonglek, Pattara Leelaprute, Arnon Rungsawang, Bundit Manaskasemsak, Bram Adams, Ahmed E. Hassan, et al. arXiv 2025/11.
Understanding Code Agent Behaviour: An Empirical Study of Success and Failure Trajectories.
Oorja Majgaonkar, Zhiwei Fei, Xiang Li, Federica Sarro, He Ye. arXiv 2025/11.
SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models.
Jingxuan Xu, Ken Deng, Weihao Li, Songwei Yu, Huaixi Tang, Haoyang Huang, Zhiyi Lai, Zizheng Zhan, Yanan Wu, Chenchen Zhang, et al. arXiv 2025/11.
More with Less: An Empirical Study of Turn-Control Strategies for Efficient Coding Agents.
Pengfei Gao, Chao Peng. arXiv 2025/11.
SWE-Sharp-Bench: A Reproducible Benchmark for C# Software Engineering Tasks.
Sanket Mhatre, Yasharth Bajpai, Sumit Gulwani, Emerson Murphy-Hill, Gustavo Soares. arXiv 2025/11.
U2F: Encouraging SWE-Agent to Seize Novelty without Losing Feasibility.
Wencheng Ye, Yan Liu. arXiv 2025/11.
Programming with Pixels: Can Computer-Use Agents do Software Engineering?
Pranjal Aggarwal, Sean Welleck. arXiv 2025/10.
Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents.
Yueqi Song, Ketan Ramaneti, Zaid Sheikh, Ziru Chen, Boyu Gou, Tianbao Xie, Yiheng Xu, Danyang Zhang, Apurva Gandhi, Fan Yang, et al. arXiv 2025/10.
Gistify! Codebase-Level Understanding via Runtime Execution.
Hyunji Lee, Minseon Kim, Chinmay Singh, Matheus Pereira, Atharv Sonwane, Isadora White, Elias Stengel-Eskin, Mohit Bansal, Zhengyan Shi, Alessandro Sordoni, et al. arXiv 2025/10.
** Abstain and Validate: A Dual-LLM Policy for Reducing Noise in Agentic Program Repair.**
José Cambronero, Michele Tufano, Sherry Shi, Renyao Wei, Grant Uy, Runxiang Cheng, Chin-Jung Liu, Shiying Pan, Satish Chandra, Pat Rondon. arXiv 2025/10.
REFINE: Enhancing Program Repair Agents through Context-Aware Patch Refinement.
Anvith Pabba, Simin Chen, Alex Mathai, Anindya Chakraborty, Baishakhi Ray. arXiv 2025/10.
Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents.
Jiayi Kuang, Yinghui Li, Xin Zhang, Yangning Li, Di Yin, Xing Sun, Ying Shen, Philip S. Yu. arXiv 2025/10.
BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills.
Atharv Sonwane, Isadora White, Hyunji Lee, Matheus Pereira, Lucas Caccia, Minseon Kim, Zhengyan Shi, Chinmay Singh, Alessandro Sordoni, Marc-Alexandre Côté, et al. arXiv 2025/10.
When “Correct” Is Not Safe: Can We Trust Functionally Correct Patches Generated by Code Agents?
Yibo Peng, James Song, Lei Li, Xinyu Yang, Mihai Christodorescu, Ravi Mangal, Corina Pasareanu, Haizhong Zheng, Beidi Chen. arXiv 2025/10.
TDFlow: Agentic Workflows for Test Driven Software Engineering.
Kevin Han, Siddharth Maddikayala, Tim Knappe, Om Patel, Austen Liao, Amir Barati Farimani. arXiv 2025/10.
Enhancing repository-level software repair via repository-aware knowledge graphs.
Boyang Yang, Jiadong Ren, Shunfu Jin, Yang Liu, Feng Liu, Bach Le, Haoye Tian. arXiv 2025/10.
Code Digital Twin: Empowering LLMs with Tacit Knowledge for Complex Software Development.
Xin Peng, Chong Wang. arXiv 2025/10.
SIADAFIX: issue description response for adaptive program repair.
Xin Cao, Nan Yu. arXiv 2025/10.
Kimi-Dev: Agentless Training as Skill Prior for SWE-Agents.
Zonghan Yang, Shengjie Wang, Kelin Fu, Wenyang He, Weimin Xiong, Yibo Liu, Yibo Miao, Bofei Gao, Yejie Wang, Yingwei Ma, et al. arXiv 2025/09.
An Empirical Study on Failures in Automated Issue Solving.
Simiao Liu, Fang Liu, Liehao Li, Xin Tan, Yinghao Zhu, Xiaoli Lian, Li Zhang. arXiv 2025/09.
GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging.
Ziyi Ni, Huacan Wang, Shuo Zhang, Shuo Lu, Ziyang He, Wang You, Zhenheng Tang, Yuntao Du, Bill Sun, Hongzhang Liu, et al. arXiv 2025/09.
RepoForge: Training a SOTA Fast-thinking SWE Agent with an End-to-End Data Curation Pipeline Synergizing SFT and RL at Scale.
Zhilong Chen, Chengzong Zhao, Boyuan Chen, Dayi Lin, Yihao Chen, Arthur Leung, Gopi Krishnan Rajbahadur, Gustavo A. Oliva, Haoxiang Zhang, Aaditya Bhatia, et al. arXiv 2025/08.
Understanding Software Engineering Agents Through the Lens of Traceability: An Empirical Study.
Ira Ceka, Saurabh Pujar, Shyam Ramji, Luca Buratti, Gail Kaiser, Baishakhi Ray. arXiv 2025/06.
Is Your Automated Software Engineer Trustworthy?
Noble Saji Mathews, Meiyappan Nagappan. arXiv 2025/06.
Interactive Agents to Overcome Ambiguity in Software Engineering.
Sanidhya Vijayvargiya, Xuhui Zhou, Akhila Yerukola, Maarten Sap, Graham Neubig. arXiv 2025/02.
SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?
Xiang Deng, Jeff Da, Edwin Pan, Yannis Yiming He, Charles Ide, Kanak Garg, Niklas Lauffer, Andrew Park, Nitin Pasari, Chetan Rane, et al. arXiv 2025.
SWE-PolyBench: A multi-language benchmark for repository level evaluation of coding agents.
Muhammad Shihab Rashid, Christian Bock, Yuan Zhuang, Alexander Buchholz, Tim Esler, Simon Valentin, Luca Franceschi, Martin Wistuba, Prabhu Teja Sivaprasad, Woo Jung Kim, et al. arXiv 2025.
Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving.
Daoguang Zan, Zhirong Huang, Wei Liu, Hanwu Chen, Linhao Zhang, Shulin Xin, Lu Chen, Qi Liu, Xiaojian Zhong, Aoyan Li, et al. arXiv 2025.
SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents.
Ibragim Badertdinov, Alexander Golubev, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Andrei Andriushchenko, Maria Trofimova, Daria Litvintseva, Boris Yangel. arXiv 2025.
Trae Agent: An LLM-based Agent for Software Engineering with Test-time Scaling.
Trae Research Team: Pengfei Gao, Zhao Tian, Xiangxin Meng, Xinchen Wang, Ruida Hu, Yuanan Xiao, Yizhou Liu, Zhao Zhang, Junjie Chen, Cuiyun Gao, et al. arXiv 2025.
ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory.
Siru Ouyang, Jun Yan, I-Hung Hsu, Yanfei Chen, Ke Jiang, Zifeng Wang, Rujun Han, Long T. Le, Samira Daruki, Xiangru Tang, et al. arXiv 2025.
EXPEREPAIR: Dual-Memory Enhanced LLM-based Repository-Level Program Repair.
Fangwen Mu, Junjie Wang, Lin Shi, Song Wang, Shoubin Li, Qing Wang. arXiv 2025.
SWE-Exp: Experience-Driven Software Issue Resolution.
Silin Chen, Shaoxin Lin, Xiaodong Gu, Yuling Shi, Heng Lian, Longfei Yun, Dong Chen, Weiguo Sun, Lin Cao, Qianxiang Wang. arXiv 2025.
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute.
Yingwei Ma, Yongbin Li, Yihong Dong, Xue Jiang, Rongyu Cao, Jue Chen, Fei Huang, Binhua Li. arXiv 2025.
AutoCodeSherpa: Symbolic Explanations in AI Coding Agents.
Sungmin Kang, Haifeng Ruan, Abhik Roychoudhury. arXiv 2025/07.
Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering.
Guangtao Zeng, Maohao Shen, Delin Chen, Zhenting Qi, Subhro Das, Dan Gutfreund, David Cox, Gregory Wornell, Wei Lu, Zhang-Wei Hong, et al. arXiv 2025/05.
CrashFixer: A crash resolution agent for the Linux kernel.
Alex Mathai, Chenxi Huang, Suwei Ma, Jihwan Kim, Hailie Mitchell, Aleksandr Nogikh, Petros Maniatis, Franjo Ivančić, Junfeng Yang, Baishakhi Ray. arXiv 2025/04.
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal.
Vaibhav Aggarwal, Ojasv Kamal, Abhinav Japesh, Zhijing Jin, Bernhard Schölkopf. arXiv 2025/03.
Large Language Model Critics for Execution-Free Evaluation of Code Changes.
Aashish Yadavally, Hoan Nguyen, Laurent Callot, Gauthier Guinet. arXiv 2025/01.
debug-gym: A Text-Based Environment for Interactive Debugging.
Xingdi Yuan, Morgane M Moss, Charbel El Feghali, Chinmay Singh, Darya Moldavskaya, Drew MacPhee, Lucas Caccia, Matheus Pereira, Minseon Kim, Alessandro Sordoni, et al. arXiv 2025.
R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents.
Naman Jain, Jaskirat Singh, Manish Shetty, Liang Zheng, Koushik Sen, Ion Stoica. arXiv 2025.
HAFixAgent: History-Aware Automated Program Repair Agent.
Yu Shi, Hao Li, Bram Adams, Ahmed E. Hassan. arXiv 2025.
SWE-Debate: Competitive Multi-Agent Debate for Software Issue Resolution.
Han Li, Yuling Shi, Shaoxin Lin, Xiaodong Gu, Heng Lian, Xin Wang, Yantao Jia, Tao Huang, Qianxiang Wang. arXiv 2025.
SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks.
Lianghong Guo, Yanlin Wang, Caihua Li, Pengyu Yang, Jiachi Chen, Wei Tao, Yingtian Zou, Duyu Tang, Zibin Zheng. arXiv 2025.
Kimi-Dev: Agentless Training as Skill Prior for SWE-Agents.
Zonghan Yang, Shengjie Wang, Kelin Fu, Wenyang He, Weimin Xiong, Yibo Liu, Yibo Miao, Bofei Gao, Yejie Wang, Yingwei Ma, et al. arXiv 2025.
SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement.
Antonis Antoniades, Albert Örwall, Kexun Zhang, Yuxi Xie, Anirudh Goyal, William Wang. arXiv 2025.
SEAlign: Alignment Training for Software Engineering Agent.
Kechi Zhang, Huangzhao Zhang, Ge Li, Jinliang You, Jia Li, Yunfei Zhao, Zhi Jin. arXiv 2025.
Lingxi: Repository-Level Issue Resolution Framework Enhanced by Procedural Knowledge Guided Scaling.
Xu Yang, Jiayuan Zhou, Michael Pacheco, Wenhan Zhu, Pengfei He, Shaowei Wang, Kui Liu, Ruiqi Pan. arXiv 2025.
Code Graph Model (CGM): A Graph-Integrated Large Language Model for Repository-Level Software Engineering Tasks.
Hongyuan Tao, Ying Zhang, Zhenhao Tang, Hongen Peng, Xukun Zhu, Bingchang Liu, Yingguang Yang, Ziyin Zhang, Zhaogui Xu, Haipeng Zhang, et al. arXiv 2025.
SWE-Synth: Synthesizing Verifiable Bug-Fix Data to Enable Large Language Models in Resolving Real-World Bugs.
Minh V.T. Pham, Huy N. Phan, Hoang N. Phan, Cuong Le Chi, Tien N. Nguyen, Nghi D. Q. Bui. arXiv 2025.
ComBench: Compilation Error Repair Benchmark Platform.
Anonymous. 2025.
SWE-Bench-CL: Continual Learning for Coding Agents.
Thomas Joshi, Shayan Chowdhury, Fatih Uysal. arXiv 2025.
A Self-Improving Coding Agent.
Maxime Robeyns, Martin Szummer, Laurence Aitchison. arXiv 2025.
Agent-RLVR: Training Software Engineering Agents via Guidance and Environment Rewards.
Jeff Da, Clinton Wang, Xiang Deng, Yuntao Ma, Nikhil Barhate, Sean Hendryx. arXiv 2025.
Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning.
Alexander Golubev, Maria Trofimova, Sergei Polezhaev, Ibragim Badertdinov, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Sergey Abramov, Andrei Andriushchenko, Filipp Fisin, et al. arXiv 2025.
SWE-Mirror: Scaling Issue-Resolving Datasets by Mirroring Issues Across Repositories.
Junhao Wang, Daoguang Zan, Shulin Xin, Siyao Liu, Yurong Wu, Kai Shen. arXiv 2025.
SWE-Effi: Re-Evaluating Software AI Agent System Effectiveness Under Resource Constraints.
Zhiyu Fan, Kirill Vasilevski, Dayi Lin, Boyuan Chen, Yihao Chen, Zhiqing Zhong, Jie M. Zhang, Pinjia He, Ahmed E. Hassan. arXiv 2025.
Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments.
Hongjin Su, Ruoxi Sun, Jinsung Yoon, Pengcheng Yin, Tao Yu, Sercan Ö. Arık. arXiv 2025.
Enhancing repository-level software repair via repository-aware knowledge graphs.
Boyang Yang, Jiadong Ren, Shunfu Jin, Yang Liu, Feng Liu, Bach Le, Haoye Tian. arXiv 2025.
SemAgent: A Semantics Aware Program Repair Agent.
Anvith Pabba, Alex Mathai, Anindya Chakraborty, Baishakhi Ray. arXiv 2025.
HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale.
Huy Nhat Phan, Tien N. Nguyen, Phong X. Nguyen, Nghi D. Q. Bui. arXiv 2025.
Saving SWE-Bench: A Benchmark Mutation Approach for Realistic Agent Evaluation.
Spandan Garg, Ben Steenhoek, Yufan Huang. arXiv 2025.
RepoForge: Training a SOTA Fast-thinking SWE Agent with an End-to-End Data Curation Pipeline Synergizing SFT and RL at Scale.
Zhilong Chen, Chengzong Zhao, Boyuan Chen, Dayi Lin, Yihao Chen, Arthur Leung, Gopi Krishnan Rajbahadur, Gustavo Oliva, Haoxiang Zhang, Aadi Bhatia, et al. arXiv 2025.
MCTS-Refined CoT: High-Quality Fine-Tuning Data for LLM-Based Repository Issue Resolution.
Yibo Wang, Zhihao Peng, Ying Wang, Zhao Wei, Hai Yu, Zhiliang Zhu. arXiv 2025.
SWE-MERA: A Dynamic Benchmark for Agenticly Evaluating Large Language Models on Software Engineering Tasks.
Pavel Adamenko, Mikhail Ivanov, Aidar Valeev, Rodion Levichev, Pavel Zadorozhny, Ivan Lopatin, Dmitry Babayev, Alena Fenogenova, Valentin Malykh. arXiv 2025.
Auto-SWE-Bench: A Framework for the Scalable Generation of Software Engineering Benchmark from Open-Source Repositories.
Anonymous Authors. 2025.
Can Agents Fix Agent Issues?
Alfin Wijaya Rahardja, Junwei Liu, Weitong Chen, Zhenpeng Chen, Yiling Lou. NeurIPS 2025.
Co-PatcheR: Collaborative Software Patching with Component(s)-specific Small Reasoning Models.
Yuheng Tang, Hongwei Li, Kaijie Zhu, Michael Yang, Yangruibo Ding, Wenbo Guo. NeurIPS 2025.
RepoMaster: Autonomous Exploration and Understanding of GitHub Repositories for Complex Task Solving.
Huacan Wang, Ziyi Ni, Shuo Zhang, Shuo Lu, Sen Hu, Ziyang He, Chen Hu, Jiaye Lin, Yifu Guo, Ronghao Chen, et al. NeurIPS 2025.
SE-Agent: Self-Evolution Trajectory Optimization in Multi-Step Reasoning with LLM-Based Agents.
Jiaye Lin, Yifu Guo, Yuzhen Han, Sen Hu, Ziyi Ni, Licheng Wang, Mingguang Chen, Hongzhang Liu, Ronghao Chen, Yangfan He, et al. NeurIPS 2025.
Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning.
Yinjie Wang, Ling Yang, Ye Tian, Ke Shen, Mengdi Wang. NeurIPS 2025.
SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution.
Yuxiang Wei, Olivier Duchenne, Jade Copet, Quentin Carbonneaux, Lingming Zhang, Daniel Fried, Gabriel Synnaeve, Rishabh Singh, Sida I. Wang. NeurIPS 2025.
SWE-smith: Scaling Data for Software Engineering Agents.
John Yang, Kilian Lieret, Carlos E. Jimenez, Alexander Wettig, Kabir Khandpur, Yanzhe Zhang, Binyuan Hui, Ofir Press, Ludwig Schmidt, Diyi Yang. NeurIPS 2025 Datasets & Benchmarks Track.
SWE-bench Goes Live!
Linghao Zhang, Shilin He, Chaoyun Zhang, Yu Kang, Bowen Li, Chengxing Xie, Junhao Wang, Maoquan Wang, Yufan Huang, Shengyu Fu, et al. NeurIPS 2025 Datasets & Benchmarks Track.
Training Software Engineering Agents and Verifiers with SWE-Gym.
Jiayi Pan, Xingyao Wang, Graham Neubig, Navdeep Jaitly, Heng Ji, Alane Suhr, Yizhe Zhang. ICML 2025.
SWE-Flow: Synthesizing Software Engineering Data in a Test-Driven Manner.
Lei Zhang, Jiaxi Yang, Min Yang, Jian Yang, Mouxiang Chen, Jiajun Zhang, Zeyu Cui, Binyuan Hui, Junyang Lin. ICML 2025.
Nemotron-CORTEXA: Enhancing LLM Agents for Software Engineering Tasks via Improved Localization and Solution Diversity.
Atefeh Sohrabizadeh, Jialin Song, Mingjie Liu, Rajarshi Roy, Chankyu Lee, Jonathan Raiman, Bryan Catanzaro. ICML 2025.
Guided Search Strategies in Non-Serializable Environments with Applications to Software Engineering Agents.
Karina Zainullina, Alexander Golubev, Maria Trofimova, Sergei Polezhaev, Ibragim Badertdinov, Daria Litvintseva, Simon Karasik, Filipp Fisin, Sergei Skvortsov, Maksim Nekrashevich, et al. ICML 2025.
SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?
Samuel Miserendino, Michele Wang, Tejal Patwardhan, Johannes Heidecke. ICML 2025.
Automated Benchmark Generation for Repository-Level Coding Tasks.
Konstantinos Vergopoulos, Mark Niklas Mueller, Martin Vechev. ICML 2025.
PatchPilot: A Cost-Efficient Software Engineering Agent with Early Attempts on Formal Verification.
Hongwei Li, Yuheng Tang, Shiqi Wang, Wenbo Guo. ICML 2025.
Automated Benchmark Generation for Repository-Level Coding Tasks.
Konstantinos Vergopoulos, Mark Niklas Müller, Martin Vechev. ICML 2025.
OpenHands: An Open Platform for AI Software Developers as Generalist Agents.
Xingyao Wang, Boxuan Li, Yufan Song, Frank F. Xu, Xiangru Tang, Mingchen Zhuge, Jiayi Pan, Yueqi Song, Bowen Li, Jaskirat Singh, et al. ICLR 2025.
RepoGraph: Enhancing AI Software Engineering with Repository-level Code Graph.
Siru Ouyang, Wenhao Yu, Kaixin Ma, Zilin Xiao, Zhihan Zhang, Mengzhao Jia, Jiawei Han, Hongming Zhang, Dong Yu. ICLR 2025.
Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents.
Kexun Zhang, Weiran Yao, Zuxin Liu, Yihao Feng, Zhiwei Liu, Rithesh R N, Tian Lan, Lei Li, Renze Lou, Jiacheng Xu, et al. ICLR 2025.
SWE-GPT: A Process-Centric Language Model for Automated Software Improvement.
Yingwei Ma, Rongyu Cao, Yongchang Cao, Yue Zhang, Jue Chen, Yibo Liu, Yuchen Liu, Binhua Li, Fei Huang, Yongbin Li. ISSTA 2025.
SpecRover: Code Intent Extraction via LLMs.
Haifeng Ruan, Yuntong Zhang, Abhik Roychoudhury. ICSE 2025.
Understanding Software Engineering Agents: A Study of Thought-Action-Result Trajectories.
Islem Bouzenia, Michael Pradel. ASE 2025.
"My productivity is boosted, but ..." Demystifying Users' Perception on AI Coding Assistants.
Yunbo Lyu, Zhou Yang, Jieke Shi, Jianming Chang, Yue Liu, David Lo. ASE 2025.
SPICE: An Automated SWE-Bench Labeling Pipeline for Issue Clarity, Test Coverage, and Effort Estimation.
Gustavo A. Oliva, Gopi Krishnan Rajbahadur, Aaditya Bhatia, Haoxiang Zhang, Yihao Chen, Zhilong Chen, Arthur Leung, Dayi Lin, Boyuan Chen, Ahmed E. Hassan. ASE 2025.
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal.
Vaibhav Aggarwal, Ojasv Kamal, Abhinav Japesh, Zhijing Jin, Bernhard Schölkopf. ACL 2025.
CompileAgent: Automated Real-World Repo-Level Compilation with Tool-Integrated LLM-based Agent System.
Li Hu, Guoqiang Chen, Xiuwei Shang, Shaoyin Cheng, Benlong Wu, LiGangyang LiGangyang, Xu Zhu, Weiming Zhang, Nenghai Yu. ACL 2025.
SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning.
Zexiong Ma, Chao Peng, Pengfei Gao, Xiangxin Meng, Yanzhen Zou, Bing Xie. ACL 2025.
SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution.
Chengxing Xie, Bowen Li, Chang Gao, He Du, Wai Lam, Difan Zou, Kai Chen. ACL 2025 Findings.
SynFix: Dependency-Aware Program Repair via RelationGraph Analysis.
Xunzhu Tang, Jiechao Gao, Jin Xu, Tiezhu Sun, Yewei Song, Saad Ezzini, Wendkûuni C. Ouédraogo, Jacques Klein, Tegawendé F. Bissyandé. ACL 2025 Findings.
UniDebugger: Hierarchical Multi-Agent Framework for Unified Software Debugging.
Cheryl Lee, Chunqiu Steven Xia, Longji Yang, Jen-tse Huang, Zhouruixing Zhu, Lingming Zhang, Michael R. Lyu. EMNLP 2025.
Agentless: Demystifying LLM-based Software Engineering Agents.
Chunqiu Steven Xia, Yinlin Deng, Soren Dunn, Lingming Zhang. FSE 2025.
OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution.
Lianghong Guo, Wei Tao, Runhan Jiang, Yanlin Wang, Jiachi Chen, Xilin Liu, Yuchi Ma, Mingzhi Mao, Hongyu Zhang, Zibin Zheng. ISSTA 2025.
Boosting Open-Source LLMs for Program Repair via Reasoning Transfer and LLM-Guided Reinforcement Learning.
Xunzhu Tang, Jacques Klein, Tegawendé F. Bissyandé. TOSEM 2025.
Integrating Various Software Artifacts for Better LLM-based Bug Localization and Program Repair.
Qiong Feng, Xiaotian Ma, Jiayi Sheng, Ziyuan Feng, Wei Song, Peng Liang. TOSEM 2025.
Agentic Program Repair from Test Failures at Scale: A Neuro-symbolic approach with static analysis and test execution feedback.
Chandra Maddila, Adam Tait, Claire Chang, Daniel Cheng, Nauman Ahmad, Vijayaraghavan Murali, Marshall Roch, Arnaud Avondet, Aaron Meltzer, Victor Montalvao, et al. TSE 2025.
AutoCodeRover: Autonomous Program Improvement.
Yuntong Zhang, Haifeng Ruan, Zhiyu Fan, Abhik Roychoudhury. ISSTA 2024.
SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering.
John Yang, Carlos E. Jimenez, Alexander Wettig, Kilian Lieret, Shunyu Yao, Karthik R. Narasimhan, Ofir Press. NeurIPS 2024.
MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution.
Wei Tao, Yucheng Zhou, Yanlin Wang, Wenqiang Zhang, Hongyu Zhang, Yu Cheng. NeurIPS 2024.
MASAI: Modular Architecture for Software-engineering AI Agents.
Nalin Wadhwa, Atharv Sonwane, Daman Arora, Abhav Mehrotra, Saiteja Utpala, Ramakrishna B. Bairi, Aditya Kanade, Nagarajan Natarajan. NeurIPS 2024 Workshop.
SWE-bench: Can Language Models Resolve Real-World GitHub Issues?
Carlos E. Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, Karthik Narasimhan. ICLR 2024.
InterCode: Standardizing and Benchmarking Interactive Coding with Execution Feedback.
John Yang, Akshara Prabhakar, Karthik Narasimhan, Shunyu Yao. NeurIPS 2023 Datasets & Benchmarks Track.

🖥️ Terminal Operating

AI agents that operate within terminal environments, executing shell commands, managing system operations, and automating command-line workflows through natural language interfaces and autonomous task execution.

Terminus: A research-preview agent for consistently evaluating the abilities of language models to power autonomous agents in the terminal.
Mike Merrill, Alex Shaw. 2025.
Terminal-Bench: A Benchmark for AI Agents in Terminal Environments.
The Terminal-Bench Team. 2025.

🧑‍💻 Code Generation

AI agents that autonomously generate, scaffold, and synthesize code at the repository level, leveraging external tools and APIs to create new modules, build complete projects, and construct large-scale codebases.