[AI타임스] ‘바이브 코딩’은 옛말…’에이전트 군집 코딩’ 시대 열려
최근 인공지능(AI) 코딩 능력의 엄청난 발전으로 인해, 이제는 ‘바이브 코딩’을 넘어 ‘에이전트 코딩’ 시대가 열렸다는 평이다. 특히, 다수의 에이전트를 통해 프로덕션 환경에 바로 적용 가능한 파이프라인을 완성하는 ‘에이전트 군집(Swarm) 코딩’이 대세로 떠올랐다.
벤처비트는 최근 관계자들과의 인터뷰를 통해 코딩 AI의 능력 향상으로 이제는 코드 작성을 넘어 실제 작동 가능한 소프트웨어 시스템 전체 구축이 가능해졌다고 소개했다.
가장 마크 러독 갤로스 테크놀로지 CEO는 최근 미국에서 유럽으로 비행하는 도중 ‘클로드 코드 군집(Claude Code Swarm)’을 활용해 50개가 넘는 리넥트 컴포넌트와 세가지 엔터프라이즈 통합용 모의 API 세트, 그리고 완전한 관리자 인터페이스 등을 6시간 만에 구축했다고 밝혔다. “결과물은 단순한 프로토타입을 넘어, 완벽하게 문서화되고 테스트됐으며 보안이 강화된 애플리케이션 프레임워크로, 프로덕션 환경에 바로 적용 가능한 구성과 파이프라인을 완벽하게 갖추고 있었다“라고 전했다.
이는 일반적으로 인간 개발 팀이 18일 동안 걸리는 작업으로, 러독 CEO는 이런 “놀라운 엔지니어링 능력의 위업”의 경험을 링크드인에 공유했다. 또 “앞으로 다시는 소프트웨어 회사를 이전 같은 방식으로 만들지 않을 것”이라고 밝혔다.
이런 사례는 그뿐만 아니며, 올여름 일어난 AI 코딩 역량의 급속한 발전을 보여주는 단면이다. 단 몇달 만에 AI가 복잡한 소프트웨어 엔지니어링을 수행하는 능력은 아찔할 정도의 속도로 가속화됐다는 것이다.
이는 소프트웨어 개발 방식에 근본적인 변화를 불러왔으며, 지난 2월 안드레이 카르파시 오픈AI 공동 창립자가 유행시킨 바이브 코딩이라는 말을 과거의 유물처럼 느끼게 했다는 내용이다. 이제는 AI와 대화하면 코드 생성을 기다리는 단계를 넘어, 다수의 코딩 에이전트가 통합적인 기능을 갖춘 시스템을 구축하는 단계에 이르렀다는 말이다.
AI 플랫폼 웨카(WEKA)의 발 베르코비치 최고 AI책임자(CAIO)는 최근 인터뷰에서 “카르파시의 바이브 코딩 용어조차 이제는 구식이 됐다”라며 “여러 에이전트가 협력하여 매우 기능적인 최소 기능 제품(MVP)과 버전 1 앱을 제공하는 에이전트 군집 코딩이라는 개념으로 대체됐다”라고 말했다.
물론, 군집 에이전트라는 개념 자체는 이전에도 등장했다. 오픈AI가 지난해 시험용으로 공개한 에이전트 SDK도 처음에는 스웜으로 불렸다. 하지만 스웜의 성능은 올여름 전환점에 도달했다는 평이다.
자신을 인공일반지능(AGI) 회의론자라고 칭한 베르코비치 CAIO이지만, 최근 AI 코딩의 발전을 목격한 뒤 AGI가 도래할 것을 확신한다고 밝혔다. “숙련된 소프트웨어 개발자들은 30~40년간 쌓아온 기술이 단 몇달 만에 근본적으로 바뀌는 것을 목격하고 있다”라고 말했다.
전문가들은 이처럼 급속한 AI 코딩 능력의 발전을 세가지 이유에서 찾고 있다.
우선 ‘GPT-5’와 ‘클로드 4’, ‘그록-4’ 등 최근 출시된 파운데이션 모델의 성능이 급격하게 좋아졌다는 것이다. 이들 모델은 코딩 분야의 벤치마크에서도 기록적인 성적을 거둔 바 있다. 예를 들어, GPT-5는 SWE 벤치마크에서 74.9%를 기록했는데, 이는 이전 ‘o3’의 58.4%를 크게 앞지르는 수치다.
여기에 에이전트를 연결하고 통제하는 오케스트레이션 방식의 발전은 파운데이션 모델의 발전보다 더 중요한 요소로 꼽혔다. 프론티어 모델의 에이전트 능력을 평가하는 비영리 연구 기관 METR은 지난 3월 보고서를 통해 “AI가 수행할 수 있는 작업 시간이 7개월마다 두배로 증가하고 있다”라고 발표했다. 스웜이라는 말도 문제를 분석해 전문 에이전트에 할당하는 아키텍처를 말한다.

모델별 ‘작업 완료 시간 범위’ 추이 (사진=METR)
이를 통해 에이전트 시스템이 ‘계획자’와 ‘코더’, ‘비평가’ 등으로 세분되며 속도와 정확성이 눈에 띄게 좋아졌다. 또 그급 시스템은 각 잡업에 최적화된 모델로 임무를 자동 라우팅한다. 여기에 코드베이스를 검색하는 grep, 테스트를 실행하는 pytest, 프로젝트를 컴파일하고 설정하는 make나 pip, 변경 사항을 관리하는 git diff와 같은 도구를 자유롭게 활용하는 것이 결정적이라는 분석이다.
마지막으로 에이전트를 활용하는 인간 개발자의 역량도 시스템 발전에 맞춰 크게 향상했다는 분석이다. 이들은 AI가 생성한 ‘쓰레기’를 엔터프라이즈급 소프트웨어로 전환하기 위해 원칙을 제공하고 감독을 제공한다. 예를 들어, 전문가들은 에이전트에 ’15년 경력의 보안 베테랑’과 같은 페르소나를 부여, 에이전트의 전문성을 강화한다. 이제 인간은 명령을 지시하는 단순한 프롬프터가 아니라는 말이다.
그 결과 최근 등장하는 에이전트의 출력은 프로토타입 수준을 넘어선다고 전했다.
하지만 에이전트의 성능은 아직 들쭉날쭉하다는 것이 한계로 꼽혔다. 이는 대형언어모델(LLM)의 일관성 한계에서 비롯된 일이기도 하다. 각 임무를 담당하는 전문 에이전트가 어떻게 배분될지도 미지수다.
러독 CEO는 “어느 날에는 훌륭한 결과물로 에이전트에 감사할 정도이지만, 어느 날에는 완전히 다른 존재처럼 보이는 경우도 있다“라고 말했다.
이를 피하고자 그는 에이전트들에게 동일한 제품의 여러 버전을 동시에 병렬로 생성하게 해, 가장 뛰어난 성과를 내는 에이전트를 선택한다고 밝혔다. 즉, 이런 시스템을 관리하는 데에는 인간의 인지적 부담이 엄청나다는 것이다.
특히 이제 인간의 노력이 들어가는 부분은 코드 작성 속도가 아니라, 코드 검증 속도에 달렸다는 것이다. 검증이 길어질수록 AI 코딩이 주는 이점은 자연히 사라진다.
하지만 숙련된 엔지니어들은 ‘바이브 코딩 정신’과는 달리, 프로세스에 더 깊게 개입하고 조정할 수 있는 능력을 갖추는 것을 선호한다는 것이다.
이처럼 최근의 급격한 속도 변화는 소프트웨어 개발 환경을 영구적으로 변화시켰다는 평이다. 에이전트 기반 워크플로우의 보편화로 인해 소프트웨어 개발의 장벽이 무너지고 있다.
이는 기업에 새로운 경쟁 환경을 만들 것이라는 분석이다. 러독 CEO는 소프트웨어 회사의 경쟁력이 결과물을 몇 시간 만에 만들어내는 것 자체보다 “문제에 대한 독창적인 관점과 믿을 수 없는 속도로 실행하는 능력을 갖추는 것“이라고 말했다.
또 이번 여름은 코딩의 새로운 경쟁이 시작된 순간으로 기억될 것이라고 덧붙였다.
출처 :
https://www.aitimes.com/news/articleView.html?idxno=202433