커서의 컴포저 2(Composer 2) 공개

코딩 에디터 커서(Cursor)가 최근 컴포저 2(Composer 2)를 공식적으로 발표했다. 이번 업데이트는 단순한 기능 개선을 넘어 커서가 지향하는 미래의 방향성을 명확히 보여주는 사건이라 할 수 있다. 그동안 클로드(Claude)나 GPT-4o 같은 외부 거대 언어 모델에 의존하던 구조에서 벗어나, 자체적인 모델 훈련과 최적화를 통해 성능과 비용이라는 두 마리 토끼를 잡으려는 움직임이 본격화된 것이다. 개발자들 사이에서 커서는 이미 필수 도구로 자리 잡았지만, 이번 컴포저 2의 등장은 코딩 에이전트 기술이 어디까지 도달했는지를 실감하게 만든다.

가장 먼저 눈에 띄는 부분은 역시 성능의 비약적인 향상이다. 커서 팀이 공개한 벤치마크 데이터를 살펴보면 컴포저 2는 기존의 모든 기록을 갈아치우고 있다. 터미널 사용 능력을 평가하는 'Terminal-Bench 2.0’에서 컴포저 2는 61.7점을 기록했는데, 이는 이전 버전인 컴포저 1.5가 기록한 47.9점이나 초기 버전인 1.0의 40.0점과 비교하면 놀라운 수준의 발전이다. 다국어 환경에서의 소프트웨어 엔지니어링 능력을 측정하는 'SWE-bench Multilingual’에서도 73.7점을 기록하며 최첨단 수준의 코딩 지능을 증명했다. 이러한 성능 향상은 단순한 모델 교체가 아니라 지속적인 사전학습(Continued Pre-training)과 강화학습(Reinforcement Learning, RL)을 통해 이루어졌다는 점이 핵심이다.

커서 팀은 모델의 기반을 더욱 탄탄하게 다지기 위해 대규모 데이터를 활용한 사전학습을 진행했고, 그 위에 강화학습을 결합하여 장기적인 코딩 작업 수행 능력을 극대화했다. 실제로 컴포저 2는 수백 번의 동작이 연쇄적으로 필요한 복잡하고 도전적인 작업들을 해결할 수 있는 능력을 갖췄다. 이는 단순히 한두 줄의 코드를 추천하는 수준을 넘어, 프로젝트 전체의 맥락을 이해하고 터미널 명령어를 실행하며 파일 구조를 변경하는 진정한 의미의 코딩 에이전트로 진화했음을 의미한다. 개발자가 '이 기능을 구현해줘’라고 요청하면 에이전트가 알아서 테스트를 짜고, 에러를 수정하며, 최종적으로 실행 가능한 코드를 완성해내는 과정이 이전보다 훨씬 매끄러워졌다.

가격 정책 또한 매우 공격적이다. 컴포저 2의 표준 버전은 입력 토큰 100만 개당 0.50달러, 출력 토큰 100만 개당 2.50달러라는 파격적인 요금을 제시했다. 더 빠른 속도를 제공하는 버전 역시 입력 1.50달러, 출력 7.50달러로 책정되어 경쟁 모델들에 비해 월등한 가성비를 자랑한다. 이는 개발자들이 비용 부담 없이 고성능 AI의 도움을 받을 수 있게 하려는 전략으로 보인다. 개별 플랜 사용자들에게는 컴포저 전용 사용량 풀을 넉넉하게 제공하여, 더 이상 토큰 사용량을 매번 체크하며 불안해하지 않아도 되는 환경을 구축했다. 지능과 요금의 최적 조합을 찾아냈다는 커서 팀의 자신감이 묻어나는 대목이다.

그런데 이번 발표와 함께 흥미로운 논란도 불거졌다. 컴포저 2가 실제로 어떤 모델을 기반으로 하고 있는지에 대한 추적이 시작된 것이다. 한 사용자가 프록시를 통해 모델 요청 경로를 분석한 결과, 'kimi-k2p5-rl’이라는 문자열이 포함된 경로가 발견되었다. 이를 통해 컴포저 2가 중국의 문샷 AI(Moonshot AI)에서 만든 ‘Kimi K2.5’ 모델에 강화학습을 적용한 형태라는 사실이 드러났다. 이전 버전인 컴포저 1.5에서는 이러한 정보 노출이 차단되었으나, 신규 버전 출시 과정에서 잠시 보안 허점이 생기면서 정보가 유출된 것으로 보인다. 커서 측은 이후 즉시 해당 경로를 차단하는 패치를 진행했다.

이 사실이 알려지자 커뮤니티에서는 뜨거운 논쟁이 벌어졌다. 일각에서는 커서가 오픈소스 모델을 가져와 재브랜딩하여 마치 자신들의 독자적인 모델인 것처럼 포장했다고 비판했다. 특히 Kimi K2.5의 라이선스 규정에 따르면 일정 규모 이상의 상업적 이용 시 UI에 모델 출처를 명시해야 한다는 조건이 있는데, 이를 어긴 것이 아니냐는 지적이 제기되었다. 하지만 곧 문샷 AI 측에서 공식적으로 커서와의 파트너십을 인정하면서 무단 사용 논란은 일단락되었다. 커서가 문샷 AI의 강력한 베이스 모델을 공급받고, 여기에 자신들만의 방대한 코딩 데이터와 강화학습 기법을 더해 최적화된 결과물을 만들어냈다는 것이 공식적인 입장이다.

기술적인 관점에서 보면 이러한 전략은 매우 합리적이다. 모든 회사가 기초 모델(Foundation Model)을 처음부터 직접 바닥부터 훈련할 필요는 없다. 이미 검증된 강력한 오픈 웨이트 모델이나 파트너십을 통한 베이스 모델을 가져와서 특정 도메인, 즉 코딩에 특화된 데이터로 파인튜닝하고 RL을 적용하는 것이 훨씬 효율적이기 때문이다. 커서 팀에 따르면 최종 모델의 연산량 중 상당 부분은 자신들이 직접 수행한 학습에서 비롯되었다고 한다. 단순히 LLM을 가져다 붙인 ‘래퍼(Wrapper)’ 서비스가 아니라, 에디터 내에서의 사용자 피드백, 코드 승인율, 디버깅 패턴 등을 데이터화하여 모델의 실질적인 성능을 끌어올린 것이다.

커뮤니티의 반응은 엇갈리지만 실용적인 시각을 가진 개발자들은 성능에 더 집중하는 모양새다. 한 글에서는 '대부분의 사용자는 모델의 출처보다는 코드 작성 속도와 워크플로우의 완성도를 더 중요하게 생각한다’는 의견을 내놓기도 했다. 커서의 진정한 가치는 단순히 어떤 모델을 쓰느냐가 아니라, 그 모델을 VS Code 기반의 에디터 환경에 얼마나 깊숙이 통합했느냐에 있다는 논리다. 탭(Tab) 자동완성 모델만 해도 커서는 업계 최고 수준의 사용자 경험을 제공하며, 이는 단순한 모델 API 호출만으로는 구현하기 힘든 영역이다.

개인적인 견해를 덧붙이자면, 커서가 클로드나 GPT 같은 외부 모델 제공자에게만 의존하던 단계에서 벗어나 자체 모델 레이어로 수직 통합을 시도하는 것은 매우 인상적인 전략이다. 이는 모델 레이어에서의 경쟁력을 확보함과 동시에 비용 구조를 최적화하여 경쟁 도구와의 싸움에서 우위를 점하겠다는 의지로 읽힌다. 특히 코딩 작업은 모델의 지능뿐만 아니라 지연 시간(Latency)과 비용이 매우 중요한데, 컴포저 2의 가격 정책은 그런 면에서 공격적인 포지셔닝을 취하고 있다.

앞으로의 관전 포인트는 과연 커서가 수집하는 방대한 사용자 데이터를 바탕으로 모델을 어디까지 더 발전시킬 수 있느냐는 점이다. 개발자들이 코드를 작성하고 수정하는 과정에서 발생하는 모든 피드백은 모델을 강화하는 최고의 학습 데이터가 된다. 커서는 이 데이터를 통해 A/B 테스트를 거치며 모델을 지속적으로 개선하고 있다. 앤스로픽(Anthropic)이나 오픈AI(OpenAI) 같은 대형 업체들이 코딩 특화 모델에 집중하기보다는 범용 모델의 성능을 높이는 데 주력하는 사이, 커서와 같은 특화 에이전트 기업들이 특정 도메인에서 거대 기업들을 앞지르는 현상이 계속될 가능성이 높다.

결국 코딩 에이전트 시장은 '모델 하네스(Harness)'와 '사용자 경험(UX)'의 싸움으로 가고 있다. 모델이 똑똑한 것도 중요하지만, 그 똑똑함을 어떻게 개발자의 편집기 안으로 자연스럽게 녹여내느냐가 핵심이다. 커서는 그 지점에서 항상 가장 앞서 나가는 모습을 보여왔고, 이번 컴포저 2는 그 격차를 더 벌리려는 시도로 보인다. 단순한 오픈소스의 재포장이라는 비판을 넘어, 실질적으로 개발자의 생산성을 압도적으로 높여준다면 그것만으로도 커서의 전략은 성공적이라고 평가할 수 있다.


관련 글

커서의 컴포저 2(Composer 2) 공개

https://futurecreator.cloud/posts/73111001/

Author

Eric Han

Posted on

2026/03/21

Updated on

2026/03/21

Licensed under

Comments