AI 시대에 우리에게 부족한 것은 야망이다

최근 AI 관련 뉴스를 챙겨보다가 가슴을 때리는 문장을 하나 발견했다. OpenAI의 연구원인 에이단 맥롤린이 남긴 말인데, LLM에 대한 자신의 야망을 높이는 것이야말로 가장 높은 수익을 가져다주는 활동이라는 내용이었다. 에이단은 지난 3년 동안 AI 분야를 취재하고 직접 만져보면서 느낀 가장 큰 후회가 바로 이것이라고 고백했다. 적당히 미친 사람들은 LLM을 한계까지 밀어붙여서 그 혜택을 온전히 누리고 있는 반면, 당시의 LLM 수준에 맞춰서 판단하고 관리하려 했던 실용적인 사람들은 결국 제자리에 머물렀다는 것이다. 이 대목에서 나 자신을 돌아보게 됐다. 나는 과연 이 도구를 가지고 무엇을 할 수 있을지 충분히 미친 생각을 해보고 있는 걸까?

야망의 부족이 병목이라는 말은 단순히 마음가짐의 문제가 아니다. 이는 우리가 AI를 대하는 기술적인 접근 방식과도 맞닿아 있다. 이제 더 이상 모델의 품질 자체가 병목인 시대는 지나가고 있다. 요즘 업계에서 공통적으로 나오는 이야기는 모델을 둘러싼 ‘하네스’, 즉 도구와 메모리, 런타임 그리고 이를 아우르는 시스템의 설계가 훨씬 더 중요하다는 것이다. 해리슨 체이스 같은 전문가들도 이제는 에이전트의 UI와 UX, 샌드박스 환경, 파일 시스템 접근 권한 같은 것들이 핵심적인 제품의 가치를 결정한다고 강조한다. 모델이 똑똑해지는 속도보다 우리가 그 똑똑함을 담아낼 그릇을 만드는 속도가 더 중요하다는 뜻이다.

코딩 에이전트 분야를 봐도 이런 변화는 뚜렷하다. 단순히 코드를 짜주는 것을 넘어 이제는 시스템 전체를 이해하고 효율적으로 작동하는지가 관건이다. 커서(Cursor) 팀이 발표한 새로운 벤치마킹 방법론인 커서벤치(CursorBench)는 시사하는 바가 크다. 기존의 공공 벤치마크들이 포화 상태에 이르자, 실제 사용자들의 요청 데이터와 온라인/오프라인 지표를 결합해서 모델의 지능뿐만 아니라 효율성까지 측정하기 시작했다. 여기서 흥미로운 점은 GPT-5.4가 정확도와 토큰 사용 효율성 측면에서 압도적인 성적을 거두었다는 사실이다. 하지만 동시에 ‘인간을 루프 안에 두는’ 도구들이 여전히 중요하다는 목소리도 높다. 완전 자율 코딩보다는 빠른 인라인 자동 완성이 개발자의 인지 부하를 줄이고 이해도를 유지하는 데 더 유리하다는 의견도 설득력이 있다. 결국 야망이라는 것은 단순히 모든 것을 자동화하겠다는 욕심이 아니라, 인간과 AI가 결합된 새로운 개발 프로세스를 어떻게 더 높은 차원으로 끌어올릴 것인가에 대한 고민이어야 한다.

검색과 정보 추출 방식에서도 큰 변화가 감지되고 있다. 구글이 내놓은 제미나이 임베딩 2는 텍스트와 이미지, 오디오, 비디오, PDF를 하나의 벡터 공간으로 매핑하는 최초의 네이티브 멀티모달 임베딩 모델이다. 하지만 기술적으로 더 흥미로운 지점은 단일 벡터 방식과 다중 벡터 방식의 대결이다. 최근 전문가들 사이에서는 콜버트(ColBERT)나 콜팔리(ColPali) 스타일의 지연 상호작용(Late Interaction) 방식이 단일 벡터 임베딩보다 훨씬 뛰어난 성능을 보인다는 주장이 힘을 얻고 있다. 단일 벡터 임베딩에 계속 베팅하는 것은 비이성적이라는 극단적인 표현까지 나올 정도다. 이는 우리가 정보를 저장하고 불러오는 방식조차도 훨씬 더 정교하고 복잡한 구조로 나아가야 한다는 점을 시사한다. 단순히 똑똑한 모델에게 질문을 던지는 수준을 넘어, 방대한 데이터를 모델이 가장 잘 소화할 수 있는 형태로 재구성하는 능력이 필요하다.

모델의 효율성 측면에서도 주목할 만한 소식들이 많다. 엔비디아가 발표한 네모트론 3 슈퍼(Nemotron 3 Super)는 120B 규모의 오픈 웨이트 모델인데, 아키텍처 측면에서 상당히 혁신적이다. LatentMoE 설계를 통해 라우팅 비용을 줄이면서도 더 많은 전문가를 활용할 수 있게 만들었다. 이는 단순히 벤치마크 점수를 올리기 위한 변화가 아니라 추론 경제성을 극대화하려는 시도다. 일론 머스크의 그록(Grok) 4.20 역시 최고 성능은 아니더라도 200만 토큰에 달하는 거대한 컨텍스트 윈도우와 저렴한 가격, 빠른 속도를 무기로 시장을 공략하고 있다. 이런 현상들은 우리가 모델을 선택할 때 ‘가장 똑똑한 것’ 하나에만 매몰될 필요가 없음을 보여준다. 상황에 맞게 비용과 속도, 성능을 조합해서 최적의 결과물을 만들어내는 설계 능력이 더 중요해진 것이다.

로컬 환경에서의 AI 구동도 이제는 현실적인 영역으로 들어왔다. 최근 애플의 M5 맥스 노트북에 대한 벤치마크 결과를 보면 128GB 메모리를 활용해 120B가 넘는 거대 모델들을 효율적으로 돌리는 모습이 인상적이다. 레딧 같은 커뮤니티에서는 Qwen 3.5 모델을 다양한 방식으로 양자화해서 사용하는 방법들이 공유되고 있는데, 특히 바르토프스키(bartowski)의 양자화 방식이 안정성과 성능 면에서 좋은 평가를 받고 있다. RTX 3060 같은 소비자용 GPU에서도 9B 규모의 모델이 훌륭하게 코딩 에이전트 역할을 수행한다는 보고는 우리에게 시사하는 바가 크다. 이제 고가의 서버 비용을 걱정하지 않고도 개인 수준에서 충분히 미친 실험들을 해볼 수 있는 환경이 갖춰진 것이다.

결국 다시 원점으로 돌아와서 질문하게 된다. ‘어떻게 내 야망을 키울 것인가’ 이 질문은 우리가 매일 마주하는 LLM에게 직접 물어봐야 할 질문이기도 하다. 모델의 한계는 우리가 정해놓은 고정관념에서 비롯될 때가 많다. LLM을 단순히 텍스트를 생성하는 도구로 보느냐, 아니면 나의 야망을 현실로 만들어줄 거대한 엔진으로 보느냐에 따라 우리가 얻을 수 있는 결과물은 천지차이가 될 것이다.


관련 글

AI 시대에 우리에게 부족한 것은 야망이다

https://futurecreator.cloud/posts/1290257274/

Author

Eric Han

Posted on

2026/03/13

Updated on

2026/03/14

Licensed under

Comments