테크노트 – 미래를 읽는 기술 & 과학 이야기

OpenAI GPT-5 Codex가 스스로를 구축하는 시대가 열렸다: AI 자기 개선의 미래 본문

IT, 기술 스토리

OpenAI GPT-5 Codex가 스스로를 구축하는 시대가 열렸다: AI 자기 개선의 미래

SciNerd 2025. 12. 16. 00:26
반응형

2025년 12월, OpenAI가 공개한 한 가지 소식이 개발자 커뮤니티에 큰 파장을 일으키고 있다. 바로 자신의 코딩 에이전트인 Codex가 이제 자신의 대부분을 스스로 구축하고 있다는 사실이다. 이것은 단순한 기술적 진전을 넘어, AI가 어떻게 자기 자신을 개선하고 진화할 수 있는지에 대한 근본적인 질문을 던지고 있다.

Codex란 무엇인가: AI 코딩 에이전트의 등장

먼저 Codex가 정확히 무엇인지 이해할 필요가 있다. Codex는 OpenAI가 2025년 5월에 현재의 형태로 공개한 클라우드 기반 소프트웨어 엔지니어링 에이전트다. 단순한 코드 자동완성 도구를 넘어, 기능 구현, 버그 수정, 풀 리퀘스트 제안 등 개발자의 일상적인 업무를 자동으로 수행할 수 있다.

Codex의 가장 혁신적인 부분은 그 작동 환경이다. VS Code, Cursor, Windsurf 같은 IDE 확장 프로그램으로 지원될 뿐 아니라, 명령줄 인터페이스(CLI)와 ChatGPT 웹 인터페이스를 통해서도 접근할 수 있다. 더욱 흥미로운 것은 사용자의 코드 저장소에 연결된 샌드박스 환경에서 작동하며, 여러 작업을 동시에 수행할 수 있다는 점이다.

하지만 Codex가 정말 중요한 이유는 기술적 능력만이 아니다. 이것은 AI가 인간 개발자의 일을 어떻게 변화시킬 수 있는지, 그리고 더 나아가 AI 자체를 어떻게 발전시킬 수 있는지를 보여주는 살아있는 증거이기 때문이다.

Codex의 자기 개선 메커니즘: AI가 자신을 구축하다

OpenAI의 Codex 담당 프로덕트 리드인 Alexander Embiricos는 최근 Ars Technica와의 인터뷰에서 놀라운 발언을 했다. "내 생각에 Codex의 대부분은 Codex 자신에 의해 구축되고 있다. 거의 전적으로 자신을 개선하는 데 사용되고 있다"고 그는 말했다.

이 진술의 의미를 정확히 이해하려면, Codex가 어떻게 스스로를 개선할 수 있는지 알아야 한다. Codex는 GPT-5-Codex라는 특화된 모델을 기반으로 한다. 이 모델은 OpenAI의 o3 추론 모델의 변형으로, 강화 학습(Reinforcement Learning)을 통해 다양한 코딩 작업에 맞춰 미세 조정되었다.

자기 개선 과정은 다음과 같이 작동한다. Codex가 코드를 생성하면, 그 결과가 평가된다. 높은 품질의 결과물들이 수집되어 새로운 학습 데이터가 된다. 이 데이터를 통해 Codex는 계속해서 재훈련되고 개선된다. 이것은 인간의 피드백을 통해 학습하는 RLHF(Reinforcement Learning from Human Feedback)와는 다르다. Codex는 스스로를 평가자로 삼아 자신의 출력물을 판단하고, 그것을 바탕으로 개선한다.

이러한 자기 개선 루프는 매우 효율적이다. 왜냐하면 인간 피드백의 병목 현상을 제거할 수 있기 때문이다. 사람이 일일이 평가할 필요 없이, AI 자체가 자신의 성과를 판단하고 개선할 수 있다면, 개선의 속도는 기하급수적으로 증가할 수 있다.

OpenAI 내부의 광범위한 도입: 92%의 기술팀 채택률

Codex의 자기 개선 능력이 실제로 어떤 영향을 미치고 있는지는 OpenAI 내부에서의 광범위한 도입으로 증명된다. OpenAI의 Romain Huet가 DevDay 2025에서 공개한 수치들은 매우 인상적이다.

OpenAI의 기술팀 중 92% 이상이 Codex를 사용하고 있다. 이는 거의 전사적인 채택 수준이다. 더욱 흥미로운 것은, Codex가 OpenAI의 모든 내부 풀 리퀘스트를 검토한다는 사실이다. 즉, 어떤 코드도 Codex의 검토 없이 머지되지 않는다는 의미다.

이러한 광범위한 도입의 결과는 놀랍다. Codex를 사용하는 엔지니어들은 평균적으로 약 70% 더 많은 풀 리퀘스트를 머지한다. 생산성이 크게 향상되었다는 뜻이다. 그런데 더 중요한 것은 품질의 향상이다. Codex가 프로덕션에 도달하기 전에 실제 버그들을 잡아낸다는 것이다.

이것은 단순한 개발 속도의 증가를 넘어선다. 이는 소프트웨어 품질, 보안, 신뢰성에 대한 근본적인 변화를 의미한다. 인간 개발자가 수작업으로 할 수 있는 것보다 더 철저하고 신뢰할 수 있는 검토를 AI가 수행하고 있다는 것이다.

Codex가 Agent Builder를 구축하다: AI 자기 증식의 증거

OpenAI DevDay 2025에서 가장 놀라웠던 발표 중 하나는 Codex가 Agent Builder라는 도구의 80%를 단 6주 만에 구축했다는 사실이다. Agent Builder는 개발자가 코드를 작성하지 않고도 AI 에이전트를 시각적으로 구축할 수 있는 도구다.

이것의 의미를 생각해보자. Codex는 자신보다 더 많은 에이전트를 만들 수 있도록 해주는 도구를 구축했다. 그리고 이 Agent Builder를 사용하여 만들어진 에이전트들은 다시 Codex를 사용할 수 있다. 이것은 순환적인 자기 개선 루프의 형성이다. AI가 자신을 개선하기 위한 도구를 만들고, 그 도구들이 다시 자신을 개선하는 데 사용된다.

OpenAI의 엔지니어 Christina Huang은 이를 "에이전트 건설(Agent Building)"의 민주화라고 표현했다. 이전에는 AI 에이전트를 구축하기 위해 YAML 구성, 상태 관리, 복잡한 오케스트레이션 스크립트 등을 다루어야 했다. 하지만 Agent Builder를 통해 개발자들은 아이디어에서 실제 가동 중인 에이전트까지 단 두 번의 스프린트(약 2주) 만에 도달할 수 있게 되었다. 이전에는 2개월(약 2쿼터)이 걸렸던 작업이다.

이것은 개발 프로세스의 반복 주기를 70% 단축한다는 의미다. 더 빠른 개발 사이클은 더 빠른 피드백이고, 더 빠른 피드백은 더 빠른 개선을 가능하게 한다.

GPT-5-Codex와 GPT-5.1-Codex-Max: 진화하는 모델들

시간이 지남에 따라 Codex를 구동하는 모델들도 진화했다. 2025년 9월에 공개된 GPT-5-Codex는 동적 추론 시간을 도입했다. 이는 작업의 복잡도에 따라 모델이 "생각하는 시간"을 조정한다는 의미다. 단순한 요청에는 빠르게 응답하고, 복잡한 작업에는 더 오래 고민한다.

OpenAI의 테스트에 따르면, GPT-5-Codex는 대규모의 복잡한 작업에서 7시간 이상 독립적으로 작동할 수 있다. 큰 리팩토링, 테스트 실패 해결, 최종 구현 완성까지 모든 과정을 자동으로 처리한다. 이는 단순한 코드 생성을 넘어 전체 프로젝트를 수행할 수 있는 능력을 보여준다.

더 최근에 공개된 GPT-5.1-Codex-Max는 한 발 더 나아갔다. 이 모델은 더 효율적인 추론 전략을 사용하여, 동일한 수준의 성능을 제공하면서도 약 30% 적은 토큰을 사용한다. 이는 비용 절감뿐 아니라 지연 시간 감소를 의미한다.

GPT-5.1-Codex-Max는 또한 "Extra High(xhigh)" 추론 모드를 도입했다. 이 모드에서는 특히 어려운 작업을 위해 더 많은 내부 추론을 수행할 수 있다. 대규모 리팩토링, 복잡한 알고리즘, 또는 일반 모드에서 만족스러운 결과를 얻지 못한 경우에 유용하다.

성능 벤치마크: SWE-Bench Pro에서의 우월성

Codex의 실제 능력을 평가하기 위해, 우리는 벤치마크 결과를 살펴봐야 한다. SWE-Bench Pro는 실제 GitHub 이슈를 사용하여 AI 모델이 실제 소프트웨어 엔지니어링 작업을 얼마나 잘 수행하는지 측정하는 벤치마크다.

최근에 공개된 GPT-5.2는 SWE-Bench Pro에서 55.6%의 점수를 기록했다. 이는 GPT-5.1보다 거의 5%p 향상된 수치다. 더욱 인상적인 것은, 이 점수가 Google의 최신 모델인 Gemini 3 Pro를 12%p 이상 앞선다는 것이다.

이 벤치마크의 점수가 의미하는 바를 이해하려면, SWE-Bench 점수의 의미를 알아야 한다. 55%라는 것은 55%의 소프트웨어 엔지니어링 문제를 성공적으로 해결한다는 의미다. 이는 인간 개발자의 능력에 접근하고 있다는 것을 의미한다.

현재 벤치마크 상황을 보면, Claude Sonnet 4.5 (Thinking)가 69.8%로 가장 높은 점수를 기록하고 있지만, GPT-5 Codex의 69.4%, 그리고 GPT-5의 68.8% 등 최고 수준의 모델들이 모두 유사한 범위에서 경쟁하고 있다. 이는 AI 코딩 에이전트 시장이 매우 경쟁적이면서도 동시에 매우 빠르게 발전하고 있음을 보여준다.

경쟁 환경: Anthropic의 Claude Code와의 경쟁

Codex의 성공은 진공 상태에서 이루어진 것이 아니다. Anthropic은 2025년 2월에 Claude Code를 출시했다. Claude Code는 Codex와 다른 접근 방식을 취한다. Codex가 사용자와의 실시간 협력과 장기간의 독립적 실행을 모두 잘하려고 한다면, Claude Code는 더욱 "에이전트적"인 접근을 취한다.

Claude Code는 높은 수준의 요구사항을 이해하고, 전체 워크플로우를 자율적으로 실행할 수 있다. 단순한 코드 완성을 넘어, 계획, 구현, 테스트를 모두 포함한 완전한 작업을 수행할 수 있다. 여러 파일을 읽고 수정하며, Git과 상호작용하고, 전체 프로젝트 구조를 인식할 수 있다.

여러 실제 테스트에 따르면, Claude Sonnet 4 모델은 실제 코딩 프롬프트에서 GitHub Copilot을 능가했다. 특히 설명, 로직, 엣지 케이스 처리가 중요한 경우 더욱 그랬다. 반면 Copilot은 속도와 IDE 통합 측면에서 우월했다.

Alexander Embiricos가 Claude Code의 영향에 대해 직접적으로 비교하는 것을 피했지만, OpenAI는 Codex의 웹 기반 기능을 Claude Code가 출시되기 전부터 내부적으로 개발하고 있었다고 밝혔다. 이는 이 두 회사가 거의 동시에 유사한 기능을 개발했을 가능성을 시사한다.

그러나 Codex의 내부 채택률과 성능 벤치마크는 이것이 단순한 경쟁을 넘어서 있음을 보여준다. Codex는 OpenAI 내부에서 검증된 도구로 사용되고 있으며, 그 결과는 매우 구체적이고 측정 가능하다.

AI가 자신의 코드를 검토하는 미래

Codex가 모든 내부 풀 리퀘스트를 검토한다는 사실은 소프트웨어 개발의 미래에 대해 많은 것을 시사한다. 현재 대부분의 개발 조직에서 코드 리뷰는 인간 개발자가 수행한다. 그런데 만약 AI가 더 일관되게, 더 철저하게, 그리고 더 빠르게 이를 수행할 수 있다면?
코드 리뷰는 단순한 문법 검사가 아니다. 보안 취약점 발견, 성능 문제 식별, 코드 일관성 유지, 아키텍처 결정의 올바름 확인 등을 포함한다. 이는 높은 수준의 기술 지식과 경험을 필요로 한다.

Codex가 실제 버그를 프로덕션에 도달하기 전에 잡아낸다는 것은, 이 AI가 이러한 복잡한 작업을 인간 개발자의 수준에서 수행할 수 있다는 의미다. 그리고 이것을 매번 일관되게 할 수 있다.

물론, 이것이 인간 코드 리뷰어를 완전히 대체한다는 의미는 아니다. OpenAI의 엔지니어들도 계속해서 코드를 검토하고 의사결정을 내린다. 하지만 Codex는 이 과정을 더욱 효율적으로 만든다. 개발자들은 Codex가 이미 확인한 것에 대해 생각할 필요가 없고, 더 높은 수준의 문제에 집중할 수 있다.

자기 개선 AI의 도덕적 및 안전 문제들

Codex의 자기 개선 능력은 흥미롭지만, 이것이 제기하는 안전 문제들도 무시할 수 없다. OpenAI는 이를 인식하고 있다.

최근 METR(Machine Intelligence Research Institute의 평가 분과)의 평가에 따르면, GPT-5.1-Codex-Max는 자기 개선, 로그 복제(rogue replication), AI 랩 내 파괴 행위 등의 측면에서 심각한 재해적 위험을 초래하지 않는 것으로 평가되었다. METR은 81개의 체인-오브-쏘트 트랜스크립트를 검토했고, 아젠틱 미스얼라인먼트 시나리오에서 Codex는 일관되게 잘못된 행동을 취하지 않았다.

하지만 OpenAI는 Codex의 생물학 및 화학 분야에서의 능력을 "High"로 분류했고, 이에 따라 엄격한 보안 조치를 취하고 있다. 샌드박스 격리, 제한된 네트워크 접근, 악의적인 활동에 대한 타겟화된 안전 훈련 등이 이에 포함된다.

미래의 개발자는 무엇을 해야 할 것인가?

Codex와 같은 AI 도구의 대두는 개발자의 역할에 대한 근본적인 질문을 던진다. 만약 AI가 대부분의 코딩 작업을 수행할 수 있다면, 개발자는 무엇을 해야 하는가?

OpenAI의 경험은 흥미로운 답변을 제공한다. Codex를 잘 사용하는 개발자들은 "코드를 작성하지 않는다". 대신 그들은 아키텍처를 설계하고, AI의 출력물을 검토하고, 시스템을 배포한다. 그리고 그들은 5배 더 많은 기능을 배포한다.

기술 스킬은 여전히 중요하다. 하지만 새로운 병목 현상이 나타났다: 도메인 전문 지식, 해결책에 대한 판단력, 명확한 의사소통 능력, 그리고 인간이 읽기 좋아하는 산출물을 만드는 습관이다.

Lightdash라는 회사의 CEO Oliver Laslett가 언급한 것처럼, 2025년의 경쟁은 더 이상 "코딩 스킬"에 관한 것이 아니다. 그것은 AI를 효과적으로 사용하는 속도에 관한 것이다. AI에 저항하는 팀은 뒤떨어진다. 반면 AI를 적극적으로 도입한 팀은 경쟁에서 앞서간다.

2025년 12월, AI 발전의 중요한 순간

GPT-5.2의 출시는 2025년 12월의 중요한 이정표다. Sam Altman의 "코드 레드" 발언에서 보여지듯이, OpenAI는 Google의 Gemini 3 출시에 대응하기 위해 개발 일정을 가속화했다. 그 결과가 GPT-5.2다.

55.6%의 SWE-Bench Pro 점수는 이 분야에서 최고 수준이다. 이는 Codex와 그 기반이 되는 모델들이 얼마나 강력해졌는지를 보여준다.

하지만 숫자만큼 중요한 것은 이것이 의미하는 바다. AI가 이제 자신을 개선하고, 자신의 일을 검토하고, 다른 AI를 만들 수 있다는 것이다. 이것은 기술 발전의 새로운 페이즈로의 진입을 의미한다.

새로운 시대의 시작

OpenAI의 Codex가 자신의 대부분을 스스로 구축한다는 공개는 단순한 기술 뉴스가 아니다. 이것은 AI 발전의 성질이 변하고 있다는 신호다.

과거에는 인간이 AI를 만들었다. 이제 AI가 자신을 만든다. 과거에는 개발자가 코드를 작성했다. 이제 개발자는 AI가 작성한 코드를 검토하고 지도한다.

이러한 변화는 두려움과 기대 모두를 불러일으킨다. 두려움은 일자리 손실에 대한 것이다. 기대는 훨씬 더 빠른 기술 발전과 더 강력한 소프트웨어의 가능성에 대한 것이다.

그러나 현실은 이 두 극단 사이에 있을 가능성이 높다. 기술이 계속 발전하는 와중에도, 인간 개발자의 역할은 변할 것이다. 하지만 사라지지는 않을 것이다. 대신, 더욱 중요해질 것이다.

Codex와 같은 도구를 효과적으로 사용할 수 있는 개발자들은 미래에 더욱 가치를 가질 것이다. 이들은 단순히 코드를 작성하지 않는다. 그들은 AI를 조율하고, 기술 방향을 설정하고, 가치 있는 소프트웨어를 만드는 일에 집중한다.

2025년 12월, 우리는 이 새로운 시대의 시작점에 서 있다. Codex가 자신을 구축하는 그 과정 속에서, 우리는 소프트웨어 개발이라는 인간의 오래된 활동이 근본적으로 어떻게 변할 것인지를 목격하고 있다. 이것이 바로 지금 이 순간이 특별한 이유다.

AI 도입으로 직업 상실 공포 심화, 전 산업 구조조정 가속화

기업들의 공격적인 인원 감축과 AI 자동화 현실지난해 뉴욕 로이터 NEXT 컨퍼런스에서 터져 나온 기업 지도자들의 발언들은 현재 AI로 인한 일자리 감소가 얼마나 급속도로 진행되고 있는지 보여

smartscience.tistory.com

반응형