3줄 요약
1. Claude Code는 정확도와 프로젝트 이해력 1위, Gemini CLI는 무료 1,000회/일로 진입장벽 제로, Codex는 샌드박스 격리로 안전성 최강
2. SWE-bench 기준 Claude Opus 4.6(80.8%)과 Gemini 3.1 Pro(80.6%)가 거의 동급, 실사용 체감은 Claude Code가 한 수 위
3. 하나만 고를 필요 없다 — 탐색은 Gemini CLI, 본격 개발은 Claude Code, 자동화는 Codex로 조합하는 게 최적
결론부터 말하면
세 도구를 수개월간 실무에서 돌려본 결론은 명확하다. 복잡한 프로젝트를 맡길 땐 Claude Code, 빠른 실험과 탐색은 Gemini CLI, 안전한 자동화 파이프라인은 Codex. 만능은 없다. 각자 철학이 다르고, 그 철학이 실사용에서 고스란히 드러난다.

| 항목 | Claude Code | Codex | Gemini CLI |
|---|---|---|---|
| 개발사 | Anthropic | OpenAI | |
| 오픈소스 | X (독점) | O (Apache 2.0) | O (Apache 2.0) |
| 무료 사용 | X | △ (한시적 무료 제공 중) | O (1,000회/일) |
| 최저 요금 | $20/월 (Pro) | $20/월 (Plus) | 무료 |
| 기본 모델 | Opus 4.6 / Sonnet 4.6 | GPT-5.3 Codex | Gemini 3.1 Pro / Flash |
| 컨텍스트 윈도우 | 1M 토큰 | 192K~400K | 1M 토큰 |
| SWE-bench Verified | 80.8% | – | 80.6% |
| 실행 방식 | 확인 후 실행 | 샌드박스 격리 | Plan Mode (읽기 전용 → 실행) |
왜 지금 CLI 에이전트인가
Cursor, Windsurf 같은 IDE 기반 도구와 달리, CLI 에이전트는 터미널에서 직접 돌아간다. GUI가 없다. 그 대신 프로젝트 전체를 읽고, 파일을 수정하고, 테스트를 실행하고, 결과를 보고 스스로 수정한다.
2025년까지는 “자동완성 잘 되는 IDE”가 주류였다면, 2026년은 “시키면 알아서 하는 에이전트”의 시대다. GitHub Copilot도 Agent Mode를 추가했고, Cursor도 Background Agent를 출시했다. 업계 전체가 에이전트로 수렴하고 있다.
그 중심에 있는 3대 CLI 에이전트를 직접 비교한다.
Claude Code — 일 잘하는 시니어 개발자

Anthropic이 만든 Claude Code는 현재 개발자 점유율 46%로 1위를 달리고 있다. Cursor(19%), GitHub Copilot(9%)을 큰 차이로 앞선다.
실사용 체감
처음 쓰면 좀 느리다는 인상을 받는다. 다른 도구들이 바로 코드를 뱉어내는 것과 달리, Claude Code는 먼저 프로젝트 구조를 파악한다. CLAUDE.md를 읽고, 디렉토리를 탐색하고, 기존 패턴을 학습한 다음에야 코드를 작성한다.
그 대신 결과물의 정확도가 확실히 다르다. 기존 코드 스타일을 따르고, 파일 간 의존성을 이해하고, 변경 사항이 다른 부분에 미치는 영향까지 고려한다. 대규모 리팩토링에서 이 차이가 극명하게 드러난다.
강점
시맨틱 프로젝트 그래프: Claude Code는 프로젝트의 의미 구조를 파악하는 내부 그래프를 구축한다. 덕분에 1M 토큰 컨텍스트를 다 채우지 않아도 관련 파일만 정확히 찾아낸다. “이 함수를 수정하면 어디가 영향받지?” 같은 질문에 정확히 답할 수 있는 이유다.
멀티 에이전트 워크플로우: 서브 에이전트를 병렬로 띄워서 독립적인 작업을 동시에 처리할 수 있다. PR 리뷰를 맡기면 보안, 성능, 코드 스타일을 각각 다른 에이전트가 검토한다.
프롬프트 캐싱: 세션 내에서 시스템 프롬프트와 프로젝트 컨텍스트가 캐싱되어 입력 비용이 80~90% 절감된다. API로 쓸 때 비용 차이가 크다.
단점
무료 티어 없음. 최소 Pro $20/월이 필요하다. 그마저도 Opus 4.6를 많이 쓰면 며칠 만에 한도에 걸린다. 제대로 쓰려면 Max $100/월은 각오해야 한다.
독점 소스. 내부에서 무슨 일이 일어나는지 볼 수 없다. 엔터프라이즈 환경에서 보안 감사가 필요한 경우 걸림돌이 된다.
변경 전 매번 확인 요청. 안전하지만 느리다. 자동 승인 모드가 있긴 하지만, 처음 쓰는 프로젝트에서는 일일이 확인하게 된다.
Codex — 안전 제일주의자

OpenAI의 Codex는 철학부터 다르다. 모든 코드 실행을 샌드박스 안에서 한다. 실수로 프로덕션 DB를 날릴 걱정이 없다는 뜻이다.
실사용 체감
Codex에 작업을 던지면 레포를 클론해서 격리된 환경에 넣고, 거기서 파일을 수정하고 테스트를 돌린다. 완료되면 diff를 보여주고, 사용자가 확인한 후에 반영된다.
안전하다. 확실히 안전하다. 하지만 이 안전함이 속도를 먹는다. 매번 샌드박스를 띄우고 환경을 세팅하는 오버헤드가 있다. 빠른 반복 작업에는 답답함을 느낄 수 있다.
강점
OS 수준 샌드박스: macOS에서는 Apple의 Seatbelt 프레임워크, Linux에서는 Landlock과 seccomp을 사용한다. 읽기 전용(suggest), 작업공간 쓰기(기본), 전체 접근(danger) 세 단계의 권한 모델이 있다. CI/CD 파이프라인에 통합하기 좋은 구조다.
오픈소스(Apache 2.0): 코드를 직접 읽고, 포크하고, 기여할 수 있다.
ChatGPT 생태계 통합: ChatGPT Plus/Pro 구독만 있으면 별도 설정 없이 바로 쓸 수 있다. 웹 UI에서 작업을 시작하고 CLI에서 이어가는 것도 가능하다.
단점
컨텍스트 윈도우가 상대적으로 작다. 192K~400K 토큰으로, Claude Code와 Gemini CLI의 1M에 비하면 절반 이하다. 대형 모노레포에서는 프로젝트 전체를 한 번에 파악하지 못한다.
품질 저하 보고. OpenAI 커뮤니티 포럼에서 “Codex is rapidly degrading”이라는 스레드가 주목받았다. 최근 몇 주간 출력 품질이 떨어졌다는 다수의 개발자 보고가 있다. 존재하지 않는 동시성 버그를 잡아냈다고 했는데 30분 확인해보니 환각(hallucination)이었다는 사례도 있다.
샌드박스 우회 이력. v0.106.0에서 zsh 샌드박스 우회 취약점이 패치됐다. 보안이 핵심 셀링포인트인 도구에서 이런 이력은 신뢰에 금이 간다.
Gemini CLI — 파격적인 무료 플레이어

Google이 오픈소스로 공개한 Gemini CLI는 무료로 하루 1,000회 요청이 가능하다. 신용카드 등록도 필요 없다. 개인 Google 계정만 있으면 된다.
실사용 체감
처음 써보면 “이게 진짜 무료?”라는 생각이 든다. Gemini 3.1 Pro와 1M 토큰 컨텍스트가 무료로 풀려있다. 설치도 npm install -g @anthropic-ai/claude-code… 가 아니라 npm install -g @google/gemini-cli 한 줄이면 끝이다.
v0.34.0부터 Plan Mode가 기본이다. 코드를 바로 수정하지 않고, 먼저 코드베이스를 읽고 변경 계획을 제안한다. 계획을 확인한 후에야 실행으로 넘어간다. 안전하면서도 Codex처럼 샌드박스 오버헤드가 없다.
강점
파격적 무료 티어: 60회/분, 1,000회/일. 대부분의 개인 개발자는 이 한도 안에서 충분히 쓸 수 있다. 유료 전환 없이도 실전 프로젝트에 투입 가능한 수준이다.
Google Search grounding: 다른 CLI 에이전트에 없는 기능이다. 코딩 중에 최신 라이브러리 문서나 API 변경 사항을 실시간으로 검색해서 반영한다. 빠르게 변하는 프레임워크를 다룰 때 유용하다.
1M 컨텍스트 + 오픈소스: Claude Code와 동일한 1M 토큰이면서, 소스 코드가 공개되어 있다. 엔터프라이즈에서 보안 감사를 통과해야 할 때 큰 장점이다.
MCP(Model Context Protocol) 지원: 커스텀 도구를 MCP 서버로 연결해서 확장할 수 있다. 사내 API, DB, 모니터링 도구 등을 에이전트가 직접 호출하도록 설정 가능하다.
단점
자율 실행 능력은 Claude Code에 미치지 못한다. 복잡한 멀티파일 리팩토링에서 간혹 엉뚱한 파일을 수정하거나, 기존 코드 패턴을 무시하는 경우가 있다. Claude Code가 프로젝트 구조를 의미적으로 이해하는 것과 대조된다.
컨텍스트 활용 방식. 1M 토큰이라는 거대한 창문이 있지만, 어떤 파일에 집중해야 하는지는 개발자가 명시적으로 알려줘야 할 때가 많다. 창문은 크지만 초점이 흐릴 수 있다.
무료 티어의 함정. 1,000회가 많아 보이지만, 에이전트가 내부적으로 여러 번 API를 호출하기 때문에 복잡한 작업 몇 개면 소진될 수 있다. 실질적으로는 하루 중간 규모 작업 10~15건 정도다.
비용 비교 — 월 얼마나 드나
구독 기준
| 플랜 | Claude Code | Codex | Gemini CLI |
|---|---|---|---|
| 무료 | – | 한시적 무료 제공 중 | 1,000회/일 |
| 기본 | Pro $20/월 | Plus $20/월 | Google AI Pro $19.99/월 |
| 중급 | Max 5x $100/월 | – | Google AI Ultra $124.99/3개월 |
| 프리미엄 | Max 20x $200/월 | Pro $200/월 | Pay-as-you-go (종량제) |
API 토큰 기준 (100만 토큰당)
| 모델 | 입력 | 출력 |
|---|---|---|
| Claude Opus 4.6 | $5 | $25 |
| Claude Sonnet 4.6 | $3 | $15 |
| GPT-5.3 Codex | $1.75 | $14 |
| Gemini 3.1 Pro | $2 | $12 |
토큰 단가만 보면 Gemini가 가장 저렴하다. 하지만 Claude Code의 프롬프트 캐싱(80~90% 절감)을 고려하면 실사용 비용 차이는 줄어든다.
현실적인 월 비용 시나리오
취미 개발자 (주 5~10시간 코딩): Gemini CLI 무료 티어로 충분하다. 비용 $0.
풀타임 개발자 (주 30시간+): Claude Code Max 5x $100/월이 가성비가 좋다. Codex Pro $200/월은 같은 돈 대비 쓸 수 있는 양이 적다.
팀/회사: API 기반으로 가는 게 낫다. Gemini 3.1 Pro가 토큰 단가 최저, Claude Code가 품질 최고. 작업 유형에 따라 라우팅하는 팀이 늘고 있다.
벤치마크 — 숫자로 보는 성능
| 벤치마크 | Claude Opus 4.6 | GPT-5.3 Codex | Gemini 3.1 Pro |
|---|---|---|---|
| SWE-bench Verified | 80.8% | – | 80.6% |
| Terminal-Bench 2.0 | – | 77.3% | – |
| ARC-AGI-2 (추론) | – | – | 77.1% |
SWE-bench Verified는 실제 GitHub 이슈를 해결하는 능력을 측정한다. Claude와 Gemini가 0.2%p 차이로 거의 동급이다. 반면 Codex는 터미널 자동화(Terminal-Bench)에서 강세를 보인다. 추상적 추론(ARC-AGI-2)은 Gemini가 압도적이다.
벤치마크 점수가 비슷하다고 체감이 같은 건 아니다. 실무에서는 프로젝트 맥락을 얼마나 잘 이해하느냐, 첫 시도에 동작하는 코드를 내놓느냐가 더 중요하다. 이 부분에서는 Claude Code가 아직 한 수 위라는 게 다수의 의견이다.
어떤 상황에서 어떤 도구를 쓸까
Claude Code가 맞는 경우
- 대규모 코드베이스 리팩토링
- 기존 프로젝트의 아키텍처를 이해하고 수정해야 할 때
- 코드 리뷰 자동화가 필요할 때
- “한 번에 제대로 동작하는 코드”가 중요할 때
- 비용보다 품질이 우선인 프로젝트
Codex가 맞는 경우
- CI/CD 파이프라인에 AI를 통합할 때
- 프로덕션 환경에서 절대 사고가 나면 안 될 때
- 이미 ChatGPT Pro를 쓰고 있을 때
- 웹 UI → CLI 전환이 자연스러운 워크플로우를 원할 때
Gemini CLI가 맞는 경우
- AI 코딩 에이전트를 처음 써보는 경우 (무료 진입)
- 빠른 프로토타이핑과 탐색이 목적일 때
- 최신 라이브러리/API 문서가 필요한 작업 (Search grounding)
- 오픈소스 + 보안 감사가 필수인 엔터프라이즈 환경
- 비용에 민감한 개인 개발자나 학생
실전 팁 — 같이 쓰면 더 좋다
세 도구 중 하나만 고르라는 법은 없다. 실제로 2026년 개발자들 사이에서는 2~3개를 작업 유형별로 나눠 쓰는 패턴이 자리잡고 있다.
추천 조합:
- 탐색/프로토타이핑: Gemini CLI (무료 + Search grounding)
- 본격 개발/리팩토링: Claude Code (정확도 + 프로젝트 이해)
- 배포/자동화: Codex (샌드박스 안전성)
이렇게 쓰면 Gemini CLI로 비용을 아끼면서, 핵심 작업은 Claude Code의 품질로 처리하고, 자동화 파이프라인은 Codex의 안전망 위에서 돌릴 수 있다.
자주 묻는 질문 (FAQ)
Q. 비개발자도 쓸 수 있나?
A. 세 도구 모두 터미널 기반이라 CLI에 익숙하지 않으면 진입 장벽이 있다. 비개발자라면 Cursor나 Windsurf 같은 IDE 기반 도구가 더 적합하다.
Q. 셋 중 하나만 골라야 한다면?
A. 돈을 쓸 수 있다면 Claude Code. 무료로 시작하고 싶다면 Gemini CLI. 안전이 최우선이면 Codex.
Q. 한국어 코드 주석이나 문서 작성은 잘 되나?
A. Claude Code가 한국어 처리에서 가장 자연스럽다. Gemini CLI도 무난한 수준. Codex는 영어 중심으로 최적화되어 있어 한국어 주석 품질이 상대적으로 떨어진다.
Q. 기존 IDE(VS Code 등)와 같이 쓸 수 있나?
A. 세 도구 모두 터미널에서 독립적으로 동작하므로 어떤 IDE와도 병행 가능하다. Claude Code와 Codex는 VS Code 확장도 지원한다.
참고 자료
- Claude Code 공식 문서
- OpenAI Codex 개발자 문서
- Gemini CLI GitHub 저장소
- SWE-bench Verified 리더보드
- AI Coding Benchmarks 2026 (byteiota)
이 글은 2026년 3월 기준 정보입니다. AI 코딩 에이전트는 빠르게 업데이트되므로, 각 도구의 공식 문서에서 최신 정보를 확인하세요.