GPT-5.4 출시 총정리

3줄 요약

1. OpenAI가 2026년 3월 5일 GPT-5.4를 출시했다. 추론, 코딩, 에이전트 기능을 하나로 통합한 모델이며 컨텍스트 윈도우를 100만 토큰으로 확대했다
2. 컴퓨터를 직접 조작하는 ‘Computer Use’ 기능이 탑재되어 OS 벤치마크에서 75%의 정확도로 인간(72.4%)을 넘어섰다
3. API 가격은 입력 $2.50/출력 $15(100만 토큰당)이며, ChatGPT Plus/Pro 구독자는 즉시 사용 가능하다

결론부터 말하면

GPT-5.4는 OpenAI가 그동안 분리해왔던 추론 모델과 범용 모델을 하나로 합친 결과물이다. 가장 눈에 띄는 변화는 두 가지. 컴퓨터를 직접 조작할 수 있게 됐다는 것, 그리고 한 번에 100만 토큰을 처리할 수 있게 됐다는 것이다. 벤치마크 수치도 인상적이지만, 실제 사용자들의 반응은 “한국어가 자연스러워졌다”는 체감 변화에 더 집중되고 있다.

무엇이 새로운가

GPT-5.4는 ChatGPT, API, Codex에 동시 출시된 첫 모델이다. OpenAI는 이를 “가장 유능하고 효율적인 프런티어 모델”이라고 소개했다.

핵심 변화를 정리하면 다음과 같다.

1. 컴퓨터 직접 조작 (Computer Use)

GPT-5.4는 사용자의 화면을 보고 마우스 클릭, 키보드 입력, 파일 관리까지 직접 수행할 수 있다. OS 조작 벤치마크(OSWorld-Verified)에서 75.0%의 성공률을 기록했는데, 이는 인간의 72.4%를 넘어선 수치다.

웹 브라우저 조작(WebArena-Verified)에서도 67.3%, 온라인 작업(Online-Mind2Web)에서는 92.8%를 달성했다.

2. 100만 토큰 컨텍스트 윈도우

이전 모델 GPT-5.3의 27만 2천 토큰에서 100만 토큰으로 약 3.7배 확대됐다. 긴 코드베이스나 대량의 문서를 한 번에 넣고 분석할 수 있다. 다만 표준 27만 2천 토큰을 초과하면 2배 요금이 부과된다.

3. 추론 모델 통합

기존에는 일반 대화용(GPT-5.x)과 추론용(o-시리즈)이 분리되어 있었다. GPT-5.4는 이를 하나로 합쳤다. ‘Thinking’ 모드를 켜면 추론 모델처럼 작동하고, 끄면 빠른 응답 모델로 작동한다. 모델을 바꿔가며 쓸 필요가 없어졌다.

4. 도구 검색 (Tool Search)

필요한 도구를 미리 다 로드하는 대신, 상황에 따라 필요한 도구만 불러오는 방식이다. 이 기능만으로 토큰 사용량이 47% 감소했다.

5. 중간 방향 수정 (Interruptible Reasoning)

Thinking 모드에서 AI가 추론 중일 때, 사용자가 중간에 방향을 바꿀 수 있다. 기존에는 추론이 끝날 때까지 기다려야 했다.

AI가 컴퓨터 화면을 보며 직접 마우스와 키보드를 조작하는 미래적인 일러스트, 깔끔한 톤

벤치마크로 보는 성능

숫자로 비교하면 GPT-5.4의 위치가 명확해진다.

주요 벤치마크

벤치마크	GPT-5.4	GPT-5.2	비고
GDPval (44개 직종 전문가 수준)	83.0%	70.9%	+12.1%p
OSWorld (OS 조작)	75.0%	47.3%	인간 72.4% 초과
WebArena (웹 브라우저)	67.3%	–	–
ARC-AGI-1 (추상 추론)	93.7%	–	–
ARC-AGI-2 (고급 추론)	73.3%	–	Pro: 83.3%
SWE-Bench Pro (코딩)	57.7%	–	–
환각 오류율	-33%	기준	개별 주장 기준

GDPval은 법률, 엔지니어링, 고객 지원 등 44개 직종의 실무 능력을 테스트한 것인데, GPT-5.4는 83%의 항목에서 해당 분야 전문가와 동등하거나 더 나은 성과를 냈다. GPT-5.2의 70.9%에서 12%p 이상 뛴 수치다.

3강 비교: GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro

2026년 3월 기준, AI 3강 구도에서 각 모델의 강점이 확실히 갈린다.

항목	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro
코딩 (SWE-bench)	80.0%	80.8%	80.6%
추상 추론 (GPQA Diamond)	92.8%	91.3%	94.3%
고급 추론 (ARC-AGI-2)	73.3%	75.2%	77.1%
컴퓨터 조작 (OSWorld)	75.0%	–	–
전문 업무 (GDPval)	83.0%	–	–
HLE (인류 마지막 시험)	39.8%	42.7%	45.9%
컨텍스트 윈도우	100만	20만	100만
API 입력 가격 (100만 토큰)	$2.50	$5.00	$2.00

GPT-5.4는 컴퓨터 조작과 전문 업무에서 독보적이다. Claude Opus 4.6은 코딩 분야에서 근소하게 앞서고 에이전트 작업에 강하다. Gemini 3.1 Pro는 추론 성능이 가장 높으면서 가격이 가장 저렴하다.

어느 하나가 압도적으로 우위에 있다고 보기 어렵다. 용도에 따라 최적의 모델이 다른 시대가 됐다.

가격 정리

ChatGPT 구독

플랜	GPT-5.4	GPT-5.4 Pro
Free	제한적	불가
Plus ($20/월)	사용 가능	불가
Pro ($200/월)	사용 가능	사용 가능
Team	사용 가능	불가
Enterprise	사용 가능	사용 가능

API 가격 (100만 토큰당)

모델	입력	캐시 입력	출력
GPT-5.4	$2.50	$0.25	$15
GPT-5.4 Pro	$30	–	$180

Batch/Flex 처리 시 50% 할인, Priority 처리 시 2배 요금이 적용된다. 27만 2천 토큰을 초과하는 컨텍스트는 2배 요금이 붙는다.

사용자들의 반응

“한국어가 드디어 자연스러워졌다”

한국 커뮤니티에서 가장 많이 언급되는 변화다. 이전 모델에서 부자연스럽다고 비판받던 한국어 말투가 크게 개선됐다. 클리앙 한 사용자는 “평소 OpenAI를 욕하던 사람들조차 칭찬하는 분위기”라고 전했다. 일반 모드를 써도 기존 Pro 모드보다 체감 품질이 좋다는 평가도 나온다.

“모델이 너무 많다”

반면 모델 라인업이 복잡하다는 비판도 있다. GPT-5.1, 5.2, 5.3, 5.4, 그리고 각각의 Thinking/Pro 변종까지. GeekNews 댓글에서는 “Anthropic은 Opus, Sonnet, Haiku 세 개로 깔끔하게 정리하는데, OpenAI는 왜 이렇게 많은가”라는 지적이 나왔다.

“벤치마크보다 체감이 중요하다”

벤치마크 수치에서는 Gemini 3.1 Pro가 추론 분야에서 앞서지만, 실제 사용 체감에서는 GPT-5.4가 더 낫다는 의견이 많다. 특히 스프레드시트 작업(투자은행 수준에서 87.3% 정확도)과 프레젠테이션 생성(인간 평가자 68% 선호) 같은 실무 영역에서 강점이 두드러진다는 평가다.

개발자 커뮤니티 반응

Codex 연동으로 코드 작성 속도가 체감될 정도로 빨라졌다
Playwright 통합으로 웹앱의 시각적 디버깅이 가능해져 호평
다만 100만 토큰 컨텍스트의 실질적 이득에 의문을 제기하는 목소리도 있다. 컨텍스트가 길어질수록 ‘컨텍스트 부패(context rot)’ 문제가 여전하다는 것

앞으로의 전망

GPT-5.4 출시로 AI 모델 시장은 확실한 3강 구도가 됐다. OpenAI(GPT-5.4), Anthropic(Claude Opus 4.6), Google(Gemini 3.1 Pro)가 각자의 강점 영역에서 경쟁하고 있다.

주목할 점은 GPT-5.4의 Computer Use 기능이다. AI가 텍스트를 생성하는 것을 넘어 컴퓨터를 직접 조작하는 시대가 본격적으로 열렸다. 아직은 75% 정확도지만, 이 숫자가 90%를 넘어서면 업무 자동화의 판도가 바뀔 수 있다.

OpenAI는 GPT-5.2 Thinking 모델을 2026년 6월 5일에 종료할 예정이며, GPT-5.4로의 전환을 유도하고 있다. Bloomberg 보도에 따르면 Apple Ultra 라인 확장 등 추가 제품도 파이프라인에 있다고 한다.

참고 자료

이 글은 2026년 3월 9일 기준으로 작성되었습니다. AI 모델 성능과 가격은 수시로 변경될 수 있습니다.

GPT-5.4 출시 총정리 – 뭐가 달라졌나

3줄 요약

결론부터 말하면