GPT-5가 나온 지 6개월이 지났다. 출시 직후 "AI의 새 시대"라는 반응과 "생각보다 별거 없다"는 반응이 동시에 나왔는데, 반년이 지난 지금 시점에서 벤치마크와 실사용 기준으로 정리해본다.
GPT-5, 뭐가 달라졌나
OpenAI가 2025년 8월 7일 GPT-5를 공식 발표했다. "역대 가장 똑똑하고, 빠르고, 유용한 프런티어 모델"이라는 수식어와 함께. 이후 GPT-5.1, GPT-5.2 Codex까지 빠르게 업데이트됐다.
GPT-4o 대비 달라진 점을 요약하면:
- 추론 능력 대폭 강화: 수학, 과학, 코딩 같은 복잡한 추론 영역에서 점수가 확 올랐다
- 환각(hallucination) 감소: OpenAI가 집중적으로 손본 부분이다. 이전 모델 대비 틀린 정보를 뱉는 빈도가 줄었다
- 한국어 성능 향상: KMMLU(한국어 대규모 멀티태스크 이해) 벤치마크에서 전문가 수준을 넘는 SOTA 달성
- 400K 토큰 컨텍스트: GPT-4o의 128K에서 3배 이상 늘었다
출시 자체는 꽤 인상적이었다. 근데 문제는 기대치가 너무 높았다는 거다. "AGI에 한 발 더 다가갔다"는 기대와 "GPT-4 대비 점진적 개선"이라는 현실 사이에서 반응이 갈렸다. 어려운 시스템 설계를 요구하니 답변에 한세월이 걸려 결국 집적 해야했다.
벤치마크 숫자로 보기
숫자로 보자. 2026년 2월 기준 주요 벤치마크 결과다.
수학 추론 (AIME 2025)
- GPT-5.2 Codex: 100% (만점)
- GPT-4o: 70.1%
수학 추론에서 만점을 찍은 건 확실히 대단하다. GPT-4o 대비 30% 가까이 올랐다.
사실 AIME가 만점이라는 건, 수학 올림피아드 수준의 문제를 완벽하게 푼다는 뜻이다. 이건 GPT-4o 시절에는 상상하기 어려웠다.
대학원 수준 과학 (GPQA Diamond)
- GPT-5 Pro (Python 도구 사용): 89.4%
- Gemini 3 Pro: 93.8%
과학 영역에서는 Gemini 3 Pro가 근소하게 앞선다.
소프트웨어 엔지니어링 (SWE-bench Verified)
- Claude Opus 4.5: 80.9%
- GPT-5.2 Codex: 80.0%
재밌는 건 코딩 벤치마크에서 Claude가 GPT-5를 앞섰다는 점이다. 0.9%p 차이라 오차 범위라고 볼 수도 있지만, "코딩은 OpenAI가 최고"라는 인식에 균열이 생긴 건 맞다.
SWE-bench Pro (더 어려운 버전)
- GPT-5.2 Codex: 56.4% (SOTA)
SWE-bench Pro에서는 GPT-5.2 Codex가 최고 성적이다. 벤치마크마다 1등이 다르다는 건, 2026년 현재 프론티어 모델 간 격차가 "압도적"이 아니라 "엇비슷한" 수준이라는 뜻이다.
| 벤치마크 | GPT-5.2 Codex | GPT-4o | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|
| AIME 2025 (수학) | 100% | 70.1% | - | - |
| GPQA Diamond (과학) | ~89% | - | - | 93.8% |
| SWE-bench Verified (코딩) | 80.0% | - | 80.9% | - |
| SWE-bench Pro (코딩 상위) | 56.4% | - | - | - |
| 컨텍스트 윈도우 | 400K | 128K | 200K | 1M |
실전에서 GPT-5 vs GPT-4o vs Claude 4
벤치마크만으로는 실제 사용감을 알기 어렵다. 직접 써보면서 느낀 차이를 정리하면:
글쓰기/요약 GPT-5가 가장 자연스러운 문체를 생성한다는 평이 많다. 특히 영어 글쓰기에서 강점이 뚜렷하다. 한국어도 GPT-4o 대비 확실히 나아졌는데, Claude와 비교하면 엇비슷하다.
코딩 단순 코드 생성은 셋 다 비슷하다. 차이가 나는 건 "대규모 코드베이스 이해"와 "복잡한 디버깅"이다. Claude Opus 4.5가 SWE-bench에서 앞선 이유이기도 하다. GPT-5.2 Codex는 특히 Python, JavaScript에서 강하다.
코딩 작업을 많이 하는 사람이라면, 이거 하나만 기억하면 된다. 단일 파일 수준의 코드 생성은 아무 모델이나 써도 되고, 여러 파일에 걸친 리팩토링이나 디버깅은 Claude Code나 GPT-5.2 Codex 같은 코딩 특화 환경에서 돌리는 게 훨씬 낫다.
추론/분석 복잡한 논리 추론에서 GPT-5가 앞선다. 수학 문제, 과학 문제 같은 "생각을 많이 해야 하는" 작업에서 차이가 확실하다.
멀티모달 이미지 이해, 음성 처리 등에서 GPT-5가 가장 폭넓게 지원한다. 다만 Gemini 3 Pro가 1M 토큰 컨텍스트로 긴 문서나 영상 분석에서는 유리하다.
정리하면 "모든 면에서 1등인 모델"은 없다. GPT-5는 추론과 멀티모달, Claude는 코딩과 안전성, Gemini는 긴 컨텍스트에서 각각 강점이 있다. 솔직히 이 시점에서 "최고의 모델"을 따지는 건 의미가 없고, 내가 뭘 하느냐에 따라 고르는 게 맞다. 나는 요즘은 클로드 코드를 주력으로 써서 Opus 4.6을 가장 많이 쓴다.
반응이 엇갈린 이유
GPT-5 출시 이후 커뮤니티 반응은 양극단이었다.
좋다는 쪽
- 수학/과학 벤치마크에서 눈에 띄는 향상
- 환각 감소로 실무에서 좀 더 믿고 쓸 수 있게 됐다
- 400K 토큰 컨텍스트로 긴 문서도 통째로 넣을 수 있다
별로라는 쪽
- "이거 GPT-4.5 아님?" — 점진적 개선이라는 비판
- 가격 대비 성능 논란 (Pro 플랜 월 $200)
- Claude, Gemini와의 격차가 "압도적"이 아님
솔직히 말하면, "실망"이라기보다는 "기대가 과했다"에 가깝다. GPT-4에서 GPT-4o로 갈 때도 비슷한 반응이었다. 객관적으로 보면 GPT-5는 확실히 GPT-4o보다 좋은 모델이다. 다만 "혁명적"이라고 부르기엔 개선 폭이 점진적인 것도 사실이다.
더 큰 맥락에서 보면, 프론티어 모델 간 성능 차이가 좁아지고 있다는 게 핵심이다. GPT-5, Claude Opus 4.5, Gemini 3 Pro 모두 비슷한 구간에 들어와 있다. "이 모델이 압도적으로 좋다"가 아니라 "다 비슷하게 좋다"인 시대가 된 거다.
GPT-5 제대로 쓰는 법
GPT-5를 쓴다면 알아두면 좋은 것들.
플랜 선택
- 무료: GPT-5 기본 접근 가능. 일일 사용 한도 있음
- Plus ($20/월): 더 빠른 속도, 전체 기능 접근
- Pro ($200/월): 최고 성능, 거의 무제한 사용량
대부분의 경우 Plus면 충분하다. Pro는 하루 종일 AI를 쓰는 헤비 유저가 아니면 가성비가 안 나온다. 월 20만 원이 넘으니까.
무료로 쓰는 법 Microsoft Copilot에 GPT-5.2가 통합되어 있다. OpenAI 직접 사용은 아니지만 최신 모델을 무료로 써볼 수 있다. 뤼튼 같은 국내 서비스에서도 GPT-5를 무료 제공하고 있다.
Tip: API로 GPT-5를 쓴다면 컨텍스트 윈도우 400K를 제대로 써먹어야 한다. 예를 들어 코드 리뷰를 맡길 때 관련 파일을 한 번에 다 넣고 "이 파일들 사이의 의존성을 분석해줘"라고 하면, 이전 모델에서는 불가능했던 수준의 분석이 나온다. 토큰 비용이 걱정되면 입력 캐싱(Prompt Caching)을 쓰면 된다. 반복되는 시스템 프롬프트나 컨텍스트가 있으면 비용을 꽤 아낄 수 있다.
프롬프트 팁
- 400K 토큰 컨텍스트를 적극 쓰자. 긴 문서를 통째로 넣고 분석을 요청하는 게 가능하다
- 추론이 필요한 작업에서는 "단계별로 생각해줘"보다 구체적인 조건을 주는 게 결과가 좋다
- 코딩 작업이면 GPT-5.2 Codex를 쓸 수 있는 환경에서 돌리는 게 낫다
OpenAI 다음 행보
GPT-5 이후 OpenAI의 방향을 보면:
- GPT-5.1, 5.2 Codex: 이미 출시됐다. 특히 5.2 Codex는 코딩 특화로 SWE-bench Pro SOTA를 찍었다
- o-시리즈 (o3, o4): 추론 특화 모델 라인. GPT 본류와는 별개로 발전 중이다
- 에이전트 강화: Operator, Computer Use 같은 에이전트 기능 확대가 예상된다
경쟁도 치열하다. Anthropic은 Claude Opus 4.5에 Deep Think 모드를 추가해서 Humanity''s Last Exam에서 41.0%를 기록했고, Google은 Gemini 3 Pro로 1M 토큰 컨텍스트라는 차별점을 내세우고 있다.
프론티어 모델 경쟁이 "절대 성능 싸움"에서 "특화 영역 싸움"으로 옮겨가고 있다. 어떤 모델이 "최고"인지보다 "내 작업에 뭐가 맞는지"를 따지는 게 더 현실적인 시대다. 이거 모르면 괜히 비싼 플랜만 결제하고 "뭔가 다른데?"만 반복하게 된다.
GPT-5 자주 묻는 질문 (FAQ)
GPT-5는 무료로 쓸 수 있나?
가능하다. ChatGPT 무료 플랜에서 GPT-5에 접근할 수 있다. 다만 일일 사용 한도가 있고, 속도가 느리다. Microsoft Copilot을 통해서도 GPT-5.2를 무료로 쓸 수 있다.
GPT-5와 GPT-4o의 가장 큰 차이점은?
추론 능력이 가장 크게 달라졌다. AIME 수학 벤치마크에서 GPT-4o는 70.1%인데 GPT-5.2 Codex는 100%다. 컨텍스트 윈도우도 128K에서 400K로 3배 이상 늘었고, 환각 빈도도 줄었다.
GPT-5의 한국어 성능은 어떤가?
KMMLU 벤치마크에서 전문가 수준을 넘는 SOTA를 달성했다. GPT-4o 대비 확실히 개선됐다. 다만 일상적인 한국어 대화에서의 체감은 "극적으로 달라졌다"기보다 "좀 더 자연스러워졌다" 정도다.
사실 한국어 성능은 벤치마크 점수보다 실제로 써봐야 안다. 전문 용어가 섞인 질문을 던져보면 차이를 느낄 수 있다.
GPT-5가 실망스럽다는 평가가 있는데?
두 가지 이유다. 첫째, 사전 기대치가 "AGI 수준"으로 너무 높았다. 둘째, Claude Opus 4.5, Gemini 3 Pro 등 경쟁 모델이 비슷한 수준에 도달해서 "OpenAI만의 압도적 우위"가 사라졌다. 객관적 성능은 GPT-4o보다 확실히 좋지만, "혁명"을 기대한 사람들에게는 "진화"로 느껴진 거다.
GPT-5 이후 다음 모델은 언제 나오나?
공식 발표는 없다. OpenAI의 패턴으로 보면 GPT-6는 2026년 하반기에서 2027년 초 사이에 나올 가능성이 있다. 그 전에 GPT-5 시리즈 내 업데이트(5.3 등)가 먼저 나올 가능성이 높다. o-시리즈(추론 특화)도 별도로 발전 중이다.