오픈AI, 새 모델 GPT-5.2 공개 “제미나이 성능 능가”
||2025.12.12
||2025.12.12
구글의 추격에 ‘중대 경보(코드레드)’를 선언한 챗GPT 개발사 오픈AI가 최첨단 인공지능(AI) 모델 ‘GPT-5.2’를 선보였다. 구글의 ‘제미나이3’가 GPT-5를 능가하는 성능으로 이용자를 빠르게 늘려가자, 위기를 느낀 오픈AI가 이전 버전을 공개한 지 한 달 만에 새 버전으로 대응한 것이다.
오픈AI는 11일(현지시각) 전문적인 지식 업무를 위해 설계된 GPT-5.2를 출시한다고 밝혔다. GPT-5.2는 정보 검색, 글쓰기, 번역 성능이 더 빠르고 정확해졌으며, 인간의 추론 방식을 모방하는 능력을 개선해 수학·프로그래밍 등 복잡하고 장문의 작업 처리 능력이 높아졌다고 오픈AI는 설명했다.
GPT-5.2는 이전의 즉답(Instant), 사고(Thinking) 모드에 프로(Pro) 모드를 더해 총 세 가지 모드로 이뤄졌다.
즉답 모드는 일상적인 업무와 학습을 위한 빠른 답변에 최적화했고, 사고 모드는 코딩이나 수학적 해결, 긴 문서 요약 등에 적합하다. 프로 모드는 긴 작업시간을 필요로 하는 어려움 문제를 해결하는 데 적합하다고 오픈AI는 소개했다.
오픈AI는 최신 모델이 추론과 코딩 능력을 강화하고 환각을 줄였으며, AI 성능을 측정하는 다양한 벤치마크에서 최고 점수를 받았다고 강조했다. 피지 시모 오픈AI 애플리케이션 부문 최고경영자(CEO)는 “GPT-5.2는 스프레드시트 제작, 프레젠테이션 구성, 코드 작성, 이미지 인식, 장기 문맥 이해, 도구 활용 등 복잡한 다단계 프로젝트 수행 등에서 성능이 가장 뛰어나다”고 말했다.
전문 산업 현장 44개 직종의 업무 수행 능력을 평가하는 GDPval 평가에서 GPT-5.2 사고 모드는 70.9%, 프로 모드는 74.1%를 기록해 인간 전문가들과 대등하거나, 더 뛰어난 능력을 갖춘 것으로 조사됐다. 이전 버전인 GPT-5(38.8%)와 비교해 성능이 큰 폭으로 개선됐다.
소프트웨어 엔지니어링 능력을 평가하는 SWE 벤치마크에서는 80%를 기록해, 제미나이 3프로의 76.2%를 넘어섰다. 코딩 능력이 뛰어난 것으로 알려진 앤트로픽의 클로드 오퍼스4.5(80.9%)와는 거의 동등한 수준까지 올라섰다. ‘인간의 마지막 시험’으로 불리는 박사급 추론능력 측정 벤치마크 HLE에서도 구글의 최신 AI 모델을 능가했다.
별도 도구를 사용하지 않고 모델 자체의 능력만으로 진행한 평가에서는 GPT-5.2 프로는 36.6%로, 제미나이3 프로의 37.5%보다 소폭 낮은 점수를 기록했다. 그러마 검색 등 도구를 사용해서 진행한 평가에서는 50%로 제미나이3 프로(45.8%)보다 높은 점수를 얻었다.
환각 현상도 크게 줄였다. 내부 테스트 결과 GPT-5.2 사고 모드의 오류율은 6.2%로 전작인 GPT-5.1 사고 모드(8.8%)와 견줘 약 30% 감소했다.
긴 글의 맥락을 파악하는 능력이나 그래프를 비롯한 그림과 사진을 인식하는 능력, 다단계 업무의 해결 능력 등도 향상됐다.
GPT-5.2는 유료 요금제 구독자에 이날부터 순차적으로 제공된다. 개발자들도 API를 통해 이용할 수 있다. 새 버전 출시에 따라 이전 버전인 GPT-5.1은 앞으로 3개월간 제공된 이후 서비스를 종료한다.
오픈AI는 당초 GPT-5.2를 월말에 출시하려 했지만, 제미나이3 프로가 강력한 벤치마크 성적표를 앞세워 이용자를 끌어들이는 것을 보고 출시를 앞당긴 것으로 전해졌다.
샘 올트먼 오픈AI 최고경영자(CEO)는 이달 초 사내에 코드레드를 발령하고, 다른 일을 제쳐두고 챗GPT 성능과 개선에 집중하라고 주문했다.
오픈AI는 내년 1월에 또다시 새로운 모델을 선보인 이후 경보를 해제할 예정이라고 월스트리트저널(WSJ)이 보도했다.


1
2
3
4
5