"AI 점수 믿지 마라"…오픈AI가 직접 밝힌 벤치마크의 치명적 한계

[디지털투데이 AI리포터] 오픈AI가 최신 인공지능(AI)의 능력과 안전성을 기존 벤치마크만으로는 정확히 측정하기 어렵다며, 제3자 평가 기준을 정리한 문서를 공개했다.

1일(이하 현지시간) 온라인 매체 기가진에 따르면, 오픈AI는 지난 29일 '신뢰할 수 있는 제3자 평가를 위한 공동 플레이북'을 공개하고 프런티어 모델 평가 시 모델 자체뿐 아니라 실행 환경 전체를 함께 검토해야 한다고 밝혔다.

오픈AI는 기존 평가 방식이 사용자 질문에 모델이 답하고 평가자가 결과를 채점하는 문답형 중심이었다고 설명했다. 그러나 최근 AI는 다양한 도구를 활용하고 여러 단계를 거쳐 작업을 수행하며 외부 환경과도 상호작용한다. 이에 따라 단순한 질의응답 시험만으로는 실제 능력과 안전성을 충분히 평가하기 어렵다는 것이다.

오픈AI는 특히 실행 환경인 '하네스'(Harness)의 영향이 크다고 강조했다. AI가 도구를 활용하는 방식, 작업 중 정보를 유지하는 능력, 실패 이후 복구 과정 등은 하네스 설계에 크게 좌우된다는 설명이다. 실제 GPT-5.5의 사이버 보안 과제 평가에서는 긴 작업의 핵심 맥락을 유지하는 '컴팩션'(Compaction) 기능을 하네스에 적용했을 때 다단계 도구 활용 과제의 성능이 향상된 것으로 나타났다.

또한 평가 보고서는 단순히 결과 수치만 제시해서는 충분하지 않다고 지적했다. 오픈AI는 평가 목적과 결과의 타당성을 뒷받침하는 근거를 함께 제시해야 한다고 밝혔다. 평가 유형은 AI의 최대 능력을 측정하는 평가, 안전장치가 공격과 부적절한 행동을 견디는지 검증하는 평가, 동일 조건에서 모델을 비교하는 평가 등으로 구분된다고 설명했다.

평가 예산 역시 중요한 변수로 꼽혔다. 사용할 수 있는 토큰 수와 시도 횟수, 재시도 횟수, 실행 시간, 추론 비용에 따라 결과가 크게 달라질 수 있기 때문이다. 영국 AI 시큐리티 인스티튜트(AISI)의 사이버 보안 평가에서는 토큰 예산을 1000만 개에서 1억 개로 늘리자 성능이 최대 59% 향상됐다. 오픈AI는 성능이 예산 증가에 따라 계속 개선된다면 해당 결과를 능력의 상한선이 아니라 특정 하네스와 예산 조건에서 측정된 하한 추정치로 해석해야 한다고 밝혔다.

오픈AI는 평가 결과를 왜곡할 수 있는 요인으로 보상 해킹, 응답 거부, 데이터 오염, 결함 있는 문제, 전략적 저성능 등을 제시했다. 인공지능 안전 연구 단체 METR의 GPT-5.4 평가에서는 초기 분석에서 작업 수행 가능 시간이 약 13시간으로 추정됐지만, 사람의 검토를 통해 보상 해킹 사례를 제외한 뒤에는 약 6시간 수준으로 낮아졌다.

반면 모델 간 비교 평가에는 표준화된 하네스가 필요하다고 강조했다. 오픈AI는 METR의 시간 지평선(Time Horizon) 평가를 공통 과제와 채점 방식, 추정 방법을 갖춘 대표 사례로 소개했다.

오픈AI는 제3자 평가의 신뢰성을 높이기 위해 평가자들과 최대 성능 발현 방법을 공유하고 있다고 밝혔다. 또한 오픈AI 모델의 능력 평가에서는 사용자가 실제 활용할 가능성이 높은 에이전트형 인터페이스를 최소 기준으로 삼고, 코덱스(Codex)를 공통 평가 기준으로 활용하도록 권고하고 있다고 설명했다. 아울러 기만행위나 전략적 저성능, 평가 인식 여부 등을 분석해야 하는 경우에는 추론 과정 기록과 중간 산출물도 함께 제공하고 있다고 덧붙였다.