• 홈
  • 데일리카
  • 스마트모빌
  • 브랜드모빌
주식회사 패스트뷰
  • 회사소개
  • 개인정보처리방침
  • 청소년보호정책
  • 이메일무단수집거부
  • 사업자등록번호: 619-87-00936
  • 서울특별시 서초구 서초대로 396, 18층 1802호(서초동, 강남빌딩)
  • 대표 : 02-6205-0936팩스: 02-6205-0936대표메일: team@fastviewkorea.com
  • 네이트커뮤니케이션즈㈜는 정보제공업체 또는 정보제작업체가 제공한 상기의 정보와 관련하여 발생한 문제에 대해서 어떠한 책임도 부담하지 않으며, 모든 책임은 각 정보제공업체에게 있습니다.
  • © NATE Communications

"AI 점수 믿지 마라"…오픈AI가 직접 밝힌 벤치마크의 치명적 한계

디지털투데이|AI리포터|2026.06.01

오픈AI [사진: 셔터스톡]
오픈AI [사진: 셔터스톡]

[디지털투데이 AI리포터] 오픈AI가 최신 인공지능(AI)의 능력과 안전성을 기존 벤치마크만으로는 정확히 측정하기 어렵다며, 제3자 평가 기준을 정리한 문서를 공개했다.

1일(이하 현지시간) 온라인 매체 기가진에 따르면, 오픈AI는 지난 29일 '신뢰할 수 있는 제3자 평가를 위한 공동 플레이북'을 공개하고 프런티어 모델 평가 시 모델 자체뿐 아니라 실행 환경 전체를 함께 검토해야 한다고 밝혔다.

오픈AI는 기존 평가 방식이 사용자 질문에 모델이 답하고 평가자가 결과를 채점하는 문답형 중심이었다고 설명했다. 그러나 최근 AI는 다양한 도구를 활용하고 여러 단계를 거쳐 작업을 수행하며 외부 환경과도 상호작용한다. 이에 따라 단순한 질의응답 시험만으로는 실제 능력과 안전성을 충분히 평가하기 어렵다는 것이다.

오픈AI는 특히 실행 환경인 '하네스'(Harness)의 영향이 크다고 강조했다. AI가 도구를 활용하는 방식, 작업 중 정보를 유지하는 능력, 실패 이후 복구 과정 등은 하네스 설계에 크게 좌우된다는 설명이다. 실제 GPT-5.5의 사이버 보안 과제 평가에서는 긴 작업의 핵심 맥락을 유지하는 '컴팩션'(Compaction) 기능을 하네스에 적용했을 때 다단계 도구 활용 과제의 성능이 향상된 것으로 나타났다.

또한 평가 보고서는 단순히 결과 수치만 제시해서는 충분하지 않다고 지적했다. 오픈AI는 평가 목적과 결과의 타당성을 뒷받침하는 근거를 함께 제시해야 한다고 밝혔다. 평가 유형은 AI의 최대 능력을 측정하는 평가, 안전장치가 공격과 부적절한 행동을 견디는지 검증하는 평가, 동일 조건에서 모델을 비교하는 평가 등으로 구분된다고 설명했다.

평가 예산 역시 중요한 변수로 꼽혔다. 사용할 수 있는 토큰 수와 시도 횟수, 재시도 횟수, 실행 시간, 추론 비용에 따라 결과가 크게 달라질 수 있기 때문이다. 영국 AI 시큐리티 인스티튜트(AISI)의 사이버 보안 평가에서는 토큰 예산을 1000만 개에서 1억 개로 늘리자 성능이 최대 59% 향상됐다. 오픈AI는 성능이 예산 증가에 따라 계속 개선된다면 해당 결과를 능력의 상한선이 아니라 특정 하네스와 예산 조건에서 측정된 하한 추정치로 해석해야 한다고 밝혔다.

오픈AI는 평가 결과를 왜곡할 수 있는 요인으로 보상 해킹, 응답 거부, 데이터 오염, 결함 있는 문제, 전략적 저성능 등을 제시했다. 인공지능 안전 연구 단체 METR의 GPT-5.4 평가에서는 초기 분석에서 작업 수행 가능 시간이 약 13시간으로 추정됐지만, 사람의 검토를 통해 보상 해킹 사례를 제외한 뒤에는 약 6시간 수준으로 낮아졌다.

반면 모델 간 비교 평가에는 표준화된 하네스가 필요하다고 강조했다. 오픈AI는 METR의 시간 지평선(Time Horizon) 평가를 공통 과제와 채점 방식, 추정 방법을 갖춘 대표 사례로 소개했다.

오픈AI는 제3자 평가의 신뢰성을 높이기 위해 평가자들과 최대 성능 발현 방법을 공유하고 있다고 밝혔다. 또한 오픈AI 모델의 능력 평가에서는 사용자가 실제 활용할 가능성이 높은 에이전트형 인터페이스를 최소 기준으로 삼고, 코덱스(Codex)를 공통 평가 기준으로 활용하도록 권고하고 있다고 설명했다. 아울러 기만행위나 전략적 저성능, 평가 인식 여부 등을 분석해야 하는 경우에는 추론 과정 기록과 중간 산출물도 함께 제공하고 있다고 덧붙였다.
 

  • 블랙록 IBIT 이후 달라진 비트코인…분석가 "변동성 줄고 S&P500 앞서"
  • KCC건설, 오퍼스 한강 스위첸 현장서 1명 사망
  • 엔지켐생명과학 주주 남윤희, 엔지켐생명과학 주식등의 수 506만5345주 신규 보고
  • 애경케미칼 최대주주 에이케이홀딩스, 애경케미칼 주식등의 수 4만8582주 감소…총 지분율 62.29%
  • CJ프레시웨이 주주 미래에셋자산운용, CJ프레시웨이 주식등의 수 12만5139주 증가…총 지분율 6.09%

가격대별 인기 장기 렌트카

  • 20만원대
  • 30만원대
  • 40만원대
  • 50만원대
  • 60만원대
  • 더 뉴 캐스퍼

    현대 더 뉴 캐스퍼 2026년형 가솔린 1.0 터보 액티브Ⅰ2WD 디 에센셜 (자동)

    최저가233,670원~

  • 더 뉴 아반떼(CN7 F/L)

    현대 더 뉴 아반떼(CN7 F/L) 2026년형 가솔린 1.6 2WD (개별소비세 5%) 스마트 (자동)

    최저가239,960원~

  • 디 올 뉴 니로(SG2)

    기아 디 올 뉴 니로(SG2) 2025년형 가솔린 1.6 하이브리드 2WD 사양변경 (개별소비세 5%) 트렌디 (자동)

    최저가260,620원~

  • 더 뉴 셀토스

    기아 더 뉴 셀토스 2025년형(26각자) 가솔린 1.6 터보 AWD (개별소비세 5%) 트렌디 (자동)

    최저가224,630원~

장기렌트 인기TOP

  • 르노코리아 아르카나1

    르노코리아 아르카나

    월 353,999 ~

    신차 견적 빠른 상담
  • 기아 더 뉴 쏘렌토(MQ4 F/L)2

    기아 더 뉴 쏘렌토(MQ4 F/L)

    월 299,721 ~

    신차 견적 빠른 상담
  • 기아 더 뉴 카니발 HEV(KA4 F/L)3

    기아 더 뉴 카니발 HEV(KA4 F/L)

    월 322,829 ~

    신차 견적 빠른 상담
  • 현대 더 뉴 아반떼(CN7 F/L)4

    현대 더 뉴 아반떼(CN7 F/L)

    월 207,101 ~

    신차 견적 빠른 상담
  • 제네시스 GV80(JX F/L)5

    제네시스 GV80(JX F/L)

    월 510,951 ~

    신차 견적 빠른 상담