• 홈
  • 데일리카
  • 스마트모빌
  • 브랜드모빌
주식회사 패스트뷰
  • 회사소개
  • 개인정보처리방침
  • 청소년보호정책
  • 이메일무단수집거부
  • 사업자등록번호: 619-87-00936
  • 서울특별시 서초구 서초대로 396, 18층 1802호(서초동, 강남빌딩)
  • 대표 : 02-6205-0936팩스: 02-6205-0936대표메일: team@fastviewkorea.com
  • 네이트커뮤니케이션즈㈜는 정보제공업체 또는 정보제작업체가 제공한 상기의 정보와 관련하여 발생한 문제에 대해서 어떠한 책임도 부담하지 않으며, 모든 책임은 각 정보제공업체에게 있습니다.
  • © NATE Communications

챗GPT·클로드도 무너진 ‘주의력 테스트’…AGI 걸림돌 되나

디지털투데이|홍진주 기자|2026.06.05

이번 연구는 대형언어모델의 성능 경쟁이 단순한 기억력이나 정답률만으로 설명되지 않는다는 점을 보여준다 [사진: 셔터스톡]
이번 연구는 대형언어모델의 성능 경쟁이 단순한 기억력이나 정답률만으로 설명되지 않는다는 점을 보여준다 [사진: 셔터스톡]

[디지털투데이 홍진주 기자] 챗GPT와 클로드 등 최신 대형언어모델(LLM)이 인간의 주의력과 실행 통제를 측정하는 대표적인 심리학 실험인 '스트룹'(Stroop) 테스트에서 예상보다 낮은 성능을 보였다는 연구 결과가 나왔다. 연구진은 이를 두고 현재 트랜스포머 기반 AI가 가진 구조적 한계를 보여주는 사례일 수 있다고 분석했다.

4일(현지시간) IT 매체 테크레이더에 따르면, 해당 연구는 최근 학술지 PNAS 넥서스(PNAS Nexus)에 게재됐다. 연구진은 오픈AI의 GPT-4o와 앤트로픽의 클로드 3.5 소네트를 대상으로 스트룹 효과 실험을 진행했다.

스트룹 효과는 인간의 선택적 주의력과 실행 통제 능력을 측정하는 대표적인 인지심리학 실험이다. 예를 들어 '빨강'이라는 단어가 파란색 글씨로 적혀 있을 경우 사람은 단어의 의미와 실제 색상 사이에서 인지적 충돌을 경험하게 된다. 이때 참가자가 단어를 읽는 것이 아니라 글씨 색상을 정확히 말해야 하는 상황에서 반응 속도와 정확도가 떨어지는 현상을 스트룹 효과라고 부른다.

연구진은 AI 모델들에게 단어 읽기 과제와 색상 이름 답하기 과제를 각각 수행하도록 했다. 결과적으로 두 모델 모두 인간과 비슷하게 단어를 읽는 과제에서는 높은 정확도를 보였지만, 단어 의미와 색상이 충돌하는 조건에서는 성능이 크게 저하됐다.

특히 문제 수가 늘어날수록 정확도 하락이 뚜렷하게 나타났다. GPT-4o는 5개 항목 테스트에서 약 91%의 정확도를 기록했지만, 10개 항목에서는 57%, 20개에서는 22%, 40개에서는 15%까지 떨어졌다.

클로드 3.5 소네트는 상대적으로 더 나은 성능을 보였지만 비슷한 경향을 나타냈다. 20개 항목까지는 76% 수준의 정확도를 유지했으나, 40개 항목에서는 24%까지 낮아졌다.

연구진은 이러한 결과가 단순한 성능 저하가 아니라 실행 주의(executive attention) 능력의 구조적 한계를 보여준다고 분석했다. 인간은 충돌하는 정보를 구분하고 목표에 맞는 정보만 선택하는 능력을 갖고 있지만, 현재의 대형언어모델은 이런 통제 과정에서 어려움을 겪는다는 것이다.

다만 이번 연구가 GPT-4o와 클로드 3.5 소네트를 중심으로 진행됐다는 점은 한계로 지적됐다. 연구가 공개될 당시 이미 GPT-5와 클로드 오퍼스 4.1, 제미나이 2.5 프로 등 더 최신 모델이 등장한 상태였기 때문이다.

연구진은 이에 따라 후속 실험도 진행했다. GPT-5와 클로드 오퍼스 4.1, 제미나이 2.5 프로를 대상으로 한 추가 테스트 결과 역시 이전 세대보다 개선 폭은 크지 않았으며, 실행 주의력 부족 현상이 여전히 관찰됐다고 밝혔다.

논문은 이 같은 결과가 단순한 세대 교체로 해결될 문제가 아닐 수 있다고 주장했다. 현재의 트랜스포머 기반 아키텍처는 기억력과 정보 저장 능력을 지속적으로 향상시키고 있지만, 충돌하는 정보를 선별하고 목표 지향적으로 행동하는 실행 통제 메커니즘은 상대적으로 부족하다는 설명이다.

흥미로운 예외도 있었다. GPT-5는 '씽킹(Thinking) 모드에서 코드를 작성하고 실행하는 방식을 활용해 스트룹 테스트를 사실상 완벽하게 해결했다. 그러나 연구진은 이를 근본적인 인지 능력 향상이라기보다 외부 도구를 이용해 문제를 우회한 사례로 해석했다.

연구진은 향후 AI 발전 방향이 단순한 메모리 확장보다 실행 통제 능력 강화에 초점을 맞춰야 한다고 제안했다. 특히 인간의 주의 체계와 유사한 구조를 도입해 충돌하는 정보를 효율적으로 처리할 수 있어야 범용인공지능(AGI)에 한 걸음 더 가까워질 수 있다고 강조했다.

이번 연구는 최근 급속히 발전하고 있는 생성형 AI가 뛰어난 언어 생성 능력을 보여주고 있음에도 불구하고, 인간의 인지 체계와는 다른 방식으로 작동한다는 점을 다시 한번 보여주는 사례로 평가된다.
 

  • 게임하다 배터리 끊길 일 없나…벨킨, 스위치2 전용 신무기 내놨다
  • 메타, 스마트 글래스 '얼굴 인식 코드' 포착…프라이버시 논란 확산
  • 애플 기업용 메시지에 첫 AI 에이전트 허용…포크, 아이메시지 지원
  • 애플, iOS 27 막바지 시험 단계…WWDC 앞두고 관심 집중
  • 프롬프트만 입력하면 디자인 완성…퍼플렉시티-캔바 연결

가격대별 인기 장기 렌트카

  • 20만원대
  • 30만원대
  • 40만원대
  • 50만원대
  • 60만원대
  • 더 뉴 캐스퍼

    현대 더 뉴 캐스퍼 2026년형 가솔린 1.0 터보 액티브Ⅰ2WD 디 에센셜 (자동)

    최저가233,670원~

  • 더 뉴 아반떼(CN7 F/L)

    현대 더 뉴 아반떼(CN7 F/L) 2026년형 가솔린 1.6 2WD (개별소비세 5%) 스마트 (자동)

    최저가239,960원~

  • 디 올 뉴 니로(SG2)

    기아 디 올 뉴 니로(SG2) 2025년형 가솔린 1.6 하이브리드 2WD 사양변경 (개별소비세 5%) 트렌디 (자동)

    최저가260,620원~

  • 더 뉴 셀토스

    기아 더 뉴 셀토스 2025년형(26각자) 가솔린 1.6 터보 AWD (개별소비세 5%) 트렌디 (자동)

    최저가224,630원~

장기렌트 인기TOP

  • 기아 더 뉴 K8(GL3 F/L)1

    기아 더 뉴 K8(GL3 F/L)

    월 354,686 ~

    신차 견적 빠른 상담
  • 르노코리아 아르카나2

    르노코리아 아르카나

    월 353,999 ~

    신차 견적 빠른 상담
  • 기아 더 뉴 셀토스3

    기아 더 뉴 셀토스

    월 0 ~

    신차 견적 빠른 상담
  • 제네시스 GV80(JX F/L)4

    제네시스 GV80(JX F/L)

    월 510,951 ~

    신차 견적 빠른 상담
  • 현대 더 뉴 아반떼(CN7 F/L)5

    현대 더 뉴 아반떼(CN7 F/L)

    월 207,101 ~

    신차 견적 빠른 상담