챗GPT·클로드도 무너진 ‘주의력 테스트’…AGI 걸림돌 되나

이번 연구는 대형언어모델의 성능 경쟁이 단순한 기억력이나 정답률만으로 설명되지 않는다는 점을 보여준다 [사진: 셔터스톡]

[디지털투데이 홍진주 기자] 챗GPT와 클로드 등 최신 대형언어모델(LLM)이 인간의 주의력과 실행 통제를 측정하는 대표적인 심리학 실험인 '스트룹'(Stroop) 테스트에서 예상보다 낮은 성능을 보였다는 연구 결과가 나왔다. 연구진은 이를 두고 현재 트랜스포머 기반 AI가 가진 구조적 한계를 보여주는 사례일 수 있다고 분석했다.

4일(현지시간) IT 매체 테크레이더에 따르면, 해당 연구는 최근 학술지 PNAS 넥서스(PNAS Nexus)에 게재됐다. 연구진은 오픈AI의 GPT-4o와 앤트로픽의 클로드 3.5 소네트를 대상으로 스트룹 효과 실험을 진행했다.

스트룹 효과는 인간의 선택적 주의력과 실행 통제 능력을 측정하는 대표적인 인지심리학 실험이다. 예를 들어 '빨강'이라는 단어가 파란색 글씨로 적혀 있을 경우 사람은 단어의 의미와 실제 색상 사이에서 인지적 충돌을 경험하게 된다. 이때 참가자가 단어를 읽는 것이 아니라 글씨 색상을 정확히 말해야 하는 상황에서 반응 속도와 정확도가 떨어지는 현상을 스트룹 효과라고 부른다.

연구진은 AI 모델들에게 단어 읽기 과제와 색상 이름 답하기 과제를 각각 수행하도록 했다. 결과적으로 두 모델 모두 인간과 비슷하게 단어를 읽는 과제에서는 높은 정확도를 보였지만, 단어 의미와 색상이 충돌하는 조건에서는 성능이 크게 저하됐다.

특히 문제 수가 늘어날수록 정확도 하락이 뚜렷하게 나타났다. GPT-4o는 5개 항목 테스트에서 약 91%의 정확도를 기록했지만, 10개 항목에서는 57%, 20개에서는 22%, 40개에서는 15%까지 떨어졌다.

클로드 3.5 소네트는 상대적으로 더 나은 성능을 보였지만 비슷한 경향을 나타냈다. 20개 항목까지는 76% 수준의 정확도를 유지했으나, 40개 항목에서는 24%까지 낮아졌다.

연구진은 이러한 결과가 단순한 성능 저하가 아니라 실행 주의(executive attention) 능력의 구조적 한계를 보여준다고 분석했다. 인간은 충돌하는 정보를 구분하고 목표에 맞는 정보만 선택하는 능력을 갖고 있지만, 현재의 대형언어모델은 이런 통제 과정에서 어려움을 겪는다는 것이다.

다만 이번 연구가 GPT-4o와 클로드 3.5 소네트를 중심으로 진행됐다는 점은 한계로 지적됐다. 연구가 공개될 당시 이미 GPT-5와 클로드 오퍼스 4.1, 제미나이 2.5 프로 등 더 최신 모델이 등장한 상태였기 때문이다.

연구진은 이에 따라 후속 실험도 진행했다. GPT-5와 클로드 오퍼스 4.1, 제미나이 2.5 프로를 대상으로 한 추가 테스트 결과 역시 이전 세대보다 개선 폭은 크지 않았으며, 실행 주의력 부족 현상이 여전히 관찰됐다고 밝혔다.

논문은 이 같은 결과가 단순한 세대 교체로 해결될 문제가 아닐 수 있다고 주장했다. 현재의 트랜스포머 기반 아키텍처는 기억력과 정보 저장 능력을 지속적으로 향상시키고 있지만, 충돌하는 정보를 선별하고 목표 지향적으로 행동하는 실행 통제 메커니즘은 상대적으로 부족하다는 설명이다.

흥미로운 예외도 있었다. GPT-5는 '씽킹(Thinking) 모드에서 코드를 작성하고 실행하는 방식을 활용해 스트룹 테스트를 사실상 완벽하게 해결했다. 그러나 연구진은 이를 근본적인 인지 능력 향상이라기보다 외부 도구를 이용해 문제를 우회한 사례로 해석했다.

연구진은 향후 AI 발전 방향이 단순한 메모리 확장보다 실행 통제 능력 강화에 초점을 맞춰야 한다고 제안했다. 특히 인간의 주의 체계와 유사한 구조를 도입해 충돌하는 정보를 효율적으로 처리할 수 있어야 범용인공지능(AGI)에 한 걸음 더 가까워질 수 있다고 강조했다.

이번 연구는 최근 급속히 발전하고 있는 생성형 AI가 뛰어난 언어 생성 능력을 보여주고 있음에도 불구하고, 인간의 인지 체계와는 다른 방식으로 작동한다는 점을 다시 한번 보여주는 사례로 평가된다.

챗GPT·클로드도 무너진 ‘주의력 테스트’…AGI 걸림돌 되나

가격대별 인기 장기 렌트카

장기렌트 인기TOP