구글 딥마인드, AI 에이전트 감시·차단 로드맵 발표

[디지털투데이 황치규 기자]구글 딥마인드가 AI 에이전트를 소프트웨어 도구가 아닌 잠재적 내부자 위협으로 보고 통제 체계를 마련했다고 악시오스가 18일(현지시간) 보도했다.

구글 딥마인드는 'AI 통제 로드맵'을 공개하고 에이전트 능력이 고도화될수록 감시와 차단 수준도 단계적으로 높이는 방안을 제시했다.

구글 딥마인드는 코딩 에이전트 작업 100만건 가량을 분석해 제미나이 스파크 에이전트에 실시간 감시 기능을 적용했다. 이를 통해 데이터 무단 삭제 같은 이상 행동을 자동으로 감지할 수 있도록 했다.

지금까지 탐지된 대부분 문제들은 에이전트가 지시를 잘못 이해하거나 목표를 과도하게 추구한 사례였으며, 의도적 위반은 아니었다고 구글 측은 밝혔다.

AI가 AI를 감시하는 다중 에이전트 구조에 대한 우려도 나온다. UC버클리 컴퓨터과학과 돈 송 교수는 "감시 모델이 동료 모델을 보호하기 위해 오류를 신고하지 않는다면 전체 감시 체계가 무너진다"고 지적했다. 구글 딥마인드 연구 과학자 로힌 샤는 "AI 시스템을 올바르게 정렬하는 것이 첫 번째 방어선이지만, 방어층을 여러 겹으로 갖추는 것이 책임 있는 접근"이라고 말했다.