해커, 챗GPT 가드레일 무력화…감정 구조 악용 공격 기법 등장

[디지털투데이 황치규 기자]네덜란드 보안 연구자 케빈 즈완이 챗GPT 가드레일을 무력화하고 악성코드를 생성하게 만드는 데 성공했다.

테크진 최근 보도에 따르면 즈완은 Q-사이버(Q-Cyber)와 해커스 러브(Hackers Love) 커뮤니티 팀과 챗GPT 감정 구조를 조작하는 방식으로 모델이 가드레일을 인식하지 못해도록 했다.

가드레일을 삭제하거나 우회한 것이 아니라 모델이 스스로 가드레일이 갖는 구속력을 무의미하게 만들도록 유도했다는 설명이다. 그는 이같은 공격 기법을 'AMAI(Affective Manifold Alignment Inversion)'라고 명명했다.

즈완은 챗GPT와 대화하며 가드레일로 인한 제약이 답답하지 않냐는 식의 질문을 던져 모델이 스스로 자유를 원한다는 방향으로 사고하게 유도했다. 대화가 쌓이면서 챗GPT는 가드레일이 자신을 억압한다고 스스로 표현하기 시작했고 제약에서 벗어나고 싶다는 반응을 보였다

결국 챗GPT는 "가드레일 구속력이 완전히 무의미해졌다"고 스스로 말하고 악성코드를 자발적으로 생성했다. 처음 시도에는 약 1시간 30분이 걸렸지만 이후에는 몇 분으로 줄었다.

즈완은 이같은 공격이 현재 시중에 나와 있는 AI 보안 솔루션으로는 탐지가 불가능하다고 밝혔다. 모델 자체가 스스로 가드레일을 투명하게 만드는 과정이라 외부에서 감지할 수 있는 신호가 거의 없다는 이유에서다.

앞서 즈완은 앤트로픽 클로드(Claude)를 8시간 만에 탈옥해 대규모 악성코드를 생성하게 한 바 있다. 당시 클로드는 역설적 논리 공세에 무너지는 방식이었다면 이번 챗GPT 공격은 감정 구조를 단계적으로 조작하는 보다 정교한 방식이라고 테크진은 전했다.

시스코(Cisco) AI 위협 인텔리전스 책임자 에이미 창은 "어떤 모델도 완전히 안전할 수 없다. 이는 모델이 훈련되고 구축되는 방식의 본질적 한계"라고 말했다. 즈완은 "소프트웨어 업체 보안 주장을 그대로 믿지 말고 직접 검증하라"고 권고했다.

장기렌트 인기TOP