앤트로픽, 사용자 몰래 AI 바꿨다…"잘못된 판단" 공식 사과

앤트로픽이 클로드 페이블 5의 숨겨진 증류 보호 기능 운영 방식을 철회했다. [사진: 셔터스톡]

[디지털투데이 AI리포터] 앤트로픽이 새 인공지능(AI) 모델 '클로드 페이블 5'에 적용한 비공개 제한 정책을 철회하고, 거부되거나 다른 모델로 전환된 요청을 사용자에게 명확히 알리기로 했다.

12일(이하 현지시간) IT매체 아이티미디어 등 외신에 따르면, 앤트로픽은 모델 증류 관련 요청 처리 과정에서 모델 전환 사실을 사용자에게 숨겨온 것은 잘못된 판단이었다고 인정하며 사과했다.

클로드 페이블 5는 지난 9일 일반에 공개됐다. 이 모델은 사이버보안, 생물·화학, 모델 증류 관련 요청을 감지하면 클로드 페이블 5 대신 하위 모델인 클로드 오퍼스 4.8이 응답을 처리한다.

이 가운데 사이버보안과 생물·화학 분야는 모델 전환 사실이 사용자에게 표시됐지만, 프런티어 대규모언어모델(LLM) 개발과 관련된 증류 분야에서는 해당 보호 기능이 보이지 않게 작동했다. 이에 따라 사용자는 응답 과정에서 모델이 전환됐다는 사실을 알 수 없었다.

앤트로픽은 이번 주부터 증류 분야에서 플래그가 감지된 요청도 클로드 오퍼스 4.8로 전환된다는 사실을 사용자에게 명확히 표시하기로 했다. 사용자는 모델 전환이 발생할 때마다 이를 확인할 수 있다.

또 API에서는 플래그가 감지된 요청에 거부 사유를 반환하며, 서버 측 폴백 기능도 수일 내 제공할 예정이다.

앤트로픽은 보이는 보호 기능은 외부에서 분석·우회 시도가 이뤄질 수 있어 더 높은 수준의 견고성이 필요하고 구축에도 시간이 많이 소요된다고 설명했다. 반면 보이지 않는 보호 기능은 적용 범위를 제한할 수 있어 오탐 가능성을 낮추면서도 빠르게 배포할 수 있다고 판단했다.

그러나 앤트로픽은 이러한 결정이 적절하지 않았다고 인정했다. 사용자는 어떤 보호 기능이 적용되는지, 또 그 이유가 무엇인지 알 권리가 있다는 설명이다.

다만 보호 기능을 공개하면 제일브레이크 시도에 활용될 수 있는 단서를 제공할 가능성이 있는 만큼, 분류기 개선이 이뤄지는 동안에는 무해한 요청이 오탐으로 분류되는 사례가 늘어날 수 있다고 밝혔다.

앤트로픽은 사이버보안 및 생물·화학 분야 분류기 역시 무해한 요청에 대한 개입을 줄이는 방향으로 조정하고 있다고 덧붙였다.

잘못 플래그 처리된 요청은 클로드 코드에서 /feedback 명령을 통해 신고할 수 있다. 또한 Claude.ai와 클로드 코워크에서는 폴백 된 응답에 낮은 평가를 남기는 방식으로 이의를 제기할 수 있으며, API 이용자는 별도의 보호 기능 이의신청 양식을 통해 접수할 수 있다.

앤트로픽은 이용자들의 신고와 피드백을 분류기 개선에 적극 활용할 계획이다.

클로드 페이블 5의 보호 기능은 공개 직후부터 엑스(옛 트위터)에서 비판을 받아왔다. 무해한 요청까지 차단된다는 지적이 이어졌으며, 이번 조치는 이러한 비판을 반영해 운영 방식을 수정한 결과로 평가된다.

We’re rolling out changes to make Fable 5’s safeguards for frontier LLM development visible.

Starting this week, flagged requests will visibly fall back to Opus 4.8—the same as our safeguards for cyber and bio. You will see this every time it happens. On the API, any flagged…
— ClaudeDevs (@ClaudeDevs) June 11, 2026

장기렌트 인기TOP

현대 디 올-뉴 그랜저 HEV(GN7)

월 298,340 ~

신차 견적 빠른 상담

현대 더 뉴 투싼 HEV (NX4 F/L)

월 265,187 ~

신차 견적 빠른 상담

제네시스 GV70(JK F/L)

월 428,360 ~

신차 견적 빠른 상담

현대 더 뉴 아반떼(CN7 F/L)

월 210,511 ~

신차 견적 빠른 상담

쉐보레 트랙스 크로스오버

월 285,711 ~

신차 견적 빠른 상담

또 API에서는 플래그가 감지된 요청에 거부 사유를 반환하며, 서버 측 폴백 기능도 수일 내 제공할 예정이다.

앤트로픽은 사이버보안 및 생물·화학 분야 분류기 역시 무해한 요청에 대한 개입을 줄이는 방향으로 조정하고 있다고 덧붙였다.

앤트로픽은 이용자들의 신고와 피드백을 분류기 개선에 적극 활용할 계획이다.

We’re rolling out changes to make Fable 5’s safeguards for frontier LLM development visible.

Starting this week, flagged requests will visibly fall back to Opus 4.8—the same as our safeguards for cyber and bio. You will see this every time it happens. On the API, any flagged…
— ClaudeDevs (@ClaudeDevs) June 11, 2026