“AI는 AI로 학습한다”… 업계 ‘모델 증류’ 논쟁 확산

일론 머스크가 이끄는 xAI의 AI 학습 방식이 법정에서 도마에 오르면서, 생성형 AI 업계의 ‘모델 증류(distillation)’ 관행이 논란의 중심에 섰다. 경쟁사 모델의 출력물을 활용한 학습 가능성이 제기되며 데이터 활용과 저작권·윤리 경계를 둘러싼 논쟁이 확산하고 있다.

생성형 AI 업계에서 경쟁사 모델의 출력물을 활용해 또 다른 AI를 학습시키는 ‘모델 증류(distillation)’ 관행이 논란의 중심이 됐다. / 챗GPT 생성

IT 업계에 따르면 지난달 30일(현지시각) 미국 캘리포니아 오클랜드 연방법원에서 진행 중인 일론 머스크와 오픈AI 간 재판 과정에서 xAI 측의 모델 학습 방식이 쟁점으로 떠올랐다.

재판 과정의 반대신문에서 xAI가 오픈AI 모델을 활용해 ‘그록’을 학습시켰는지에 대한 질문이 제기됐고, 머스크는 “업계 전반의 관행”이라며 일부 활용 사실을 인정하는 취지로 답변했다. 특히 그는 해당 방식이 “부분적으로(partly)” 사용됐다는 점도 시사한 것으로 전해졌다.

‘모델 증류’는 대형 AI 모델이 생성한 답변이나 출력 패턴을 학습 데이터처럼 활용해 더 작은 모델의 성능을 빠르게 끌어올리는 기법이다. 막대한 비용이 드는 대규모 학습을 반복하지 않고도 일정 수준 이상의 성능을 확보할 수 있어 스타트업부터 빅테크까지 폭넓게 활용되고 있다. 특히 추론 비용 절감과 경량화, 서비스 속도 개선 측면에서 실용성이 높다는 평가를 받는다.

문제는 이 과정에서 활용되는 데이터의 성격이다. 경쟁사 모델의 출력물을 사실상 ‘가공된 학습 데이터’로 사용하는 방식이 일반화되면서, 원개발사의 권리 침해 여부와 약관 위반 논란이 불거지고 있다. 오픈AI와 앤트로픽 등 주요 기업들은 자사 API 출력물을 경쟁 모델 학습에 사용하는 행위를 제한하는 정책을 명시하고, 이를 탐지·차단하기 위한 기술적 대응도 강화하는 추세다.

반면 업계 일각과 오픈소스 진영에서는 모델 증류 자체를 문제 삼는 것은 과도하다는 반론도 제기된다. 증류는 오래전부터 활용돼 온 머신러닝 기법으로, 연구 발전과 기술 확산의 핵심 도구 중 하나라는 주장이다. 특히 합성 데이터 활용이 일반화된 상황에서 출력물 기반 학습을 전면 금지하는 것은 현실적으로 어렵다는 지적도 나온다.

이번 논란은 단순히 한 기업의 개발 방식에 대한 문제를 넘어, 생성형 AI 산업 전반의 경쟁 구조를 드러내는 사례로 평가된다. 과거에는 더 큰 모델과 더 많은 파라미터가 경쟁력을 좌우했다면, 이제는 어떤 데이터를 확보하고 이를 어떻게 활용하느냐가 핵심 변수로 떠오르고 있기 때문이다.

전문가들은 향후 AI 경쟁이 단순 성능을 넘어 데이터와 출력물, 합성데이터의 소유권과 활용 범위를 둘러싼 분쟁으로 커질 가능성이 크다고 보고 있다. 특히 모델 증류와 같이 경쟁사 출력물을 활용하는 관행이 확산하는 가운데, 기술 발전과 별개로 데이터 출처와 활용 방식에 대한 윤리적 기준과 정당성 확보가 핵심 쟁점으로 떠오르고 있다는 분석이다.

김경아 기자
kimka@chosunbiz.com

“AI는 AI로 학습한다”… 업계 ‘모델 증류’ 논쟁 확산

가격대별 인기 장기 렌트카

장기렌트 인기TOP