개인정보 없이 AI 학습 가능?…합성 데이터가 바꿀 미래
||2025.05.22
||2025.05.22
[디지털투데이 AI리포터] 인공지능(AI) 모델을 훈련하는 기업들에게 고품질 데이터 확보는 점점 더 어려운 과제가 되고 있다. 개인정보 보호와 규제 준수 문제로 필요한 데이터를 확보하기가 쉽지 않기 때문이다. 21일(현지시간) IT매체 테크레이더는 합성 데이터가 AI 훈련의 새로운 대안으로 떠오르고 있다고 전했다.
실제 데이터가 부족하거나 품질이 낮은 경우, 기존 편향이 반영된 데이터는 AI 모델의 성능을 저하시킬 수 있다. 또한, 특정 산업이나 희귀한 사건과 관련된 데이터는 충분하지 않아 의미 있는 통찰을 얻기 어렵다. 데이터 준비 과정이 복잡하고 비용이 많이 드는 것도 문제다. 이를 해결하기 위해 기업들은 인공적으로 생성된 '합성 데이터'에 주목하고 있다.
합성 데이터는 개인정보를 포함하지 않으면서도 실제 데이터를 모방해 AI 훈련에 활용할 수 있다. 특히, 의료 분야에서는 환자 데이터를 참조하지 않고도 현실적인 데이터셋을 생성해 법적·윤리적 문제를 피할 수 있다. 금융 업계에서도 합성 데이터를 활용해 거래 패턴을 모방함으로써 비용을 절감하고 규제 장벽을 낮출 수 있다.
미국 정보 기술 연구 및 자문회사인 가트너는 2030년까지 합성 데이터가 AI 모델에서 실제 데이터를 압도할 것으로 전망했다. AI 훈련의 패러다임이 변화하는 가운데, 합성 데이터는 기업들이 데이터 부족 문제를 해결하고 AI 프로젝트를 더욱 빠르고 안전하게 발전시킬 수 있는 핵심 요소로 자리 잡고 있다.