불법 사이트 데이터 몰래 배우는 AI, 어쩌나
||2026.03.03
||2026.03.03
생성형 AI가 발전하면서 AI 기업은 학습 데이터를 점점 더 많이 갈구하고 있다. 그러다 보니 불법 사이트에서 무단 복제한 저작물을 가져다 쓰는 경우도 나타난다. 불법 복제 저작물을 AI가 다시 가져다 쓰는 것은 일종의 ‘데이터 세탁’이다. 하지만 원 창작자의 저작권이 사라지는 건 아니라는 점에서 문제로 지적된다.
3일 문화체육관광부와 한국저작권위원회가 2월 발간한 '생성형 인공지능의 저작물 학습에 대한 저작권법상 공정이용 안내서'에 따르면 클로드 개발사 앤트로픽은 2024년 제기된 저작권 소송에서 불법 복제 도서 700만권가량을 내려받아 보관한 사실이 드러났다. 앤트로픽은 지난해 9월 권리자 측과 합의해 소송을 마무리했다. 합의에 따라 15억달러(약 2조원)를 지급하고 불법 복제본은 폐기하기로 했다.
이처럼 불법 사이트에 올라온 저작물을 AI가 무단 학습해도 저작권자의 권리를 침해하는 건 마찬가지다. 불법 사이트에 올라온 저작물이라고 저작권의 주체가 달라지지 않기 때문이다. 정부는 안내서를 통해 AI 학습 각 과정에서 저작물 저장이 이뤄진다고 봤다. 안내서에는 저장 매체의 형태를 불문하고 저작권법상 ‘복제’에 해당할 수 있다는 내용도 담겼다.
문제는 불법 복제 저작물을 학습한 AI 성능이 고도화될수록 창작 생태계에 미치는 타격이 커진다는 점이다.
그림 그리는 것을 전업으로 하는 한 전문가는 “픽시브나 핀터레스트 같은 그림·이미지 플랫폼의 불법 사이트를 AI가 학습하면서 성능이 좋아지자 일러스트레이터 업계가 초토화됐다”며 “불법 사이트 자체도 문제지만 그런 불법 사이트를 크롤링해 AI 학습에 쓰려는 이가 있다면 그러지 않기를 바란다”고 밝혔다.
김현숙 디지털지식재산연구소 소장은 "불법 사이트에서 무단 복제한 저작물을 영리 목적으로 사용하면 출처가 불법 사이트라도 원 저작권자의 권리를 침해하는 것은 마찬가지"라고 말했다.
변인호 기자
jubar@chosunbiz.com


1
2
3
4
5