과기정통부, 기존 AI허브 데이터 30종 업사이클링 추진
||2026.05.07
||2026.05.07
[디지털투데이 손슬기 기자] 과학기술정보통신부는 한국지능정보사회진흥원(NIA)과 함께 기존 인공지능(AI) 허브 학습 데이터를 생성형 AI 기술 환경에 맞게 재가공하는 'AI 학습용데이터 업사이클링' 사업 공고를 시작했다고 7일 밝혔다.
이번 사업은 2022년까지 구축된 AI허브 데이터 691종을 전수 분석하고 외부 전문가 검토를 거쳐 최종 30종을 선정했다. 대형언어모델(LLM)과 피지컬 AI 분야 각 15종씩으로 총 30억원 규모다. 신규 구축 대비 예산 투입 대비 정책 효과를 높일 수 있다고 과기정통부는 설명했다.
LLM 데이터는 기존 텍스트 데이터에 질문-근거 검토-오류 검증-답변 확정 등 추론 과정을 포함해 재구성한다. 단일 정답 제시에서 벗어나 다양한 판단 경로와 자기 검증 과정을 학습할 수 있는 데이터로 확장할 계획이다.
피지컬 AI 데이터는 기존 이미지·영상 데이터를 시각 정보(V)·언어명령(L)·행동 및 제어(A)를 통합한 구조로 고도화한다. 객체 인식을 넘어 시간 흐름에 따른 상황 변화와 객체 간 상호작용을 이해하고 목표 기반 행동을 생성할 수 있는 데이터로 확장한다.
최동원 과기정통부 인공지능인프라정책관은 "이번 업사이클링 사업을 통해 적은 비용으로도 최신 생성형 AI 기술 환경에 맞는 AI 학습용데이터를 확보할 수 있을 것"이라며 "이미 축적된 데이터 자산이 낭비되지 않도록 활용 가치를 끌어올려 나가겠다"고 밝혔다.


1
2
3
4
5