스노우플레이크,오픈 데이터 아키텍처 확장...데이터 이동 없는 AI 환경 구축
||2026.04.09
||2026.04.09
[디지털투데이 황치규 기자]클라우드 데이터 플랫폼 스노우플레이크가 8일(현지시간) 데이터 이동 최소화, 거버넌스 간소화, AI 시스템 엔터프라이즈 데이터 접근 개선을 목표로 한 상호 운용성을 강화하는 '데이터 자율성(data autonomy)' 전략을 발표했다.
데이터 자율성 전략은 조직들이 데이터를 플랫폼 간에 데이터를 이동시키지 않고 어디서든 접근하고 관리하고 분석할 수 있도록 지원하는데 초점을 맞춰져 있다.
기존 아키텍처가 데이터 이동을 강제해 운영 복잡성과 보안 위험, 비용 증가를 초래하고 AI 워크로드 효율을 떨어뜨린다는게 회사측 지적이다.
핵심은 아파치 아이스버그(Apache Iceberg) 버전3 지원 확대다. 아이스버그 V3는 JSON, XML처럼 구조가 일정하지 않은 반정형 데이터(semi-structured data)를 위한 '배리언트(Variant)' 데이터 타입, 위치정보 데이터 타입(geospatial data types), 행 수준 계보 추적, 삭제 벡터(삭제 벡터(deletion vector)를 통한 개선된 삭제 작업, 나노초 단위 타임스탬프를 지원한다. 스노우플레이크 관리 테이블과 외부 아이스버그 카탈로그 모두에서 작동해 환경에 관계없이 이식 가능한 데이터 경험을 제공한다.
스노우플레이크는 거버넌스 이식성도 강화한다. 스노우플레이크는 2년 전 오픈소스로 공개한 아파치 폴라리스(Apache Polaris)를 활용해 접근 제어, 시맨틱 컨텍스트 같은 거버넌스 정책이 특정 플랫폼에 묶이지 않고 데이터와 함께 이동할 수 있도록 지원한다.
스노우플레이크 제품 관리 디렉터 제임스 롤랜드-존스는 "현재 세밀한 접근 제어가 적용된 데이터를 외부 엔진과 안전하게 공유하는 유일한 방법은 API로 중간 결과를 구체화하는 것"이라며 "비효율적이고 비용이 높다. 폴라리스로 이같은 구조를 바꾸고 있다"고 말했다.
이번 발표에는 스노우플레이크가 지난해 11월 공개한 오픈소스 포스트그레SQL(PostgreSQL) 확장 기능인 pg_lake도 포함됐다. 이를 통해 ETL 파이프라인 없이 포스트그레SQL 데이터베이스가 파케이(Parquet), CSV 같은 데이터 레이크 형식을 직접 조회하고 아이스버그 테이블에 데이터를 쓸 수 있도록 지원한다.
스노우플레이크는 데이터 이동을 추적하는 오픈리니지(OpenLineage)와 지표, 차원 같은 비즈니스 정의를 표준화하는 오픈 시맨틱 인터체인지(Open Semantic Interchange) 같은 새로운 표준도 지원한다. AI가 데이터를 보다 잘 해석할 수 있도록 지원하기 위한 일환이다.
스노우플레이크는 오픈소스 프로젝트에 지난 2년간 9000건 이상 기여를 했으며 아이스버그 버전 4 개발에도 참여하고 있다.


1
2
3
4
5