AI가 눈을 뜨고, 머릿속에 세상을 그리기 시작했다 [정원훈의 AI 트렌드]
||2026.06.05
||2026.06.05
인공지능(AI) 트렌드를 가장 빠르게 알 수 있는 허깅페이스를 분석하는 정원훈의 AI 트렌드입니다. 이번 주 허깅페이스는 한마디로 ‘AI의 눈이 또렷해지고, 머릿속에 세상을 통째로 그리기 시작하고, 한편에선 안전장치의 브레이크가 슬그머니 풀린’ 한 주였습니다.
엔비디아는 글자 몇 줄과 사진 한 장으로 영상은 물론 ‘로봇이 움직일 동작’까지 빚어내는 160억 파라미터급 ‘세계 모델(World Model)’을 공개했고, 같은 엔비디아의 30억 파라미터짜리 비전 모델은 “이게 무엇인가”가 아니라 “그것이 어디에 있는가”를 픽셀 단위로 짚어내며 ‘AI 에이전트의 눈’ 자리를 노렸습니다. 노트북 안에서 도는 80억 파라미터 추론 비서가 등장했고, 브라우저 탭 하나에서 그림을 그리고 웹캠으로 세상을 인식하는 데모들이 트렌딩을 휩쓸었습니다. 그리고 그 화려함의 뒤편에선, ‘거절을 모르는’ 무검열 모델이 조용히 수만 건씩 다운로드되고 있었습니다.
이번 주의 키워드는 세 가지입니다. ‘AI 에이전트의 눈이 된 30억 파라미터 비전 모델 로케이트애니씽-3B(LocateAnything-3B)’, ‘노트북 안으로 들어온 80억 파라미터 추론 비서 LFM2.5-8B-A1B’, ‘거절을 지운 무검열 35B 모델 하우하우CS(HauhauCS) 어그레시브’입니다. 이번 주도 퀴즈로 시작하겠습니다.
엔비디아가 내놓은 30억 파라미터 비전·언어 모델로, 이미지를 ‘설명’하는 데서 그치지 않고 자연어 지시만으로 화면 속 UI 버튼·작은 글자·빽빽한 물체의 ‘위치’를 박스와 점으로 정확히 짚어냅니다. 이글(Eagle) VLM 계열로, 병렬 박스 디코딩을 써서 빠르고, ‘컴퓨터를 사람처럼 쓰는’ AI 에이전트의 눈으로 주목받았습니다. 이 모델의 이름은 무엇일까요.
리퀴드AI(Liquid AI)가 내놓은 ‘노트북 속 개인 비서’ 콘셉트의 모델입니다. 총 80억 파라미터 중 토큰당 약 10억 개만 켜지는 MoE(전문가 혼합) 구조에 12만8000 토큰 문맥, CPU·GPU 통틀어 동급 최고 속도, 한국어 포함 8개 언어 지원, 그리고 답하기 전 사고의 연쇄(체인 오브 소트)까지 갖췄습니다. 이 모델의 이름은 무엇일까요.
정답은 ‘LocateAnything-3B’와 ‘LFM2.5-8B-A1B’입니다. 그럼 이번 주에는 어떤 혁신이 등장했는지 함께 살펴보겠습니다.
AI 모델 톱3
1위: nvidia/LocateAnything-3B | Image-Text-to-Text
“‘무엇’이 아니라 ‘어디’를 본다… 엔비디아가 AI 에이전트에 달아준 정밀한 눈”
엔비디아가 ‘이글(Eagle)’ 비전·언어 모델 계열로 내놓은 약 30억(3B) 파라미터 모델입니다. 언어 두뇌로는 큐원(Qwen)2.5-3B를 얹었습니다. 기존 멀티모달 모델이 “사진 속에 고양이가 있다”는 ‘설명’에 강했다면, 로케이트애니씽은 “그 고양이가 화면의 어디, 어느 박스 안에 있는가”를 좌표로 콕 찍어줍니다. ‘캡션 생성기’가 아니라 ‘탐지기(detector)’에 가까운 셈입니다.
핵심 강점은 ‘정밀한 지목’입니다. 물체가 빽빽한 장면이나 흔치 않은 사물(long-tail)에서도 잘 찾아내고, 화면 속 UI 버튼·작은 글자(OCR)·문서 레이아웃까지 자연어로 지목합니다. 스크린샷 위에서 ‘저장 버튼’을 찾아낸다는 건, 곧 ‘컴퓨터를 사람처럼 조작하는’ AI 에이전트의 필수 부품이라는 뜻입니다. 게다가 박스를 한꺼번에 뽑는 ‘병렬 디코딩’ 덕에 속도도 빨라, 해외에선 “이제 욜로(YOLO)여 안녕”이라는 다소 호들갑스러운 별명까지 붙었습니다.
다만 결정적인 유의점이 있습니다. 라이선스가 ‘엔비디아 비상업 라이선스’라는 점입니다. 학술·비영리 연구 목적만 허용되고, 엔비디아와 계열사를 제외하면 상업적 이용이 금지됩니다. 지난주 소개한 아파치 라이선스 모델들과는 결정적으로 다른 대목으로, 제품에 곧바로 끼워 넣을 수는 없습니다.
어디에 활용할 수 있을까요. 컴퓨터-유즈 에이전트 연구, 로봇 비전, 문서·화면 자동화 프로토타입, 데이터 라벨링 보조 등 ‘무엇이 어디에 있는지’가 중요한 연구·개발 전반에 적합합니다. 단, 상업 배포를 검토한다면 라이선스 확인이 첫 단계입니다. 허깅페이스에는 직접 체험할 수 있는 데모 스페이스(nvidia/LocateAnything)도 함께 올라와 있습니다.
2위: LiquidAI/LFM2.5-8B-A1B | Text Generation
“노트북이 비서를 품었다… 80억 중 10억만 켜는 ‘효율의 화신’”
미국 리퀴드AI(Liquid AI)가 내놓은 추론 비서 모델입니다. 구조부터 영리합니다. 총 84억 파라미터를 갖고 있되, 토큰 하나를 처리할 때 실제로 켜지는 건 약 10억 개(1B)뿐인 MoE(전문가 혼합) 방식입니다. 전문가 32명 중 매번 4명만 호출하는 셈이죠. 자동차로 치면 큰 엔진을 두고도 평소엔 일부만 굴려 연비를 챙기는 구조입니다.
콘셉트는 노골적입니다. 회사가 단 블로그 제목부터 ‘당신의 노트북 위 개인 비서’입니다. 온디바이스·엣지를 정조준한 것이죠. 답을 내기 전에 ‘사고의 연쇄’를 거치는 추론 모델이고, 문맥창은 이전 세대의 3만2000 토큰에서 12만8000 토큰으로 4배 넓어졌습니다. 동급에서 CPU·GPU 모두 가장 빠른 속도를 표방하며, 야마.cpp(llama.cpp)·MLX·vLLM·SGLang을 출시 첫날부터 지원하고, 지난주 토막상식에서 다룬 ONNX 변환본까지 제공합니다. 한국어를 포함한 8개 언어를 다루고, 도구 호출(function calling)과 구조화 출력에 강해 ‘에이전트형’ 작업에 잘 맞습니다.
리퀴드AI는 한계도 솔직하게 적어뒀습니다. 무거운 프로그래밍이나, 검색 없이 지식을 깊게 캐묻는 작업에는 부적합하다는 것입니다. ‘작지만 야무진 비서’이지 ‘만물박사’는 아니라는 뜻이죠. 라이선스는 아파치가 아니라 자체 ‘LFM 오픈 라이선스 v1.0’이므로, 도입 전 약관 확인이 필요합니다.
어디에 활용할 수 있을까요. 노트북·스마트폰 개인 비서, 도구를 줄줄이 호출하는 자동화 에이전트, 다국어 고객 응대, 사내 문서를 검색해 답하는 RAG 비서 등 ‘인터넷 없이 기기 안에서 똑똑하게 일을 처리해야 하는’ 환경에 적합합니다.
3위: HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive | Image-Text-to-Text
“‘거절’을 지운 모델… 트렌딩이 비춘 무검열(abliteration)의 그림자”
이번 주 트렌딩 한가운데, 이름부터 도발적인 모델이 있었습니다. 알리바바의 큐원3.6-35B-A3B(총 35B, 활성 약 3B의 MoE, 비전 지원, 최대 26만2000 토큰)를 커뮤니티가 ‘무검열(uncensored)’로 개조한 버전입니다. 개조의 핵심을 제작자는 한 줄로 요약합니다. “465개 시험 요청 중 거절 0건.”
쉽게 말해, 원래 모델이 위험하거나 부적절하다고 판단해 거절하던 답변까지 전부 내놓도록 ‘거절 회로’를 떼어낸 모델입니다. 이런 기법을 업계에선 ‘어블리터레이션(abliteration)’이라 부릅니다. 모델이 거절할 때 활성화되는 내부 신호의 ‘방향’을 찾아내 그 신호만 억눌러, 성능은 거의 그대로 두고 ‘거부하는 습성’만 제거하는 일종의 수술입니다.
왜 트렌딩에 올랐을까요. 성능 손실 없이(‘lossless’) 안전장치만 풀었다는 점, 그리고 35B 규모인데 활성 파라미터가 3B에 불과해 보급형 게이밍 그래픽카드(RTX 3060 12GB급)에서도 돌아간다는 접근성 때문입니다. 한 미러 저장소 한 곳에서만도 월 5만 건 넘게 내려받고 있습니다.
그러나 분명히 짚어야 할 지점이 있습니다. ‘거절을 모른다’는 건 양날의 검입니다. 합법적 보안 연구(레드팀)나 창작 자유의 영역도 분명 있지만, 동시에 불법·유해 콘텐츠 생성의 빗장도 함께 풀립니다. 라이선스가 원본 큐원을 따라 형식상 아파치 2.0으로 열려 있다는 점이 오히려 위험을 키웁니다. 모델이 거절하지 않는 순간, 그 결과물에 대한 법적·윤리적 책임은 100% 배포자와 사용자에게 넘어오기 때문입니다.
그래서 이 모델만큼은 ‘활용 분야’를 나열하는 대신, 이렇게 정리하겠습니다. 기업이라면 도입을 검토하기 전에 ‘이 모델로 무엇이 나올 수 있는가’부터 따져야 합니다. 무검열 모델이 버젓이 트렌딩에 오른다는 사실 자체가, ‘어떤 모델을 쓸까’보다 ‘어떤 안전망을 깔까’가 더 중요해졌다는 이번 주의 가장 묵직한 신호입니다.
AI 응용프로그램(Spaces) 톱3
허깅페이스 스페이스는 AI 모델을 웹 브라우저에서 바로 체험할 수 있는 플레이그라운드입니다. 코드 한 줄 없이 최신 AI 기술을 만져볼 수 있죠. 이번 주 가장 뜨거운 스페이스 3곳을 소개합니다.
1위: Cosmos3-Nano | multimodalart (모델: NVIDIA)
“엔비디아가 만든 ‘세계’… 영상도 아니고 로봇 동작까지 빚는 160억 옴니 모델”
엔비디아 코스모스(Cosmos) 3 제품군의 ‘나노(Nano)’ 버전을 체험하는 데모입니다. 160억(16B) 파라미터의 ‘옴니모달 세계 모델(World Model)’로, 텍스트·이미지·영상·오디오는 물론 ‘행동 궤적(action trajectory)’까지 입력으로 받아, 다시 텍스트·이미지·영상·오디오·로봇 동작을 출력합니다. multimodalart가 올린 이 스페이스는 그중 ‘글·사진 → 영상+소리’ 기능을 브라우저에서 맛보게 해주는데, 공개 직후 좋아요 197개로 트렌딩 상위에 올랐습니다.
구조도 흥미롭습니다. ‘혼합 트랜스포머(Mixture-of-Transformers)’라 부르는 설계로, 글자는 다음 토큰을 예측하는 자기회귀 방식으로, 영상·이미지·소리는 노이즈를 걷어내는 디퓨전 방식으로 따로 처리합니다. 일의 성격에 맞춰 두 두뇌를 나눠 쓰는 셈이죠. 의미는 큽니다. 단순한 ‘텍스트→비디오’ 장난감이 아니라 로봇·자율주행·스마트 공장 같은 ‘물리 AI(Physical AI)’를 겨냥했기 때문입니다. 영상이 예쁘게 나오느냐가 아니라 ‘세상이 그럴듯하게 움직이느냐’가 목표입니다.
단, 엔비디아 스스로 명시한 한계가 있습니다. 명시적 물리 엔진이 없어 물체가 사라지거나 충돌이 비현실적일 수 있고, ‘물리적으로 정확한 시뮬레이션’으로 신뢰해선 안 됩니다. 상업·비상업 모두 사용 가능합니다. 로봇 정책 학습용 합성 데이터, 자율주행 시나리오 생성, 스마트 스페이스 시뮬레이션, 광고·콘텐츠 영상 제작 등에 활용 잠재력이 큽니다.
2위: Bonsai Image WebGPU | webml-community
“설치도, 서버도, 클라우드도 0… 브라우저 탭에서 1비트로 그림을 그린다”
허깅페이스의 제노바(Xenova, 트랜스포머스.js 메인테이너)가 속한 webml-community가 올린 데모로, 슬로건이 “최첨단 이미지 생성, 당신의 브라우저에서”입니다. 엔진은 프리즘ML(PrismML)의 ‘본사이 이미지(Bonsai Image)’ — 이미지 생성용 디퓨전 트랜스포머를 1비트, 또는 1.58비트(삼진)로 극단 압축한 모델입니다. 회사 발표 기준 1비트 본사이 이미지 4B는 용량이 0.93GB(약 8.3배 축소)에 불과하고, 아이폰17 프로 맥스에서 512×512 이미지 한 장을 약 9.4초에 만들어냅니다.
핵심은 ‘웹GPU(WebGPU)’입니다. 브라우저가 직접 그래픽카드를 두드려 서버 없이 기기 안에서 연산하는 기술이죠. 사진이 외부로 한 발짝도 나가지 않으니 프라이버시와 오프라인 작업에 유리합니다. 지난주 토막상식의 ONNX 런타임이 ‘GPU 없이 CPU로도 돌리는 법’이었다면, 이번 웹GPU는 ‘설치 없이 브라우저로도 돌리는 법’입니다. 엣지화의 또 다른 축인 셈입니다. 사내 보안망 안에서의 비주얼 시안, 개인정보가 민감한 이미지 작업, 오프라인 교육·전시, 가벼운 웹 서비스 임베드 등에 적합합니다.
3위: RF-DETR Realtime Webcam Demo | huggingface-projects
“웹캠을 켜면 AI가 실시간으로 세상을 ‘오려낸다’… 로보플로우의 실시간 탐지·분할”
로보플로우(Roboflow)의 RF-DETR을 웹캠으로 체험하는 데모입니다. RF-DETR은 실시간 객체 탐지에 더해 물체별 윤곽을 따내는 인스턴스 분할(segmentation)까지 한 모델로 처리합니다. 비전 트랜스포머 백본(DINOv2)을 쓰며, 표준 평가셋 COCO에서 최고 수준(SOTA)의 정확도-속도 균형을 보여 ICLR 2026에 채택됐습니다. ‘신경망 구조 자동 탐색(NAS)’으로 구조를 직접 찾아낸 게 특징이고, 크기는 나노부터 2XL까지 있는데 작은 모델은 3000만~3500만 파라미터로 매우 가볍습니다.
이 스페이스(huggingface-projects)는 웹캠을 켜거나 이미지·영상을 올리면 물체마다 색깔 박스와 마스크를 실시간으로 입혀줍니다. 박스만, 마스크만, 라벨만 골라 볼 수도 있습니다. 라이선스는 핵심 모델이 아파치 2.0(상위 ‘플러스’ 구성은 PML 1.0)입니다. 실시간 매장·동선 분석, 제조 라인 불량·안전 감시, 스포츠·교통 영상 분석, 로봇·드론 비전, 의료 영상 보조 등 ‘카메라로 세상을 실시간으로 읽어야 하는’ 현장 전반에 적합합니다.
시사점 & 인사이트
이번 주 트렌드를 한마디로 요약하면 ‘AI가 책상을 넘어, 세상을 보고 상상하기 시작했다’입니다.
첫째, AI가 드디어 ‘눈’을 제대로 떴다.
로케이트애니씽(어디에 있는지 정밀 지목), RF-DETR(실시간으로 오려내기), 코스모스3(세상이 어떻게 움직일지 이해)의 공통점은 ‘인식(perception)’입니다. 지난 몇 년 AI가 ‘말 잘하는 입’에 가까웠다면, 이번 주는 ‘정확히 보는 눈’이 주인공이었습니다. 그리고 이 ‘눈’은 자율 에이전트와 로봇의 전제 조건입니다. 화면 속 버튼을 못 찾으면 컴퓨터를 못 쓰고, 물체 위치를 모르면 손으로 집을 수 없으니까요.
둘째, ‘책상’을 넘어 ‘현실 세계(Physical AI)’로.
지난주 키워드가 ‘AI가 책상 위로’였다면, 이번 주 엔비디아 코스모스3는 ‘AI가 책상을 넘어 현실 세계로’ 나아가는 신호탄입니다. 무게중심이 영상 생성에서 세계 시뮬레이션·로봇 동작 생성으로 옮겨가고 있습니다. 이는 한국에 특히 큰 함의를 줍니다. 제조·로봇·자동차·조선처럼 ‘물리적 세계’에 강한 한국 산업이 ‘AI 세계 모델’과 만나는 지점에 거대한 기회가 열립니다. 다만 엔비디아가 칩에 이어 ‘세계 모델’ 표준까지 쥐려 한다는 점은 경계할 대목입니다.
셋째, 엣지화의 다음 단계 ‘노트북·브라우저·1비트’
LFM2.5(노트북 비서), 본사이(브라우저 1비트 이미지), RF-DETR(웹캠)까지, 클라우드 의존을 0으로 미는 흐름이 한층 정교해졌습니다. 특히 ‘1비트·삼진 양자화’와 ‘웹GPU’는 모델을 더 작게, 실행 환경을 더 가깝게 끌어온 두 축입니다. 한국이 강한 메모리 반도체와 모바일·온디바이스 NPU(신경망처리장치)에 계속 순풍이 부는 흐름입니다.
넷째, 빛이 밝을수록 그림자도 짙어진다 ‘무검열 모델과 거버넌스’
이번 주 트렌딩에 ‘거절을 지운’ 무검열 모델이 당당히 올랐다는 사실은 기술의 개방성이 안전의 개방성과 한 묶음으로 따라온다는 불편한 진실을 보여줍니다. 오픈 라이선스와 무검열의 조합은 책임을 전적으로 사용자에게 떠넘깁니다. 기업·기관·정책 담당자에게 이번 주의 진짜 숙제는 ‘어떤 모델을 도입할까’가 아니라 ‘도입한 모델이 무엇을 내놓을 수 있고, 그것을 어떻게 걸러낼까’입니다. 모델 선택보다 안전망 설계가 먼저인 시대입니다.
토막상식 : ‘세계 모델(World Model)’이란?
엔비디아 코스모스3-나노를 설명하며 ‘세계 모델’이라는 낯선 말을 여러 번 썼습니다. ‘영상 생성 모델이랑 뭐가 다른데?’라는 의문이 들었을 겁니다.
쉽게 비유하면, 일반 영상 생성 모델이 ‘예쁜 그림을 그리는 화가’라면, 세계 모델은 ‘머릿속에 작은 지구를 굴려보는 시뮬레이터’입니다. 화가는 “노을 지는 바다”를 그럴듯하게 그리는 데 집중합니다. 보기 좋으면 됩니다. 반면 세계 모델은 “공을 비탈에 놓으면 굴러 내려가고, 벽에 부딪히면 튕긴다”처럼 세상이 ‘어떻게 변할지’를 예측하는 데 집중합니다. 한마디로 그림의 ‘결과’가 아니라 세상의 ‘인과’를 흉내 내는 모델이죠.
왜 중요할까요. 로봇과 자율주행 때문입니다. 로봇이 컵을 집으려면 ‘내가 팔을 이렇게 뻗으면 컵이 어떻게 움직일지’를 미리 머릿속에서 돌려봐야 합니다. 자율주행차는 ‘앞차가 급정거하면 0.5초 뒤 무슨 일이 벌어질지’를 상상해야 합니다. 이렇게 ‘AI가 행동의 결과를 미리 시뮬레이션하는 능력’이 바로 세계 모델의 핵심이고, 엔비디아가 이것을 ‘물리 AI(Physical AI)’라 부르며 코스모스 제품군으로 밀고 있는 이유입니다.
물론 한계도 분명합니다. 코스모스3조차 ‘진짜 물리 엔진’을 품은 게 아니라 학습 데이터에서 ‘대충 이렇더라’를 흉내 내는 수준이라, 물체가 갑자기 사라지거나 비현실적으로 충돌하기도 합니다. 그래서 엔비디아도 “물리적으로 정확한 시뮬레이션으로 신뢰하지 말라”고 못 박았습니다. 화가가 점점 물리 선생님이 되어가는 중이지만, 아직 졸업은 못 한 셈이죠. 그럼에도 ‘말하고 그리는 AI’에서 ‘세상을 이해하고 움직이는 AI’로 가는 길목에서, 세계 모델은 다음 10년의 가장 중요한 키워드가 될 가능성이 큽니다.
마무리
이번 주 허깅페이스를 한 문장으로 요약하면 이렇습니다. “AI는 말하는 법을 익힌 뒤, 이제 보는 법과 세상을 상상하는 법을 배우기 시작했다.” 엔비디아는 사진 한 장에서 로봇의 동작까지 빚는 세계 모델을 꺼냈고, 같은 회사의 작은 비전 모델은 ‘AI 에이전트의 눈’을 자처했으며, 리퀴드AI의 비서는 노트북 안으로 걸어 들어왔습니다. 브라우저 탭에선 1비트 모델이 그림을 그리고, 웹캠 앞에선 AI가 실시간으로 세상을 오려냈습니다. 그리고 그 화려함의 뒤편에서 ‘거절을 모르는’ 모델이 조용히 퍼져나간 한 주이기도 했습니다. 기술의 개방과 안전의 책임이 같은 속도로 무거워지는 그 균형점 위에 우리가 서 있습니다.
다음 주에는 또 어떤 모델이 정상을 차지할까요. 엔비디아의 세계 모델에 맞설 오픈소스 진영의 대항마가 나올지, 1비트 브라우저 생성 모델이 어디까지 화질을 끌어올릴지, 그리고 무검열 모델의 확산에 커뮤니티와 플랫폼이 어떤 안전장치로 답할지 함께 지켜봐 주길 바랍니다.
※ 외부필자의 원고는 IT조선의 편집방향과 일치하지 않을 수 있습니다.
정원훈 텐에이아이 대표는 한국인공지능진흥협회 이사와 한국디지털자산포럼(KODIA Forum) 정책기획실장을 맡고 있다. 법률AI 서울로봇과 블록ESG 프로젝트를 총괄하며 한국지식재산교육연구학회 이사 겸 기술가치평가위원장과 한국벤처창업학회 이사로도 활동한다. 아시아경제신문사 뉴미디어본부, 매일경제인터넷 금융센터 팀장을 거쳐, SNS 개발과 대안신용평가 시스템, AI 기반 법률 서비스 등 혁신 프로젝트를 주도해 온 IT·금융 전문가다.


1
2
3
4
5