DB도 LLM도 아닌데 AI 핵심 기술 부상...온톨로지의 모든 것

[디지털투데이 손슬기 기자]생성형AI가 가진 한계를 극복할 기술 중 하나로 온톨로지(Ontology)라는 알쏭달쏭한 용어가 자주 AI판에서 회자되고 있다. 팔란티어가 온톨로지로 성공했다고 알려지면서 온톨라지에 대한 관심이 점점 고조되는 모양새다. 온톨로지를 주특기로 강조하는 국내 테크 기업들도 늘었다.

온톨로지를 사람이 사고하는 방식을 기계도 이해할 수 있게 글을 통해 명시적(Explicit)으로 표현하는 것으로 요약된다.

이것만으로 온톨로지가 도대체 뭔지 이해하기 어렵다. 김학래 중앙대 문헌정보학과 교수를 만나 온톨로지의 개념과 점점 주목 받는 이유에 디해 물어봤다.

김 교수는 국내에서 온톨로지를 오래, 깊이 파고든 몇 안 되는 학자다. 젊어서는 소셜미디어 태그 등을 온톨로지 어휘로 정의하는 작업에 참여했다. 아일랜드 DERI 연구소와 삼성전자에서 대규모 지식그래프를 연구했고, 현재는 중앙대 HIKE 연구실을 이끌고 있다.

◆'배를 먹는다'는 것

온톨로지 얘기에 자주 등장하는 예시가 있다. '배를 먹는다'. 사람은 이 문장을 읽으면 즉각 과일을 떠올린다. 복부를 먹거나 타는 배를 먹는다고 생각하지 않는다. '먹는다'는 서술어와 자연스럽게 호응하는 개념을 뇌가 맥락 속에서 골라내기 때문이다.

컴퓨터는 그게 되질 않는다. '배는 과일이고, 과일은 먹을 수 있고, 그러므로 먹는다는 서술어와 호응한다'는 관계를 누군가 미리 적어줘야만 이해한다.

이게 온톨로지가 하는 일이다. 핵심은 명시적이라는 단어다. 수영하는 방법을 몸으로는 알아도 글로 쓰기 어려운 것처럼, 사람에게 암묵적(Tacit)으로 내재된 지식을 누구나 확인할 수 있도록 문서나 데이터로 꺼내놓는 것이다.

◆관계형 데이터베이스도, LLM도 아닌

다른 데이터 체계와 비교하면 좀 더 분명해진다.

1970년대부터 사용된 관계형 데이터베이스(RDB)는 사실 정보를 저장한다. '맥북 가격은 200만원이다', '맥북 색은 실버와 스페이스 그레이가 있다' 같은 것들이다. 다만 '맥북이 노트북의 한 종류'라는 개념 의미나 위계까지는 담지 못한다.

최근 AI 서비스에서 많이 쓰는 벡터 DB는 방대한 문자를 숫자로 변환하고 개념 간 거리를 점수로 계산하는 방식이다. 맥북과 아이폰이 같은 벡터 공간에 있으면 '애플'이라는 개념에 가깝다는 논리다.

대형언어모델(LLM)은 확률 기반으로 문자를 처리한다. 객체나 객체 간 관계를 별도로 정의하지는 않는다. 방대한 문자를 학습해 다음에 올 단어를 예측하고, 맥락상 가장 그럴듯한 답을 생성한다.

온톨로지는 다르다. '애플은 회사다(개념)', '맥북은 노트북의 한 종류다(관계)', '노트북은 키보드와 화면이 있다(속성)'처럼 지식 체계를 명시적으로 구조화한다.

◆빵 틀과 빵

온톨로지는 2개 레이어로 구성된다.

하나는 개념 틀인 클래스(Class) 영역이다. 예컨대 '학생'이라는 개념을 정의한다고 하면, 학생은 사람이고, 학번이 있고, 이름이 있고, 성별과 출신지가 있다는 식으로 틀을 잡는다. 이 틀을 보편적으로 만들면 전 세계 학생에게 적용할 수 있다. 반대로 주민등록번호를 필수 항목으로 넣으면 한국 학생에게만 맞는 틀이 된다.

다른 하나는 완성된 틀에 채울 데이터로, 인스턴스(Instance)라 부른다. '디지털투데이 기자'가 틀이라면 '손슬기', '황치규'는 내용물이다. 틀에 맞지 않는 '이재명', '트럼프', '아이유'는 들어갈 수 없다.

지식그래프(Knowledge Graph)를 이해하는 데도 빵 설명이 유효하다. 구글이 2012년 도입해 대중화한 개념이다. 온톨로지가 틀과 데이터를 모두 엄격하게 정의한다면, 지식그래프는 틀 없이 개념과 개념 간 관계만 연결하기도 한다. 온톨로지는 빵 틀과 빵이 모두 있어야하지만, 지식그래프는 빵만 있어도 된다.

◆온톨로지는 어떻게 만드나

철학에서 출발한 온톨로지 개념은 1990년대 후반 팀 버너스-리(Tim Berners-Lee)가 시맨틱 웹(Semantic Web)을 제안하면서 공학으로 넘어왔다. 웹 데이터에 의미를 부여해 기계가 스스로 이해하도록 만들자는 구상이었다. 이를 구현할 방법론이 온톨로지다.

구축 순서는 이렇다. 이해관계자들이 개념과 관계를 합의한다. 이를 구조도로 설계한 뒤, OWL·RDF 같은 온톨로지 전용 언어로 표현한다.

이미 상당한 수준까지 표준화돼 있다. 명함 정보를 표현하는 브이카드(vCard), 웹 콘텐츠 전반을 다루는 스키마닷오알지(Schema.org)와 같이 분야별 어휘 체계가 널리 쓰인다. 70~80% 정도가 이미 구축돼 있어 완전히 새로 만들기보다 기존 어휘를 재사용하는 경우가 많다.

◆AI 가드레일이 될 수 있다

온톨로지가 최근 주목받는가장 큰 이유는 LLM 한계를 보완할 수 있다는 기대 때문이다.

LLM은 확률 기반으로 작동하기 때문에 아무리 강한 지침을 넣어도 완전 통제는 불가하다. 음란성, 폭력성 등 정책상 금지된 내용도 원천 차단은 못한다. 우회 질문을 하면 맥락에 따라 답변 가능한 확률이 생긴다.

반면 온톨로지는 규칙이 아닌 구조를 바꾼다. 정의되지 않은 답을 유도할 수 없다.

일례로 코딩 플랫폼 리플릿(Replit) 최고기술책임자가 AI 에이전트 작업 중에 고객 DB를 통째로 날려버린 사건이 있었다. 만약 시스템 정의를 온톨로지 방식으로 '고객 DB는 어떤 요청이 와도 삭제하지 않는다'고 했다면 막을 수 있었던 사고다. 온톨로지는 AI 실행 범위를 가두는 가드레일이 될 수 있다.

◆데이터 없이는 온톨로지도 별 소용 없다

국내에서는 팔란티어(Palantir) 덕분에 온톨로지 얘기가 부쩍 자주 들린다. 팔란티어는 AI 소프트웨어 기업으로, 온톨로지 기반 데이터 통합·의사결정 플랫폼으로 유명하다. 일각에선 팔란티어 온톨로지가 LLM의 대안이 될 것이라 주장하고, 반대로 LLM이 고도화되면 온톨로지는 필요 없어질 것이라는 시각도 있다.

하지만 팔란티어는 오히려 LLM을 가장 잘 쓰는 회사 중 하나다. 진짜 강점도 온톨로지 기술보다 데이터 처리 플랫폼에 있다. 어떤 데이터가 들어와도 클릭 한 번에 그래프로 처리해주는 플랫폼으로, 한번 도입하면 빠져나가기 힘든 강력한 록인(lock-in)이 형성된다. 온톨로지는 그 플랫폼 안에서 데이터를 처리하는 방식 중 하나일 뿐이다. 온톨로지 대 LLM 구도로 보는 시각 자체가 잘못됐다는 얘기다.

온톨로지 열풍은 한국에서도 지난 1년 새 달아올랐다. 많은 기업과 스타트업들이 앞다퉈 도입을 선언했지만 실제로 시작해본 곳은 손에 꼽는다. 막상 프로젝트를 시작하면 데이터 정제에서 막혀 온톨로지는 손도 못 댄 채 수행 기간이 끝나는 경우가 대부분이라는 지적이다.

데이터 체계 구축·관리 투자가 들쭉날쭉한 것도 고질적인 문제다. 조직마다 다른 기준과 규칙이 뒤섞인 일반 기업 환경에선 비즈니스 로직을 합의하는 것부터가 난관이다. 온톨로지 기술보다 데이터 기반을 먼저 다지는 게 순서다.

DB도 LLM도 아닌데 AI 핵심 기술 부상...온톨로지의 모든 것

가격대별 인기 장기 렌트카

장기렌트 인기TOP