본문 바로가기
IT

온톨로지가 뭐야 — RDF·OWL·SPARQL·지식 그래프·LLM RAG 완전 정리

by 샤나엘 2026. 5. 19.
반응형

온톨로지가 뭐야 — RDF·OWL·SPARQL·지식 그래프·LLM RAG 완전 정리

데이터·AI 분야에서 다시 자주 들리는 단어 중 하나가 온톨로지(Ontology) 다. 한참 잠잠하던 시맨틱 웹 시대의 용어가 LLM·RAG 시대에 들어 "환각을 줄여 주는 구조화된 사실 기반"이라는 새 옷을 입고 부활했다. Microsoft가 2024년 GraphRAG를 오픈소스로 공개한 뒤 엔터프라이즈 LLM 시스템에서 온톨로지·지식 그래프가 사실상 표준 인프라로 자리 잡는 흐름이 뚜렷해졌다.

 

이름은 익숙해도 정확한 정의가 흐릿한 경우가 많다. 데이터베이스 스키마와 무엇이 다른지, 지식 그래프와 어떻게 다른지, RDF·OWL·SPARQL이 정확히 무엇을 하는지 한 번에 정리된 자료는 의외로 드물다. 이 글은 온톨로지의 정의와 기원, 5가지 구성 요소, 분류체계·시소러스·지식 그래프와의 차이, W3C 시맨틱 웹 기술 스택, 대표 온톨로지 사례, 그리고 LLM·GraphRAG 시대의 부활까지 한 번에 다룬다.

 

온톨로지가 뭐야

이 글의 구성

 

01온톨로지 정의와 기원
02구성 요소 5가지
03분류체계·시소러스·지식 그래프와의 차이
04W3C 시맨틱 웹 기술 스택
05대표 온톨로지 사례
06지식 그래프와의 관계
07LLM·GraphRAG 시대의 부활
08개발 방법론·도구·한계
Q&A자주 묻는 질문 5가지

01 온톨로지 정의와 기원

항목 내용
어원 그리스어 onto(존재) + logia(학문), 17세기 독일 철학에서 "존재론"
IT 정의 개념화(conceptualization)에 대한 명시적·형식적 명세
제창자 Tom Gruber, 1993 (Knowledge Acquisition 5(2), 199–220)
목적 기계가 의미를 처리하고 추론할 수 있도록 지식을 표현
대비 개념 데이터베이스 스키마 — 저장 구조 중심, 닫힌 세계 가정

Tom Gruber의 정의 "An ontology is an explicit specification of a conceptualization"은 그가 1993년 발표한 논문의 한 줄이지만 이 분야 역사상 가장 많이 인용된 문장이다. "도메인에 어떤 개념이 존재하고, 그것들이 서로 어떻게 관계를 맺는지를 기계가 처리 가능한 형식으로 명시한 것"으로 풀어 읽으면 의미가 분명해진다.

 

데이터베이스 스키마와의 차이는 관점에 있다. DB 스키마는 "어떻게 저장할 것인가"(테이블·컬럼·인덱스)에 집중하고, 행이 없으면 사실이 아닌 것으로 처리하는 닫힌 세계 가정(CWA) 위에서 동작한다. 반면 온톨로지는 "무엇이 존재하고 어떤 관계가 성립하는가"를 다루며, 명시되지 않은 사실은 "알지 못함"으로 처리하는 열린 세계 가정(OWA) 위에서 추론한다.

💡 핵심 — 도서관 분류 + 사전 + 가족 관계도

온톨로지를 일상 비유로 풀면 "도서관 분류 체계 + 사전 + 가족 관계도"가 합쳐진 것에 가깝다. "고양이는 포유류다"·"포유류는 동물이다"·"동물은 살아있다"라는 개념과 관계를 명시해 두면, 기계가 "고양이는 살아 있는가?"라는 질문에 추론으로 답할 수 있게 된다. 단순 데이터 저장이 아니라 의미와 추론을 다루는 도구라는 점이 핵심이다.


02 구성 요소 5가지

요소 설명 예시
Class (클래스) 개체 타입·개념 Person · Car · Disease
Instance (Individual) 실제 개체 "홍길동" · "현대그랜저2024"
Property (속성) DataProperty (값) · ObjectProperty (관계) hasAge · hasOwner
Relation (관계) 클래스 간 연결 subClassOf · hasChild
Axiom (공리·제약) 추론·검증 규칙 "Person은 정확히 한 명의 어머니를 가진다"

OWL에서는 속성을 두 종류로 명확히 구분한다. DatatypeProperty는 문자열·숫자 같은 리터럴 값을 가리키고(예: hasAge "30"), ObjectProperty는 다른 개체와의 관계를 가리킨다(예: hasOwner Person2). 이 구분 덕분에 추론 엔진이 타입을 검증하고, 같은 술어가 잘못된 자리에 쓰이는 경우를 잡아낼 수 있다.

 

공리(Axiom)는 온톨로지를 단순한 분류표 이상으로 만드는 핵심이다. "어머니는 정확히 한 명이다", "사람은 동물의 하위 개념이다" 같은 규칙을 명시하면, 추론기는 명시되지 않은 사실까지 자동으로 도출할 수 있다.


03 분류체계·시소러스·지식 그래프와의 차이

같은 도구처럼 보이지만 표현력과 목적이 다르다.

구조 설명 표현력
Taxonomy (분류체계) 단순 부모-자식 트리 (예: 동물 → 포유류 → 고양이) 가장 단순
Thesaurus (시소러스) 다계층 + 동의어·유의어·관련어 (SKOS 표준) 중간
Ontology 스키마 + 관계 타입 + 논리 공리 매우 강함
Knowledge Graph 온톨로지(스키마) + 대량 인스턴스 데이터 실제 데이터 포함

분류체계는 가장 단순한 형태로 부모-자식 관계만 표현한다. 시소러스는 다계층 구조와 동의어·관련어를 함께 가지며 SKOS 표준이 대표적이다. 온톨로지는 여기에 풍부한 관계 타입과 논리 공리를 더해 추론까지 지원한다. 지식 그래프는 온톨로지를 골격으로 두고 그 위에 실제 인스턴스 데이터를 대량으로 얹은 실행 형태에 가깝다.


04 W3C 시맨틱 웹 기술 스택

W3C가 표준화한 시맨틱 웹 기술은 층층이 쌓여 있다.

표준 역할
RDF 트리플(Subject-Predicate-Object) 데이터 모델
RDFS 기본 클래스·subClassOf·domain·range 정의
OWL 2 강력한 표현력(논리 공리·제약), 2009 권고·2012 2판
SPARQL RDF용 SQL과 같은 쿼리 언어, HTTP 프로토콜
SKOS 시소러스·분류체계 표현용
JSON-LD JSON 친화적 Linked Data 직렬화, 웹·API 표준

가장 바닥에 있는 RDF는 세상의 모든 사실을 "주어-술어-목적어" 트리플로 표현한다. 예를 들어 "홍길동의 나이는 30살이다"는 <홍길동> <hasAge> "30" 한 줄로 기록된다. RDFS는 그 위에 기본적인 클래스 계층을 더하고, OWL은 더 풍부한 논리 공리를 표현한다. SPARQL은 이렇게 쌓인 트리플 데이터를 쿼리한다.

 

JSON-LD는 웹 API에서 가장 실용적인 표현 방식으로 자리 잡았다. 일반 JSON에 @context 한 줄을 더해 의미를 부여하는 방식이라 기존 JSON 시스템과 호환되면서도 시맨틱 데이터를 함께 다룰 수 있다. Schema.org 구조화 데이터를 SEO에 활용할 때 표준적으로 쓰인다.


05 대표 온톨로지 사례

온톨로지 도메인 규모·특징
Schema.org 웹 일반 800+ Types · 1,500+ Properties, Google·MS·Yahoo·Yandex 공동
Wikidata 백과사전·일반 지식 위키미디어 재단 운영, 구조화된 위키피디아
DBpedia 위키피디아 기반 760+ 클래스 · 약 210억 트리플 (위키피디아 인포박스 자동 추출)
SNOMED CT 의료 35만+ 개념, 임상 의사결정 표준
FIBO 금융 EDM Council·OMG, 금융 산업 표준
Gene Ontology 생물학 유전자 기능 표준, 50만+ 주석

Schema.org는 일반 개발자가 가장 자주 마주치는 온톨로지다. 웹페이지에 JSON-LD 한 블록을 삽입하면 구글 검색 결과에 풍부한 리치 스니펫이 노출되는 SEO 기술의 기반이다. Wikidata는 백과사전 지식의 사실상 표준 지식 그래프이고, DBpedia는 위키피디아 인포박스를 자동 추출한 거대 트리플 저장소다.

 

산업 영역에서는 의료의 SNOMED CT, 금융의 FIBO, 생물학의 Gene Ontology가 사실상 표준 역할을 한다. 같은 도메인에 SNOMED CT·ICD·LOINC처럼 경쟁하는 표준이 존재하는 경우도 흔해 어느 온톨로지를 채택할지가 중요한 의사결정이 된다.


06 지식 그래프와의 관계

지식 그래프는 온톨로지 위에 인스턴스 데이터를 얹은 실행 시스템이다. 학술적으로는 T-Box(Terminology, 스키마 = 온톨로지)A-Box(Assertion, 사실·인스턴스) 의 결합으로 설명한다. 즉 "온톨로지가 그릇이라면 지식 그래프는 그 그릇에 사실을 가득 채운 것"으로 비유할 수 있다.

 

가장 유명한 사례는 Google Knowledge Graph다. 2012년 5월 16일 Amit Singhal이 "Things, not strings"라는 슬로건으로 발표했고, 출시 당시 5억 개 이상의 엔티티와 35억 개 이상의 사실로 시작했다. 같은 해 12월 다국어 확장이 이어졌고, 이후 검색 결과 우측의 정보 박스, 음성 비서의 답변, 추천 시스템의 기반이 됐다.

 

지식 그래프의 진정한 가치는 단순 사실 저장이 아니라 추론에 있다. "홍길동의 어머니는 신씨다"와 "신씨의 형제는 신씨남이다"라는 두 사실에서 "홍길동의 외삼촌은 신씨남이다"를 자동 추론할 수 있는 구조가 핵심이다.


07 LLM·GraphRAG 시대의 부활

2010년대 중반 시맨틱 웹은 한때 "죽었다"는 평가까지 받았다. RDF·OWL의 학습 곡선이 가파르고 실제 산업 활용도가 기대만큼 빠르게 늘지 않았기 때문이다. 그러나 2024년 이후 흐름이 완전히 바뀌었다.

📌 GraphRAG와 환각 감소

Microsoft는 2024년 7월 GraphRAG를 오픈소스로 공개했다. 단순 벡터 검색 기반 RAG가 답하기 어려운 "전체 데이터셋을 종합한 질문"을 커뮤니티 탐지 기반 그래프 분석으로 해결하는 방식이다. FalkorDB의 사례 보고에서는 전통 RAG 대비 환각이 약 90% 감소하고 쿼리 지연이 50ms 미만으로 줄었다는 결과가 공개됐다.

엔터프라이즈 LLM 시스템에서는 Knowledge Graph + Vector DB 하이브리드 아키텍처가 사실상 표준이 됐다. 다중 홉 추론이 필요한 질문(예: "이 환자의 알레르기와 처방 약물 간 상호작용은?")에는 벡터 검색만으로 부족하기 때문에 도메인 온톨로지가 RAG 성능과 거버넌스를 동시에 잡는 핵심 인프라로 자리 잡고 있다.

 

그래프 데이터베이스 시장도 다시 활기를 띤다. Neo4j는 LPG(Labeled Property Graph) 기반에 GraphRAG 패키지를 공식 지원하고, Stardog는 RDF·SPARQL 네이티브에 OWL 추론까지 제공한다. FalkorDB·Ontotext GraphDB·TigerGraph 등도 LLM 인프라 시장을 두고 경쟁하고 있다. 업계에서는 2025년을 "지식 그래프의 해"로 평가하는 분석도 나왔다.


08 개발 방법론·도구·한계

개발 방법론은 세 가지가 주로 인용된다. METHONTOLOGY는 1997년 마드리드 공대에서 제안한 DB 설계 단계 모델 기반의 전통적 방법론으로 문서화 부담이 크다는 평가가 있다. NeOn Methodology는 2006~2010년 EU FP6 프로젝트에서 정립한 9개 시나리오 기반 유연한 워크플로로 Ontology Design Pattern 재사용을 강조한다. Stanford의 7-Step(Noy·McGuinness, 2001)은 입문자에게 가장 친숙한 단계별 가이드다.

 

대표 도구는 Stanford Protégé다. 무료 오픈소스 온톨로지 편집기로 사실상 업계 표준이며, 협업용 WebProtégé와 로컬용 Protégé Desktop을 모두 제공한다. SPARQL 엔드포인트로는 Apache Jena Fuseki, GraphDB, Stardog, Virtuoso가 자주 쓰인다.

 

한계도 분명하다. 도메인 전문가와 온톨로지 엔지니어가 함께 협업해야 하므로 구축 비용이 크고, 같은 도메인에 경쟁 온톨로지가 여럿 존재해 표준화가 어렵다. 개념 변화·신규 엔티티 반영에 따른 유지보수 비용도 만만치 않다. OWL Full 추론은 결정 불가능 문제까지 있어 실용적으로 OWL 2 EL/QL/RL 세 가지 프로파일을 골라 쓰는 것이 일반적이다.


09 자주 묻는 질문 5가지

Q1. 온톨로지와 데이터베이스 스키마는 무엇이 다른가?

DB 스키마는 "어떻게 저장할 것인가"에 초점이 있고 닫힌 세계 가정 위에서 작동한다. 온톨로지는 "무엇이 존재하고 어떤 관계가 성립하는가"에 초점이 있으며 열린 세계 가정 위에서 명시되지 않은 사실에 대해 "알 수 없음"으로 처리해 추론을 가능하게 한다. 같은 데이터를 저장해도 목적·표현력·추론 가능성이 다르다.

Q2. RDF와 OWL 중 무엇부터 배우면 되나?

RDF가 더 단순하고 OWL은 그 위에 표현력을 더한 상위 표준이다. 입문자는 RDF 트리플 모델과 SPARQL 쿼리부터 익히는 것이 자연스럽고, 본격적인 추론과 공리가 필요해지는 단계에서 OWL 2 프로파일(EL·QL·RL)로 넘어가는 흐름이 일반적이다.

Q3. 지식 그래프와 온톨로지는 같은 말 아닌가?

자주 혼용되지만 엄밀히 다르다. 온톨로지는 스키마·룰 중심의 추상 구조이고, 지식 그래프는 그 스키마 위에 실제 인스턴스 데이터를 대량으로 얹은 실행 시스템이다. "그릇과 내용물의 관계"에 가깝다.

Q4. LLM 시대에 온톨로지가 정말 다시 가치가 있나?

그렇다. LLM은 확률적 텍스트 생성기이지만 사실 제약과 다중 홉 추론에 약하다. 온톨로지·지식 그래프는 구조화된 사실 기반으로 환각을 줄이고 검증 가능한 답변을 만든다. Microsoft GraphRAG, Neo4j GraphRAG, Stardog 같은 도구가 엔터프라이즈 LLM에서 표준 인프라로 자리 잡는 흐름이 그 증거다.

Q5. Schema.org만 알아도 SEO 측면에서 충분한가?

웹 SEO·구조화 데이터 측면에서는 Schema.org가 사실상 표준이라 그것만 잘 활용해도 큰 효과가 있다. 다만 검색 영역 밖의 데이터 통합·QA 시스템·LLM RAG로 확장하려면 RDF·OWL·SPARQL 기초까지 익혀 두는 편이 길게 가는 선택이다.


마무리

온톨로지는 한 줄로 정의하면 "도메인의 개념과 관계를 기계가 처리 가능한 형태로 명시한 지식 표현 체계"다. Tom Gruber의 1993년 정의가 30년 넘게 통용되는 이유는 그 추상화가 시대를 가리지 않기 때문이다. RDF·OWL·SPARQL이라는 W3C 표준 스택, Schema.org·SNOMED CT·FIBO 같은 산업 표준, Protégé·Neo4j·Stardog 같은 도구가 모두 그 정의 위에서 작동한다.

 

2010년대 후반 시맨틱 웹이 잠시 잠잠해졌던 것은 사실이다. 그러나 LLM이 부상하면서 "확률적 생성에 사실 제약과 다중 홉 추론을 더해 줄 구조화된 지식 인프라"의 필요성이 다시 분명해졌고, 온톨로지·지식 그래프가 그 역할을 받고 있다. Microsoft GraphRAG·Neo4j GraphRAG·Stardog 같은 도구가 엔터프라이즈 RAG의 표준 인프라로 자리 잡는 흐름이 이를 보여 준다.

 

개발자 입장에서는 RDF 트리플 모델과 SPARQL 기초를 가볍게 익혀 두는 것이 진입 비용이 가장 낮은 출발점이다. SEO를 위해 Schema.org JSON-LD를 페이지에 삽입해 보는 것도 좋은 첫걸음이다. 도메인 전문가와 협업하는 큰 프로젝트라면 Stanford 7-Step이나 NeOn Methodology를 참고해 단계별로 진행하면 시행착오를 줄일 수 있다. 단순히 잠시 유행하는 단어가 아니라, LLM 시대의 데이터 인프라 한 축으로 자리 잡고 있는 기술이라는 시선으로 접근하는 편이 합리적이다.

온톨로지 입문 체크리스트

 

01Gruber 정의를 우선 이해 — "개념화에 대한 명시적·형식적 명세".
02DB 스키마와의 차이 — 닫힌 세계 vs 열린 세계 가정.
035가지 구성 요소 — 클래스·인스턴스·속성·관계·공리 매핑 연습.
04RDF 트리플 모델과 SPARQL 기초부터 학습, 필요 시 OWL 2 프로파일로 확장.
05Schema.org JSON-LD를 페이지에 삽입해 SEO 효과로 첫 적용 경험.
06대규모 구축 시 Stanford 7-Step·NeOn Methodology 단계별 적용.
07LLM RAG 결합 시 Neo4j·Stardog·FalkorDB 등 그래프 DB와 GraphRAG 패키지 검토.

본 글은 온톨로지의 정의·구성 요소·표준·도구·LLM 시대 활용 동향을 정리한 일반 정보 자료다. 실제 도입 시 도메인·규모·기존 시스템에 따라 적용 방식이 달라지므로 W3C·Stanford·Microsoft Research·각 도구 벤더의 최신 가이드를 직접 확인한다.

 

#온톨로지 #Ontology #지식그래프 #KnowledgeGraph #RDF #OWL #SPARQL #SchemaOrg #시맨틱웹 #LinkedData #GraphRAG #Neo4j #Stardog #Protege #LLM_RAG

반응형

댓글