일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- likelionlikelion
- 프로젝트
- parklab
- DP
- Join
- SQL
- Rag
- ux·ui디자인
- 멋재이사자처럼
- tog
- seaborn
- graphrag
- likelion
- intern10
- 멋쟁이사자처럼
- 인턴10
- kgc
- 마이온컴퍼니
- Python
- 마이온
- 그리디
- GNN
- TiL
- 시각화
- folium
- 알고리즘
- 파이썬
- DFS
- 멋사
- paper review
- Today
- Total
지금은마라톤중
[Paper Review] Can LLMs be Good Graph Judger for KnowledgeGraph Construction? 본문
[Paper Review] Can LLMs be Good Graph Judger for KnowledgeGraph Construction?
Ojungii 2025. 5. 7. 15:06Can LLMs be Good Graph Judger for Knowledge
Graph Construction?
1. Introduction
비정형 텍스트를 정형 지식 그래프로 변환하는 것은 정보 관리와 정보 검색에서 중추적인 역할입니다. 지식 그래프 구축은 다양한 정보 소스로부터 수동적인 간섭의 필요성 없이 구조화된 지식 표현을 발전시키는 것을 목표로 하고 있습니다. GraphRAG와 추천시스템을 포함한 데이터 과학 애플리케이션의 중추적인 역할을 하는 지식 그래프는 더 방대한 정보의 이해와 처리로 중요해지고 있습니다.
최근 LLM은 다양한 제로샷 또는 퓨샷에서 엄청난 일반화 성능을 보여주고 있습니다. 또한 LLM은 자연어처리와 지식 그래프 관련해서도 좋은 성능을 보여주고 있습니다. 결과적으로, 비정형 자연어 문서로부터 KG와 의미적 그래프를 구축하는데 LLM의 강력한 일반화 능력이 활용되고 있습니다.
이런 강건한 일반화 능력 덕분에, 많은 정답을 표기하는 일(named entity recognition, NER), 엔티티 추출, 관계 추출 등의 필요성이 없어졌습니다. 그리고 In-Context Learning(ICL)로 LLM이 문서로부터 구조화된 트리플을 어떻게 추출하는지 가이드해줍니다.
그럼에도 불구하고, LLM은 KG 추출에서 여러 문제가 있습니다. LLM에서 추출 결과를 요청하는 것은 정보 손실을 이끌 수도 있습니다. 이를 해결하기 위해, 반복적인 프롬프팅 전략으로 극복하는 사례들이 있습니다.
LLM 기반의 연구들이 KGC에 있어 여러 성공을 보였지만 고질적인 3가지 문제가 있습니다.
(1) Noise Information
실제 문서는 방대할 뿐 아니라 노이즈도 많이 섞여있기 때문에 LLM이 구조화된 정보를 추출하는데 문제가 될 수 있습니다. 무관한 정보 추출로 인해 LLM의 통찰력이 흐려질 수 있습니다.
(2) Domain-Specific Knowledge
기본 LLM은 도메인에 대한 깊은 이해가 필용한 전문 용어에서 어려움을 겪습니다. 글로벌 시각과 로컬 시각의 연결성의 부족은 불완전한 정보 추출을 일으키고, LLM이 본질적이거나 계층적인 관계를 파악할 수 없게 합니다.
(3) Hallucination of LLM
KGC 구축할때 LLM이 환각 현상으로 인해 거짓이나 외곡된 정보를 생성합니다. 엔티티 간의 관계를 LLM을 통해 생성할 떄, 환각 현상은 더 발생할 수 있습니다. 이로 인해 잘못된 정보들이 KG에 통합되어 지식 기반의 신뢰성을 훼손할 수 있습니다.
논문에서는 파인튜닝 오픈소스 LLM을 활용한 GraphJudger를 제안합니다. GraphJudger는 다른 폐쇄적인 LLM에 의해 트리플 정확성을 전문가처럼 판단합니다.
GraphJudger은 위의 언급한 3가지 한계점을 개선할 3가지 모듈을 가지고 있습니다.
(1) the Entity-Centric Iterative Text Denoising module,
(2) Knowledge Aware Instruction Tuning module,
(3) Graph Judgement module
2. Graph Judger Framework
2-1. Entity-Centric Iterative Text Denoising
2단계 구성
우선, 반복적인 노이즈 제거와 엔티티 추출입니다.
다음으로, relation 추출을 하고 KG 초안을 만듭니다. 폐쇄형 LLM이 제로샷의 일반화 능력이 좋기 때문에 2단계 모두 이를 활용합니다. 구조화된 프롬프트 작성에는 few-shot learning을 활용합니다.

2-2. Knowledge Aware Instruction Tuning
Instruction tuning으로 LLM을 fine-tuning 합니다.
해당 단계는 Instruction tuning을 통해 LLM을 fine-tuning 하는 단계입니다. 훈련 데이터셋에 대하여 instruction을 만들고 오픈소스 LLM을 학습시켜 트리플 간의 일반적 논리와 도메인 특화 정보에 대한 이해를 시킬 것입니다. 일반적으로 트리플의 주어, 서술어, 목적어 구조가 익숙하지만, 학습을 통해 이 밖의 경우 이를 식별할수 있도록 합니다.
.

• 토큰화된 T_train, 토큰화된 instruction, 길이 L으로 타겟 결과의 확률을 생성
2-3. Graph Judgement

마지막 단계에서는 1번 모듈의 KG 초안을 2번 모듈의 fine-tuned LLM을 활용하여 평가합니다.
3. Experiments
3.1 Experiments Setting
1) Dataset 구성
2) 비교 대상 모델 (Baselines)
3) 사용 LLM
4) 평가 지표
3-2. Main Result
Denoising을 통해 triple과 문서 chunk 간 semantic similarity 향상
• 상관관계의 색깔이 진해짐.
3-3. Ablation Study
모듈별 영향력 평가
Graph judgment 평가

일반화 성능 평가
3-4. Case Study
• 원 그래프에서 ChatGPT가 만든 그래프는 복잡, GraphJudger가 만든 그래프는 노이즈 없이 핵심만 구성
• 노이즈 제거된 문서는 원문에서 불필요한 -LRB-, -RRB- 등을 제거
인사이트
지식 그래프 구축(KGC)은 그래프 기반 태스크에서 성능의 큰 영향을 줍니다.
특히, GraphRAG의 선행 연구들의 한계점을 보면 불완전한 그래프가 가장 큰 이유 중 하나로 꼽힙니다.
그 만큼 KGC가 잘 이루어져야 결과도 긍정적임을 통해 지식 그래프 구축의 중요성을 확인했습니다.
해당 논문에서는 기존 연구에서 LLM을 엔티티와 엣지 추출 정도의 역할로만 썼다면 추출한 내용이 타당한지 점검자의 역할을 부여한 논문이라고 할 수 있습니다.
LLM에 모든 태스크를 의존한다는 것이 LLM 성능의 영향을 받을 수 있다는 단점이 되기도 하지만, 하나의 아이디어로써 살펴보았습니다.
저 또한 최근 KGC 관련 논문들을 살펴보며 엔티티 추출 등을 LLM으로 수행한다는 점이 신뢰성이 떨어질 수 있고, 잘못 추출된 엔티티는 결국 불완전한 그래프를 구축하여 개선된 검색 방법으로도 좋은 결과를 가져올 수 없다고 생각했습니다.
이런 포인트를 통해 해당 논문이 한번 더 검증함으로써 양질의 지식 그래프 구축을 돕는 방법이 될 수 있습니다.
'STUDY > Paper Review' 카테고리의 다른 글
[Paper Review] How to Mitigate Information Loss in Knowledge Graphs for GraphRAG (0) | 2025.05.20 |
---|---|
[Paper Review] Retrieval-Augmented Generation with Hierarchical Knowledge (3) | 2025.04.08 |
[Paper Review] Graphusion (0) | 2025.03.26 |
[Paper Review] Think-on-Graph 2.0 (0) | 2025.03.02 |
[Paper review] GraphRAG 논문 비교 (0) | 2025.02.22 |