[논문리뷰]Removal of Hallucination on Hallucination: Debate-Augmented RAG(ACL, 2025)

Date: 2025.06.11 Updated: 2025.06.11

카테고리: NR

Wentao Hu, Wengyu Zhang, Yiyang Jiang, Chen Jason Zhang, Xiaoyong Wei, and Qing Li. “Removal of Hallucination on Hallucination: Debate-Augmented RAG.” In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics, ACL 2025.

Multi-Agent Reasoning
Debate-Augmented RAG

Problem Statement

이 논문은 Retrieval-Augmented Generation(RAG)에서 발생하는 ‘환각의 누적(Hallucination on Hallucination)’ 문제를 해결하기 위해, 다중 에이전트 토론(Multi-Agent Debate)을 기반으로 한 프레임워크를 제안한다.

기존 RAG는 외부 문서를 검색하여 생성 모델의 환각을 줄이려 하지만, 잘못된 정보가 검색될 경우 오히려 환각이 강화되는 문제가 발생한다. 이는 retrieval 단계의 오류가 generation 단계의 편향을 증폭시키는 구조적 한계 때문이다. 기존 연구들은 iterative retrieval(IRCoT), autonomous querying(FLARE, Auto-RAG), reflective generation(Self-RAG) 등을 통해 일부 개선을 시도했지만, 대부분 retrieval 또는 generation 단일 단계에만 집중하여 전체 파이프라인의 편향을 해결하지 못한다.

이 논문은 이러한 한계가 단일 LLM의 폐쇄적 추론 구조에서 기인한다고 보고, retrieval과 generation 전 과정에 역할이 분리된 에이전트들이 참여하는 구조화된 토론(debate)을 도입한다. 이를 통해 검색 품질을 개선하고, 생성 과정에서 정보 왜곡을 줄이며, 전체적인 추론의 견고성과 정확도를 높이는 것을 목표로 한다.

Methodology

이 논문은 Debate-Augmented RAG (DRAG) 프레임워크를 제안한다. DRAG는 두 단계로 구성된다.

Retrieval Debate
Response Debate

Retrieval Debate

입력: 질문 \(x\)
출력: 최적의 쿼리 집합 \(\hat Q\) 및 이에 대한 문서 집합 \(C_{\hat Q}\)
세 가지 에이전트로 구성됨
- Proponent, Challenger, Judge

Retrieval Debate 단계는 다중 에이전트가 검색 적절성을 평가하기 위해 구조화된 토론을 진행하는 단계다. 이 단계에서는 세 가지 역할의 에이전트가 참여한다

Proponent Agent는 현재 쿼리가 합리적이고 검색 결과가 충분하다고 주장하며 쿼리 풀을 유지하자고 제안한다.
Challenger Agent는 현재 쿼리의 결함을 지적하고 수정을 제안하며, 유용한 쿼리는 유지하고 새로운 쿼리를 추가하여 쿼리 풀을 개선하자고 주장한다.
Judge Agent는 두 에이전트의 논증을 평가하여 최종 결정을 내린다. 토론은 쿼리 집합이 수렴하거나 최대 토론 라운드에 도달할 때까지 반복된다.

토론은 초기 쿼리로 시작해 매 라운드마다 쿼리 집합을 갱신하며 반복된다. 쿼리 집합이 수렴하거나 최대 라운드 수에 도달하면 종료된다. 이렇게 생성된 최종 쿼리들은 다시 문서 검색에 사용되어, 보다 폭넓고 신뢰도 높은 문서 집합을 생성하게 된다. 이 방식은 retrieval 단계의 다양성과 검증 가능성을 확보함으로써, 이후 generation 단계의 정확도와 견고성을 높이는 기반을 제공한다.

Response Debate

입력: 질문 \(x\), 최종 문서 집합 \(C_{\hat Q}\)
출력: 최종 응답 \(\hat y\)
정보 비대칭 기반 역할

Response Debate 단계는 검색 최적화 후에도 남아있는 노이즈나 잘못된 검색 결과의 영향을 해결하는 단계다. 이 단계의 핵심은 정보 비대칭성을 통한 역할 분담이다.

Proponent Agent는 검색된 정보 \(C_{\hat Q}\)에 기반하여 초기 응답을 생성하고, 이후 Challenger Agent의 답변을 참고하여 응답을 개선한다.
Challenger Agent는 내부 지식만으로 초기 응답을 생성하고, Proponent Agent의 답변을 바탕으로 반복적으로 응답을 업데이트한다.
Judge Agent는 두 에이전트의 최종 응답을 평가하여 최적의 답변을 선택한다.

이러한 상호 비판 구조는 단순히 검색된 내용을 반복하는 것을 방지하고, 정보에 대한 다양한 해석과 교차 검증을 가능하게 한다. 특히 검색된 문서에 정답이 명시되어 있지 않은 경우에도, 내부 지식 기반의 대립과 조율을 통해 더 견고한 추론 결과를 이끌어낼 수 있다. 결과적으로 Response Debate는 생성 단계에서의 환각을 줄이고, 보다 신뢰도 높은 응답 생성을 가능하게 하는 핵심 구성 요소이다.

Experiments

Main Results

Table 1은 DRAG는 6개 벤치마크 데이터셋에서 다양한 베이스라인과 비교하였다. Multi-hop Reasoning 과제에서 DRAG는 상당한 성능 향상을 보였는데, 2WikiMultihopQA에서 EM 점수 28.80으로 기존 최고 성능 대비 6%p 향상, HotpotQA에서 EM 점수 30.80으로 3%p 향상되었다. 단일홉 QA 과제에서는 경쟁력 있는 성능을 보여 여러 벤치마크에서 2위를 기록했으며, 최고 성능과의 차이는 미미했다. 특히 StrategyQA에서는 EM 점수 69.20으로 최고 성능을 달성했다.

Ablation Study

Table 5는 DRAG의 핵심 구성 요소들의 효과를 검증했다. Retrieval Debate만 적용한 경우(+ fRetDebate) 대부분의 과제에서 Naive RAG 대비 성능이 향상되었고, Response Debate만 적용한 경우(+ fResDebate)에서도 유사한 개선이 관찰되었다. 정보 비대칭성을 제거한 실험(- Info Asymmetry)에서는 모든 데이터셋에서 일관된 성능 저하가 나타났는데, 이는 역할 기반 지식 분배가 사실적 일관성 향상에 중요함을 보여준다.

Analysis of Debate Rounds

Table 2는 토론 라운드 수가 DRAG 성능에 미치는 영향을 분석했다. Retrieval Debate에서는 라운드 수 증가가 일반적으로 성능을 향상시켰는데, 2WikiMultihopQA에서 RetIter=0일 때 26.00에서 RetIter=2일 때 29.60으로 개선되었다. 그러나 특정 임계점(RetIter=3) 이후에는 추가적인 토론이 미미한 이득만 제공했다. Response Debate에서는 초기에는 성능이 향상되었지만 과도한 토론 라운드는 성능 저하를 일으켰는데, TriviaQA에서 ResIter=1일 때 62.4에서 ResIter=2일 때 60.20으로 감소한 것이 대표적 예시다.

Case Study

“Who does Fez marry in that 70’s show?” 질문에 대한 Response Debate 사례는 정보 비대칭성을 통한 적대적 토론의 효과를 명확히 보여준다. Round 1에서 Proponent Agent는 검색 문서 기반으로 Nina라고 오답했고, Opponent Agent는 내부 지식으로 Jackie Burkhart라고 역시 오답했다. 그러나 Round 2에서 토론을 통해 Proponent Agent가 문서를 재검토하여 “Fez marries Laurie Forman to avoid deportation”이라는 핵심 정보를 발견하고 정답으로 수정했다. Opponent Agent도 이 논증을 받아들여 같은 결론에 수렴했다. 이는 구조화된 토론이 각 에이전트로 하여금 초기 답변을 비판적으로 재평가하게 하여 최종적으로 정확한 답변에 도달하게 하는 DRAG의 핵심 메커니즘을 실증한다.

Conclusion

Contribution

본 논문은 RAG의 구조적 한계인 ‘Hallucination on Hallucination’ 문제를 해결하기 위해, retrieval과 generation 전 단계에 다중 에이전트 토론(Multi-Agent Debate)을 통합한 DRAG 프레임워크를 제안하였다.

DRAG는 훈련 없이 적용 가능한 구조로, Retrieval Debate를 통해 쿼리 다양성과 검색 품질을 개선하고, Response Debate를 통해 환각 가능성이 있는 생성 결과를 상호 비판과 정보 비대칭 기반 토론을 통해 정제한다. 실험 결과, DRAG는 기존 RAG 및 다양한 개선 기법들보다 특히 multi-hop QA에서 강력한 성능을 보였으며, retrieval 실패 상황에서도 견고한 응답을 생성하는 것을 확인하였다. 이 프레임워크는 향후 RAG 시스템의 신뢰성과 추론 정밀도를 향상시키는 일반적 해법으로 확장 가능성이 높다.

Limitation

DRAG는 높은 응답 품질을 달성하는 대신, 다중 에이전트 구조로 인해 계산 비용이 증가하는 한계를 가진다.

Retrieval Debate는 쿼리 수렴 조건을 기반으로 조기 종료가 가능하지만, Response Debate는 현재 고정된 반복 횟수로 설정되어 있어 단순한 질의에서도 과도한 LLM 호출이 발생할 수 있다. 이로 인해 문제 난이도와 무관하게 동일한 계산 자원을 소모하며, 오히려 문제 drift를 유발하는 경우도 존재한다. 향후 연구에서는 에이전트 수 동적 조정, confidence-based early stopping, task-sensitive reasoning depth 조절 등의 메커니즘을 도입해 효율성과 정밀도의 균형을 맞추는 방향이 필요하다.

Meaningful