[논문리뷰]Latent Abstraction for Retrieval-Augmented Generation (arXiv, 2026)

Date: 2026.06.21 Updated: 2026.06.21

카테고리: NR

Ha Lan N. T, Minh-Anh Nguyen, and Dung D. Le. 2026. Latent Abstraction for Retrieval-Augmented Generation. arXiv:2604.17866 [cs.CL] 2604.17866

1. Problem Statement

이 논문은 single-hop 및 multi-hop open-domain QA를 위한 Latent-space Retrieval-Augmented Generation(RAG) 문제를 다룬다. QA에서 외부 Wikipedia corpus를 검색해 정답을 생성하는 것이다. 논문의 핵심 문제의식은 기존 RAG가 매 hop마다 자연어 query를 생성하고, 별도 retriever와 generator를 분리해 사용하기 때문에 LLM 내부 표현 공간의 reasoning 능력을 retrieval에 직접 활용하지 못한다는 점이다. LAnR은 이를 해결하기 위해 QA에서 필요한 다음 evidence를 자연어 sub-query로 명시하지 않고도 LLM hidden state만으로 검색하고, 충분한 evidence가 모였는지를 token 생성 없이 판단하도록 설계한 framework이다.

2. Limitations of Existing Works

기존 연구의 핵심 한계는 retrieval, retrieval control, generation이 서로 다른 표현과 모듈에서 수행된다는 점이다. LAnR은 이 세 과정을 동일한 LLM의 latent representation으로 통합하는 방향을 제안한다.

[명시적 자연어 검색 질의의 병목] 기존 iterative RAG는 각 retrieval hop마다 reasoning trace와 자연어 검색 질의를 token 단위로 생성한다. 이 과정은 검색 자체와 무관한 decoding 비용을 추가하며, LLM 내부의 연속적인 hidden representation을 하나의 이산적인 token sequence로 압축한다. 그 결과 hidden state가 보존하고 있는 불확실성이나 복수의 reasoning hypothesis를 충분히 활용하지 못한다.
[Retriever와 Generator의 구조적 분리] 기존 RAG는 대체로 별도의 sparse 또는 dense retriever로 문서를 검색하고, LLM은 검색 결과를 조건으로 answer generation을 수행한다. 이 구조에서는 retriever의 embedding space와 generator의 hidden space가 분리되므로, LLM이 현재까지의 질문과 evidence를 바탕으로 형성한 reasoning state를 retrieval query로 직접 사용할 수 없다. 또한 별도 retriever를 독립적으로 학습·서빙하거나, retriever와 LLM의 상호작용을 위해 추가적인 SFT 또는 RL을 수행해야 하므로 training, inference, deployment 비용이 증가한다.
[Latent retrieval을 위한 supervision 부족] Latent reasoning을 RAG에 적용하려면 LLM의 hidden state가 어떤 문서를 검색해야 하는지 학습해야 하지만, retrieval query construction에 대응하는 고품질 chain-of-thought annotation은 일반적으로 존재하지 않는다. 특히 multi-hop QA에서는 이전에 검색된 evidence에 따라 다음 information need가 바뀌므로, 정답 query의 canonical textual form을 정의하기 어렵다. 따라서 기존 latent reasoning 방법을 단순히 RAG에 적용하는 것만으로는 latent state와 document representation을 정렬하기 어렵다.
[검색된 evidence의 충분성 판단 부족] 기존 iterative RAG는 추가 검색 여부를 explicit reflection text, search token 또는 token-level reasoning 결과로 판단한다. 이러한 방식은 retrieval stopping decision을 표면적인 text generation과 결합하며, 현재 hidden state가 실제로 충분한 evidence를 포함하는지를 직접 평가하지 않는다. 또한 이미 검색한 positive document와 아직 검색하지 못한 evidence를 명시적으로 구분하지 않으면, 후속 retrieval이 기존 문서를 반복적으로 찾거나 residual information need를 정확히 겨냥하지 못할 수 있다.

3. Methodology

LAnR의 전체 구조는 Figure 3에 제시되어 있다. 질문과 이전 retrieval 결과를 LLM에 입력하고 마지막에 [PRED] 토큰을 추가하면, 해당 토큰의 hidden state가 latent query와 retrieval control signal로 동시에 사용된다. Control head가 continue를 예측하면 vector index에서 top-$K$ 문서를 검색해 context에 추가하고, stop을 예측하면 누적 context를 조건으로 최종 answer를 생성한다.

3.1. Latent Query Construction

Latent Query Construction의 핵심은 자연어 검색 질의를 생성하지 않고, [PRED] 토큰의 hidden state를 retrieval query vector로 직접 사용하는 것이다. 먼저 질문의 토큰 시퀀스 $x$ 맨 뒤에 [PRED] 토큰을 추가하여 $\tilde x$를 정의한다.

$$\tilde x = (x_1, \ldots, x_T, [\text{PRED}])$$

LLM (autoregressive langague model, $M$)의 causal self-attention으로 [PRED] 위치가 앞선 전체 context를 참조하도록 하고, last-layer hidden state를 latent query로 사용한다.

$$q=h_{[\text{PRED}]} \in \mathbb{R}^d$$

[PRED] 토큰은 1개 이상이 될 수 있으며, 여러 개를 사용할 경우 마지막 레이어의 hidden state들을 mean pooling하여 latent query로 사용한다. 여러 [PRED] 토큰은 latent reasoning step을 늘려 더 추상적인 query representation을 만들 수 있지만, multi-hop setting에서는 optimization을 어렵게 만들기 때문에 단일 토큰을 기본값으로 사용한다.

각 문서 $D_i$는 동일한 LLM으로 인코딩하고, 문서 마지막 토큰의 last hidden state를 그 문서의 representation으로 사용한다.

$$d_{D_i} = h_{D_i}^\text{last} \in \mathbb R^d$$

Latent query $q$에 대해 각 문서 $D_i$와의 relevance는 코사인 유사도로 정의하며, 학습 과정에서는 이를 기반으로 대조학습한다.

$$\mathcal{L}_{CL} =-\log \frac{\exp(\operatorname{sim}(q, d^{+}) / \tau)}{\exp(\operatorname{sim}(q, d^{+}) / \tau)+\sum_{j=1}^{N^{-}} \exp(\operatorname{sim}(q, d_j^{-}) / \tau)}$$

Hard negatives는 현재 모델이 잘못 검색한 문서에서 mining하며 ANCE 방식으로 주기적으로 갱신한다. 이 objective는 [PRED] representation이 단순한 질문 embedding이 아니라, 현재 context에서 필요한 evidence를 검색하도록 학습한다.

3.2. End-to-End Framework and Training Objective

검색을 위한 질의와 문서의 representation이 정해졌으면, 다음으로는 i)어느 시점에 검색이 활성화되며, ii) 무엇을 검색할지를 정의해야한다. $r$-번째 retrieval turn에서 누적 context는 다음과 같다.

$$c^{(r)} = \Big( x, D^{(1)}, \ldots, D^{(r-1)} \Big)$$

여기서 $D^{(s)}$는 $s$-번째 retrieval turn에서 검색된 top-$K$ 문서 잡합이다. $c^{(r)}$뒤에 [PRED] 토큰을 추가하고, 다음 latent query를 추출한다.

$$q^{(r)} = h_{[\text{PRED}]}^{(r)} \in \mathbb R^d$$

중요한 점은 $q^{(r)}$이 두 가지 역할을 한다는 것이다. 첫째, 문서의 representation과 유사도를 계산하여 다음 top-$K$ 문서를 검색한다. 둘째, retrieval control head에 입력되어 evidence가 충분한지 판단한다. 이 과정은 control head가 stop을 출력하거나 maximum retrieval turn $R$에 도달할 때까지 반복된다. 최종 answer는 전체 문서가 누적된 $c^{(R+1)}$을 조건으로 생성된다.

3.2.1. MLP-based Retrieval Control Head

MLP-based Retrieval Control Head는 현재까지 검색된 evidence가 충분한지를 $q^{(r)}$만으로 판단한다.

$$\hat{y}^{(r)} = f_{\theta}(q^{(r)}) = \sigma\left(\text{MLP}(q^{(r)})\right) \in [0, 1].$$

$\sigma$는 sigmoid 함수이다. 만약 $\hat y^{(r)}$이 0.5보다 크면 현재 정보가 부족하므로 추가적인 검색이 필요한 상태인 것이고, 0.5보다 작으면 현재 evidence는 answer generation을 하기 위해 충분한 정보가 있는 상태를 의미한다.

$$\mathcal{L}_{ctrl} = -\sum_{r=1}^{R} \left[y^{(r)} \log \hat{y}^{(r)}+\left(1 - y^{(r)}\right)\log \left(1 - \hat{y}^{(r)}\right)\right]$$

논문에서는 Retrieval Control Head를 학습하기 위해 binary cross-entropy loss를 사용하고, 현재 턴까지 검색된 문서에 모든 정답 문서가 포함되어 있을 경우 label을 0, 하나라도 없을 경우 label을 1로 준다.

3.2.2. Adaptive Contrastive Target

Adaptive contrastive target의 목적은 각 retrieval turn이 이미 찾은 문서가 아니라 아직 찾지 못한 evidence를 검색하도록 만드는 것이다. 동일한 정답 문서를 모든 turn의 target으로 사용하면 후속 query가 이미 검색된 문서를 반복적으로 찾을 수 있다. 이를 방지하기 위해 $r$-번째 turn에서 남아 있는 정답 문서를 다음과 같이 정의한다.

$$\mathcal{P}^{(r)} = \mathcal{P} \setminus \mathcal{R}^{(r-1)}, \quad \mathcal{R}^{(0)} = \emptyset$$

$\mathcal{P}$는 전체 positive document 집합이다. 즉, 현재 multi-hop QA 또는 multi-turn retrieval 문제를 풀기 위해 필요한 전체 evidence document들의 집합이다.

$\mathcal{R}^{(r-1)}$는 $r−1$ 번째 turn까지 이미 retrieved된 positive document들의 집합이다. 따라서 $\mathcal{P} \setminus \mathcal{R}^{(r-1)}$는 전체 positive document 중에서 이미 찾은 문서를 제외한 나머지 positive document 집합이다. Adaptive Contrastive Target을 학습하기 위해서 turn-specific contrastive loss를 사용하며, 이래와 같이 정의한다.

$$ \mathcal{L}_{CL}^{(r)} = -\log \frac{ \exp\left(\operatorname{sim}\left(q^{(r)}, d^{+(r)}\right) / \tau\right) }{ \exp\left(\operatorname{sim}\left(q^{(r)}, d^{+(r)}\right) / \tau\right) + \sum_{j=1}^{N^{-}} \exp\left(\operatorname{sim}\left(q^{(r)}, d_j^{-}\right) / \tau\right) } $$

최종적으로 loss는 다음과 같이 정의된다.

$$ \mathcal L = \displaystyle\sum_{r=1}^R \mathcal L_{CL}^{(r)} + \lambda \mathcal L_{NTP} + \mu \mathcal L_{ctrl} $$

검색된 문서의 토큰과 [PRED] 토큰에는 NTP loss masking을 적용한다. LLM이 직접 생성해야 하는 token에 대해서만 계산되고, 외부에서 삽입된 retrieved content와 latent control token은 next-token prediction 대상에서 제외된다.

3.3. Inference

현재 context $c^{(r)}$ 뒤에 [PRED]를 추가한다.
$q^{(r)}=h_{[\mathrm{PRED}]}^{(r)}$를 추출한다.
Control head에서 $\hat{y}^{(r)}$를 계산한다.
$\hat{y}^{(r)}$가 0.5보다 크면 3개의 문서 ($K=3$)를 검색하고, 0.5보다 작으면 검색을 종료하고 누적 context를 조건으로 answer를 생성한다.

Maximum retrieval rounds는 $R=4$이며, 기본적으로 한 turn에서 $K=3$개의 문서를 검색한다.

4. Experiments

4.1. QA Performance

RQ1. How effective is LAnR compared to conventional agentic RAG systems in answer quality across single-hop and multi-hop benchmarks, and can its implicit retriever match text embedding models in retrieval accuracy?

Table 1의 핵심 결과는 LAnR이 single-hop 성능을 유지하면서 multi-hop QA에서 가장 높은 성능을 달성한다는 것이다. LAnR-Instruct는 전체 평균 EM 0.418로 가장 높고, LAnR-Base는 0.414로 두 번째이다. Naive RAG는 NQ 0.348과 TriviaQA 0.544로 retrieval-free model보다 좋아지지만, HotpotQA 0.255, 2Wiki 0.226, MuSiQue 0.047에 머문다. 이는 하나의 original query로 한 번만 검색하는 방식이 multi-hop evidence chain을 구성하기에는 부족함을 보여준다.

4.2. Retrieval Performance

Table 2의 핵심 결과는 LAnR이 retrieval과 generation을 공동 학습하면서도 전용 sparse/dense retriever와 경쟁 가능한 recall을 adaptive document budget으로 달성한다는 것이다.

4.3. Latent RAG Effectiveness

RQ2. Does LAnR’s retrieval control head adaptively allocate search hops based on query complexity, and does each retrieval hop find relevant evidence more effectively than text-based iterative search?

Figure 4(a)에서 NQ와 TriviaQA는 대부분 한 번의 search로 종료된다. 반면 HotpotQA, 2Wiki, MuSiQue로 갈수록 두 번 이상 검색하는 비율이 증가하고, MuSiQue가 가장 많은 3-hop 이상 retrieval을 요구한다. 이는 control head가 모든 질문에 동일한 retrieval budget을 적용하는 것이 아니라, evidence completeness에 따라 search 횟수를 조절한다는 결과이다.

Figure 4(b)는 LAnR과 AutoRefine의 hop별 cumulative gold recall을 비교한다. 최종 hop에서 LAnR은 HotpotQA 약 0.82, 2Wiki 약 0.71, MuSiQue 약 0.52의 recall을 보인다. AutoRefine은 각각 약 0.76, 0.58, 0.42이다. LAnR의 우위가 첫 hop부터 나타나고 후속 hop에서도 유지된다는 점에서, 성능 향상이 control head의 stopping strategy만이 아니라 latent query 자체의 retrieval quality에서도 발생한다.

Figure 4(c)의 productive hop rate는 두 번째 이후 retrieval이 새로운 gold document를 하나 이상 찾은 비율이다. HotpotQA는 0.37, 2Wiki는 0.75, MuSiQue는 0.23이다. 2Wiki에서는 추가 검색의 75%가 실제 missing evidence를 찾지만, MuSiQue에서는 23%에 그친다. 따라서 control head가 query complexity에 적응한다는 결과와 별개로, 긴 3-hop 또는 4-hop evidence chain에서는 추가 retrieval이 항상 생산적인 것은 아니다.

5. Conclusion

Contributions

[Unified latent RAG framework] 하나의 LLM이 document encoding, retrieval, retrieval control, answer generation을 함께 수행하도록 통합하여 별도 retriever 의존성을 줄였다.
[Latent query and adaptive retrieval] [PRED] hidden state를 검색 질의로 직접 사용하고, lightweight control head로 추가 검색 여부를 판단한다. 이를 통해 자연어 intermediate query 없이 multi-hop retrieval을 수행한다.
[성능과 효율성 개선] Multi-hop QA에서 기존 RAG 방법보다 높은 성능을 달성하면서 intermediate token generation과 inference latency를 크게 줄였다.

Limitations

[Corpus encoding overhead] 동일한 LLM으로 전체 corpus를 encoding하므로 BM25나 경량 dense retriever보다 indexing 비용이 크다. Backbone이 변경되면 corpus를 다시 encoding해야 하므로, 지식베이스가 자주 갱신되는 환경에서는 활용 비용이 증가한다.
[Interpretability of latent queries] 검색 질의가 자연어가 아닌 latent vector이므로, 특정 문서가 검색된 이유를 사람이 직접 확인하기 어렵다. 따라서 retrieval failure 분석과 결과 auditing이 text-based RAG보다 어렵다.

Meaningful