[논문리뷰]SURf: Teaching Large Vision-Language Models to Selectively Utilize Retrieved Information (EMNLP, 2024)

Date: 2026.06.22 Updated: 2026.06.22

카테고리: NR

Jiashuo Sun, Jihai Zhang, Yucheng Zhou, Zhaochen Su, Xiaoye Qu, and Yu Cheng. 2024. SURf: Teaching Large Vision-Language Models to Selectively Utilize Retrieved Information. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, Yaser Al-Onaizan, Mohit Bansal, and Yun-Nung Chen (Eds.). Association for Computational Linguistics, Miami, Florida, USA, 7611–7629.

1. Problem Statement

이 논문은 Large Vision-Language Model (LVLM)을 위한 multimodal Retrieval-Augmented Generation에서, 검색된 image-caption pair 중 질문 해결에 유용한 정보만 선택적으로 활용하고 irrelevant 또는 misleading reference는 무시하도록 학습하는 문제를 다룬다. 적용 대상은 VQA, image captioning, image classification이며, test image와 시각적으로 유사한 이미지 및 caption을 reference로 제공하여 LVLM의 visual understanding과 generation을 보완하는 setting이다.

2. Limitations of Existing Works

기존 연구의 핵심 문제는 multimodal retrieval 자체보다도 검색 결과의 relevance가 불완전하다는 사실을 고려하지 않고, generator가 모든 reference를 유용한 정보로 받아들이도록 설계되어 있다는 점이다. 또한 기존 multimodal RAG 연구는 modality와 적용 task의 범위가 제한되어 있어 LVLM의 일반적인 retrieval 활용 능력을 충분히 학습하지 못한다.

[텍스트 모달리티 중심의 Retrieval] 많은 기존 multimodal RAG 연구는 retrieved caption과 같은 텍스트 정보를 중심으로 모델을 증강하며, retrieved image의 visual content를 LVLM이 직접 활용하도록 설계하지 않는다. 이에 따라 LVLM이 보유한 시각적 이해 능력을 충분히 활용하지 못하고, multimodal reference가 제공할 수 있는 정보가 제한된다.
[특정 Task에 한정된 적용 범위] image와 text로 구성된 multimodal reference를 사용하는 소수의 연구도 주로 image captioning과 같은 특정 task에 집중한다. 따라서 VQA나 image classification을 포함한 다양한 downstream task에서 multimodal RAG가 제공할 수 있는 일반적인 이점이 충분히 탐색되지 않았다.
[Irrelevant 또는 Disruptive Retrieval 미고려] 기존 연구는 실제 retrieval 결과에 질문과 무관하거나 모델을 오도하는 image-caption pair가 포함될 수 있다는 문제를 충분히 고려하지 않는다. Vanilla LVLM은 retrieved content의 유용성을 동적으로 판단하지 못하고 모든 reference를 무차별적으로 사용하므로, misleading information이 포함되면 오히려 task 성능이 하락한다.

3. Methodology

Figure 3의 전체 architecture는 오답 instruction 수집, multimodal retrieval, positive·negative reference 판별, hard-example filtering, RAG instruction-tuning의 순서로 구성된다. 먼저 기존 LVLM의 SFT data에서 backbone이 틀린 문제만 수집하고, 각 문제에 대해 image-caption corpus의 Top-N reference를 하나씩 추가하여 다시 응답하게 한다. 외부 evaluation tool로 응답이 정답으로 바뀐 reference는 positive, 정답을 복구하지 못하거나 더 악화한 reference는 negative로 분류한다. 이후 가장 유사한 positive와 가장 유사한 hard negative를 선택하여 하나의 retrieval context로 구성하고, 원래 정답을 target으로 LVLM을 추가 instruction-tuning한다.

3.1. Prelominaries

LVLM에서의 multimodal RAG를 retriever와 generator의 결합 구조로 정의한다. 입력 $x$는 question 또는 instruction과 test image $i_{\text{test}}$의 feature를 포함하며, retriever는 image-caption collection $D$에서 관련 image $\{i_1,i_2,\ldots,i_k\}$를 검색한다. Retriever의 probability distribution은 $\bar{P}(i\mid x)$로 표현되며, 각 retrieved image $i_j$에는 caption $c_j$가 대응한다.

Generator는 입력 $x$, retrieved images $\{i_1,i_2,\ldots,i_k\}$, 그리고 corresponding captions $\{c_1,c_2,\ldots,c_k\}$를 조건으로 output $y$를 생성한다. 이때 $y$는 VQA answer, image caption, classification label일 수 있으며, conditional generation은 다음과 같이 표현된다.

$$ P(y \mid x, \{[i_1,c_1],[i_2,c_2],\ldots,[i_k,c_k]\}) $$

최종 RAG output probability는 각 retrieved image-caption pair $r_j=[i_j,c_j]$를 사용했을 때의 generator probability와 retriever probability를 결합한 mixture 형태로 정의된다.

$$ P(y \mid x) = \sum_{j=1}^{k} P(y \mid x,r_j)\bar{P}(i_j \mid x) $$

Equation 2에서 $\bar{P}(i_j\mid x)$는 retriever가 얼마나 적절한 reference를 가져오는지를 나타내고, $P(y\mid x,r_j)$는 generator가 해당 reference를 어떻게 해석하고 output 생성에 반영하는지를 나타낸다. SURf는 완벽한 retrieval recall을 달성하기 어렵다고 보고, retriever 자체보다 generator의 $P(y\mid x,r_j)$를 robust하게 만들어 retrieved information을 선택적으로 활용하도록 학습한다.

3.2. Multimodal RAG Benefit LVMs

이 subsection의 핵심은 relevant image-caption pair가 LVLM의 downstream task 수행에 도움이 되는 pattern mapping을 제공한다는 점이다. 논문은 VQA, captioning, classification에서 test image와 유사한 retrieved image 및 description이 모델의 input-output mapping을 보완할 수 있다고 본다. Reference collection은 $M=\{M_0,M_1,\ldots,M_n\}$으로 표현되며, 각 $M_i$는 image $I$와 description $T$로 구성된 image-caption pair이다.

모델의 목표는 원래 입력 $x$만으로 output을 생성하는 것이 아니라, 검색된 pattern states $M_{i_1},M_{i_2},\ldots,M_{i_k}$를 함께 조건으로 사용해 더 정확한 mapping을 학습하는 것이다.

$$ f:x \rightarrow f(x\mid M_{i_1},M_{i_2},\ldots,M_{i_k}) $$

VQA에서는 retrieved image-caption pair가 test image의 객체 수, 상태, 장면 정보를 보완하고, captioning에서는 유사 이미지의 description이 generation pattern을 제공하며, classification에서는 유사 객체의 visual appearance와 category label 간 대응을 보조한다. 따라서 relevant multimodal RAG는 LVLM이 test image에서 놓친 정보를 회복하는 외부 reference로 기능한다.

3.3. Irrelevant Harms Model Performance

이 subsection의 핵심은 retrieval similarity가 높은 reference라도 질문 해결에 실제로 유용하지 않으면 LVLM의 응답을 오염시킬 수 있다는 점이다. 기존 retrieval process $\bar{P}(i_j\mid x)$또는 $\bar{P}(c_j\mid x)$는 보통 CLIP embedding space에서 image-to-image 또는 image-to-text similarity를 계산해 구현된다. 그러나 CLIP similarity는 test image와의 전반적 시각 유사성을 반영할 뿐, 현재 question에 대한 relevance나 answer correction 가능성을 보장하지 않는다.

Figure 1은 이 문제를 직관적으로 보여준다. Test image에서 사람은 floor에 누워 있지만, retrieved reference 중 하나는 “bed에서 자는 사람”을 포함한다. Vanilla-RAG는 retrieved caption의 misleading content를 test image의 visual evidence보다 강하게 반영해 “bed”라는 오답을 생성한다.

Figure 4에서도 Irrelevant setting은 Base보다 낮은 성능을 보여, 현재 LVLM이 retrieved content를 자체적으로 검증하지 못하고 무차별적으로 사용하는 경향이 있음을 시사한다. 따라서 논문은 retriever의 품질 개선만으로는 충분하지 않으며, generator가 retrieved information 중 relevant content만 선택적으로 활용해야 한다고 주장한다.

3.4. Robust RAG Training Framework

논문에서는 Retriever를 완벽하게 만드는 대신, LVLM이 검색된 multimodal reference 중 유용한 정보만 선택적으로 활용하도록 학습하는 self-refinement training framework를 제안한다. 논문은 대규모 corpus에서 항상 relevant reference만 검색하는 것은 어렵다고 보고, retriever의 recall을 직접 최적화하기보다 generator가 irrelevant 또는 misleading reference를 무시하도록 만드는 데 초점을 둔다.

SURf는 새로운 외부 dataset을 추가하지 않고, 기존 LVLM의 SFT data를 재구성해 RAG instruction data를 만든다. 먼저 fixed-parameter LVLM이 기존 instruction에 대해 i) 틀린 example을 수집하고, 각 example에 ii) image-caption corpus에서 검색한 Top-$N$ reference를 하나씩 추가해 다시 응답하게 한다. Reference를 추가했을 때 오답이 정답으로 바뀌면 해당 reference를 positive로, 그렇지 않으면 negative로 분류한다. 이후 positive와 negative를 filtering하여 학습에 사용할 high-quality reference pair를 만들고, 이를 이용해 LVLM을 instruction-tuning한다.

3.4.1 Construction of Positive and Negative Examples

이 단계의 목적은 retrieved image-caption pair가 현재 question의 오답을 실제로 교정하는지 여부를 기준으로 positive와 negative supervision을 자동 생성하는 것이다. 먼저 기존 SFT instruction 중 fixed LVLM이 틀린 example만 남기고, 각 example에 대해 image-caption corpus에서 Top-$N$ reference를 검색한다. 그런 다음 reference를 하나씩 추가한 상태에서 LVLM이 다시 answer를 생성하게 한다.

Reference 추가 후 answer가 정답으로 바뀌면 해당 image-caption pair는 현재 question에 도움이 되는 $C_{\mathrm{pos}}$로 분류된다. 반대로 answer가 여전히 틀리거나 더 나빠지면 해당 pair는 irrelevant 또는 misleading한 $C_{\mathrm{neg}}$로 분류된다. 즉 positive와 negative는 단순한 CLIP similarity가 아니라, reference가 모델의 answer correctness를 실제로 개선했는지에 따라 결정된다. VQA와 classification에는 exact match를 사용하고, captioning에는 BERTScore를 evaluation tool로 사용한다.

3.4.2 Data Filtering

이 단계의 목적은 제한된 context window 안에 학습 효과가 큰 positive와 hard negative를 함께 배치하는 것이다. Top-N reference가 모두 positive이거나 모두 negative인 example은 제거한다. 두 종류가 함께 있어야 모델이 reference를 단순히 모두 따르거나 모두 무시하는 것이 아니라, 유용한 정보와 방해 정보를 비교하며 구별하도록 학습할 수 있기 때문이다.

Filtering에서는 positive 중 test image와 가장 유사한 reference를 선택해 실제로 도움이 되면서도 visual relevance가 높은 example을 남긴다. Negative에서도 test image와 가장 유사한 reference를 선택하는데, 이는 겉보기에는 test image와 비슷하지만 answer correction에는 실패한 hard negative이다. 이러한 hard negative는 모델이 단순한 image similarity에 의존하지 않고, question-conditioned relevance와 test image의 실제 visual evidence를 함께 고려하도록 만든다.

3.4.3 RAG Instruction-Tuning

이 단계의 목적은 positive와 hard negative가 함께 포함된 RAG instruction data로 LVLM을 fine-tuning하여, relevant reference는 활용하고 irrelevant reference는 억제하도록 만드는 것이다. Retrieved images와 descriptions는 test image 앞에 순서대로 연결되며, 전체 retrieval context는 <Retrieval>과 </Retrieval> token으로 감싼다. 이를 통해 모델은 retrieved context와 실제 test input을 구조적으로 구분할 수 있다.

Training에서는 filtering된 positive reference와 negative reference, 원래 test image와 instruction, 그리고 correct response를 하나의 example로 구성한다. 논문은 별도의 contrastive loss나 ranking loss를 두지 않고, positive와 hard negative가 혼합된 retrieval context에서 정답 response를 생성하도록 instruction-tuning한다. 따라서 selective utilization은 explicit relevance classification objective가 아니라, 정답 생성 과정에서 useful reference만 반영하도록 학습되는 방식이다.

Inference에서는 positive·negative label이나 evaluation tool을 사용하지 않는다. 일반 retriever가 test image와 유사한 image-caption pair를 가져오면, 이를 retrieval context로 삽입하고 학습된 LVLM이 최종 response를 생성한다. 이때 모델은 training에서 학습한 reference 구별 능력을 바탕으로 misleading content의 영향을 줄인다.

4. Experiments

4.1. Main Results1

SURf는 대부분의 dataset과 model scale에서 Zero-shot, Vanilla-RAG, Rerank-RAG, Filter-RAG보다 높은 성능을 보이며, 특히 captioning과 VizWiz-VQA에서 개선 폭이 크다. 7B model의 Avg.는 Zero-shot 89.48, Vanilla-RAG 90.63, Rerank-RAG 93.81, Filter-RAG 97.71, SURf 100.17이다. 13B model에서도 SURf는 Avg. 102.50으로 Zero-shot 93.71과 Filter-RAG 97.20을 모두 앞선다. 이는 단순히 retrieved image-caption pair를 prompt에 추가하는 것보다, positive와 negative reference를 함께 사용해 selective utilization을 학습하는 것이 더 효과적임을 보여준다.

Task별로 보면 7B에서 SURf는 POPE-Random 89.8, POPE-Popular 87.9, MMStar 33.5, VizWiz-VQA 54.3을 기록하며 대부분의 VQA setting에서 최고 성능을 보인다. Captioning에서는 MS-COCO 238.4, VizWiz-Caption 177.4로 Filter-RAG의 231.1, 172.0보다 높고, Zero-shot의 198.6, 134.5보다 크게 향상된다. Classification에서도 CIFAR-10 83.5, EmoSet 53.1로 Zero-shot을 넘어서지만, EmoSet 개선 폭은 0.3 point로 작다. 다만 POPE-Adversarial 7B에서는 SURf 83.6이 Zero-shot 84.2와 Filter-RAG 83.9보다 낮아, 모든 setting에서 항상 최고 성능을 내는 것은 아니다.

4.2. Main Results2

SURf는 더 적은 parameter와 더 적은 shot을 사용하면서도 multimodal ICL model보다 높은 성능을 보인다. 비교 대상은 Flamingo, OpenFlamingo, Otter, MMICL이며, 이들은 9B 또는 12.1B model의 4-shot 결과인 반면 SURf는 7B model의 2-shot 결과이다. POPE 세 subset에서 SURf는 Random 89.8/89.3, Popular 87.9/87.6, Adversarial 83.6/83.9의 Accuracy/F1을 기록하여 MMICL의 87.3/86.6, 82.7/82.1, 81.0/80.7을 모두 상회한다.

MS-COCO에서도 SURf는 CIDEr 101.3으로 MMICL 95.7, Flamingo 93.1, Otter 92.2, OpenFlamingo 89.0보다 높다. 이는 retrieved examples를 단순히 in-context demonstrations로 제공하는 것보다, positive와 hard negative가 섞인 retrieval context에서 LVLM을 직접 instruction-tuning하는 것이 retrieved content 활용 능력을 더 강하게 학습시킨다는 점을 보여준다.

4.3. Efficiency Analysis

SURf는 Zero-shot과 Vanilla-RAG보다 inference time이 증가하지만, Rerank-RAG와 Filter-RAG보다는 훨씬 효율적이다. Image captioning task에서 sample당 평균 실행 시간은 Zero-shot 2.3초, Vanilla-RAG 2.5초, SURf 3.6초, Rerank-RAG 6.2초, Filter-RAG 6.2초이다. SURf의 추가 비용은 image embedding 변환, retrieval, 길어진 prompt 처리에서 발생한다.

반면 Rerank-RAG와 Filter-RAG는 test image caption을 추가로 생성하고, 이 caption과 retrieved descriptions 사이의 BERTScore를 계산해야 하므로 inference cost가 더 크다. 따라서 SURf는 retrieval robustness를 위해 Zero-shot 대비 약간의 latency를 지불하지만, generation-based reranking이나 filtering 방법보다 낮은 비용으로 높은 성능과 robustness를 달성한다.

5. Conclusion

Contributions

[Multimodal RAG의 Robustness 문제 규명] relevant multimodal reference는 LVLM의 downstream 성능을 개선할 수 있지만, irrelevant하거나 misleading한 reference는 오히려 zero-shot보다 성능을 악화시킬 수 있음을 실증하였다.
[Self-Refinement 기반 Selective Utilization] 기존 SFT data에서 모델이 틀린 example을 수집하고, retrieval이 응답을 교정하는지에 따라 positive와 negative reference를 자동 구성하는 학습 framework를 제안하였다. 특히 visually similar한 hard negative를 함께 사용하여 generator가 reference relevance를 구별하도록 학습한다.
[범용 Multimodal RAG 적용] 특정 captioning task에 한정되지 않고 VQA, image captioning, image classification에 동일한 framework를 적용하여, retrieval 활용 능력과 misleading context에 대한 robustness를 함께 개선하였다.

Limitations

[대규모 고품질 Retrieval Corpus 의존성] 복잡한 task에서는 작은 training corpus보다 대규모의 다양한 image-caption source를 사용할 때 성능이 높다. 따라서 적절한 외부 corpus를 확보하기 어려운 domain에서는 retrieval coverage와 최종 성능이 제한될 수 있다.
[다른 Visual Task로의 일반화 미검증] 평가는 VQA, captioning, classification에 한정되어 있으며, image generation이나 image segmentation과 같은 다른 visual task에서 동일한 selective retrieval behavior가 작동하는지는 확인되지 않았다.
[제한된 Reference 수] 긴 caption과 LVLM의 context length 때문에 한 번의 retrieval에서 최대 세 개의 image-caption pair만 사용할 수 있다. 더 많은 reference를 활용하려면 caption compression, 짧은 description 또는 더 긴 context window가 필요하다.

Meaningful