[논문리뷰]StAR: Structure-Augmented Text Representation Learning for Efficient Knowledge Graph Completion

Date: 2023.03.10 Updated: 2023.03.10

카테고리: GR

Wang, B., Shen, T., Long, G., Zhou, T., Wang, Y., & Chang, Y. (2021). Structure-Augmented Text Representation Learning for Efficient Knowledge Graph Completion. In arXiv (Cornell University). Cornell University. arXiv:2004.14781

Problem Statement

논문에서는 먼저 기존 그래프 임베딩(Graph Embedding) 모델들의 문제점을 지적한다. 기존 모델들은 엔티티와 릴레이션의 상대적인 Spatial Distance를 이용하여 Triple-Level Relationship을 포착한다. 하지만 이러한 방식은 추론시 Training 중에 한 번도 방문하지 않은 element를 일반화하기 어렵다. 또한 상대적인 거리를 Scoring fucntion으로 이용하므로, Graph Incompleteness에 취약하다.

다음으로는 기존에 존재하던 사전 학습된 인코더(Pre-Trained Encoder)에 대한 한계점을 지적한다. Transformer 기반의 Pre-trained model의 가장 큰 특징은 Self-Attention mechanism을 이용한다는 것이다. 이를 Knowledge Graph에 적용하면 모든 Vertax에 대하여 어텐션 스코어를 구하므로 매우 많은 자원을 필요로 한다. 또한, 모든 노드에 대해 어텐션을 진행하면, 그래프의 구조 정보(Structural Information)가 제대로 반영되지 않는다는 한계가 있다.

Knowledge graph completion

Knowledge Graph Completion은 기본적으로 아이디어 자체는 Link prediction과 유사하다. 다만, Knowledge Graph와 일반적인 Graph에서 차별점을 주기위해서 KG에서 노드를 엔티티(Entity), Edge를 릴레이션(Relation) 부르며 Triple이라는 것을 정의한다. Triple은 <head, relation, tail>로 구성된다. 여기서 head와 tail은 각각 end-point가 되는 엔티티를 말하며, 그 둘 사이의 관계성을 보여주는 것이 Relation(Edge)가 된다.

Knowledge Graph Completion은 head와 realation, 또는 relation과 tail이 주어졌을 때 Triple에서 나머지 한 End-point 엔티티를 찾는 Task이다.

Graph Embedding

그래프의 엔티티와 릴레이션의 구조 정보를 저차원 벡터의 representation으로 학습을 목표로 한다. 트리플의 공간적인 관계성을 정의하여 직접적으로 이용하는 방식이다. 이 그래프 임베딩 접급법은 두 가지 방식으로 나눠진다.

먼저 Translation-based approach이다. <head, relation>의 임베딩을 Translation function에 적용해 Triple의 신뢰성을 점수화(Scoring)한다. 대표적인 모델로는 TransE와 TransR이 있다.

반면 Semantic matching approach 방식은 Triple에 직접 작용하는 matching function을 통해 Triple의 신뢰성을 도출한다. 대표적인 모델은 DistMult와 QuatE가 있다.

그래프 임베딩의 경우는 그래프의구조 정보를 잘 반영하지만 치명적인 단점이 존재한다. 첫 번째로 학습 중 Unseen entity/relation에 부적합하다는 것이다. 또한 구조 정보를 이용하므로 Graph Incompleteness에도 매우 취약하다.

Texture Encoding

텍스쳐 인코딩은 Triple의 자연어 텍스트의 Contextualized representaion을 이용해 KGC의 missing link를 예측하는 것이다. 텍스트는 엔티티와 릴레이션의 텍스쳐 내용을 참조할 수 있다. 대표적인 모델로는 KG-BERT가 있다. KG-BERT는 word2vec tokenizer를 통해 변환된 Triple sequence를 입력으로 받는다. KG-BERT처럼 Pre-trained된 모델을 이용하면 결론적으로 Attention을 이용하는 것이고 따라서 모든 Triple Set에 대한 Importance를 구하는 과정이 들어가므로 Unseen graph element를 쉽게 generaliztion할 수 있다. 또한 Global하게 정보를 이용하므로 Graph Incompleteness에도 더 좋은 성능을 보인다.

하지만, Link prediction시 모든 엔티티를 비교해야 하므로 추론시 cost가 많이 든다. 또한 모든 노드들의 Importance를 구하는 것은 Global information을 반영할 지언정, Locality를 고려하지 않으므로 그래프의 구조 정보를 제대로 반영하지 못한다는 단점이 있다.

Pre-Trained MLM

MLM은 Masked Langauge Model의 약자이다. Input sequence의 토큰들을 랜덤하게 마스킹해서 pre-training을 진행하는 방식이다. 이는 더 강력하고 성능이 좋은 Texture Encoding을 얻기 위함이다. 매우 크기가 큰 raw Corpora로 사전 학습된 MLM모델은 generic한 contextualized representation을 self-supervised learning을 통해 학습하게 된다. 대표적인 모델로는 BERT와 RoBERa가 있다. BERT처럼 이름에서도 알 수 있듯이 랜덤하게 마스킹된 토큰들을 Bidirectional하게 양방향 모두의 문맥을 고려해 예측한다.

KG-BERT

KG-BERT는 대표적인 Texture Encoding 모델이며 MLM 모델이다. Triple-level에서 Contexturalized representation을 scoring한다. 먼저, word2vec tokenizer를 이용해 Text를 Word Embedding Sequence로 변환하고 MLM과 마찬가지로 [CLS] 토큰과 [SEP]과 함께 사용해 Concatenation하고 새로운 시퀀스를 만든다. 그 후 Transformer의 인코더를 거치면 NSP과 MLM task에 대한 pre-training이 진행된다. 위에서 Pool은 Triple이 맞는지 아닌지를 판단하는 일종의 NSP task의 결과를 나타내주는 함수이며, 이는 [CLS] 토큰에의해 결정된다.

Method

1. Overview

2. Structure-Aware Triple Encoding

1) Siamese-Style Encoder

샴 네트워크(Siamese Network) 비슷한 구조의 네트워크 두 개를 병렬로 놓고 파라미터를 공유(Parameter Sharing)해서 학습하는 방식이다. StAR모델에서는 이 샴 네트워크의 아이디어를 차용해 새로운 Siamese-Style Encoder를 제안한다. Query와 Candidate를 각각 인코딩하여 Pairwise된 input을 bypass한다. StAR 모델이 이러한 Siamese-Style Encoder를 사용한 이유는 Combinatorial explosion을 피하기 위함이다.

하지만, 이 방식을 채택했을 때는 여러가지 의문점이 발생한다. 세 가지 의문점은 다음과 같다. (1)어떻게 하면 엔티티와 릴레이션에 걸친 Contextualized Knowledge를 보존할 수 있는가? (2)Siamese architecture를 어떻게 Triple에 적용할 것인가? (3)Downstream model에서 어떻게 구조 학습(Structure Learning)을 촉진할 수 있는가?

2) Using Translation-based graph embedding

StAR의 모델 아키텍쳐를 보기 전 Translation-based 모델을 어느정도 숙지해야 한다. Translation-based 모델은 앞서 말했듯, <head, relation>의 임베딩을 Translation fucntion을 이용해 신뢰성을 판단하며 Translation function의 출력값과 tail 임베딩 tail사이의 공간적인 관계성(Spatial relationship)을 통해 구조 정보(Structural Information)를 학습한다. 대표적인 Trans-Based 모델에는 TransE와 RotatE가 있다.

TransE에서 translation function은 real vector들의 합의 형태다. 즉, TransE의 Translation function은 \(h \; + \; r \; \approx \; t\)이다. 핵심은 TransE에서 두 엔티티간의 관계성을 head 엔티티의 임베딩을 tail 임베딩으로 tranlation하는 형태로 representaiton된다는 것이다.

RotatE에서 translation function은 Complex vector의 곱의 형태다. 즉, RotatE의 Translation function은 \(h \cdot r \; \approx \; t\)이다. 핵심은 연산 자체가 복소 공간에서 이루어지며 두 엔티티간의 관계성을 head 엔티티의 임베딩을 tail 엔티티 임베딩으로 회전(rotate)하는 형태로 represenation된다는 것이다. 여기서 곱셈은 Element-Wise product이다.

Translation-based model을 주의깊게 보는 이유는 후에 설명할 Ensemble모델과 Self-adaptive ensemble때문이다.

3) From texture encoding approach’s POV

이제 본격적으로 StAR모델의 아키텍쳐를 보아야 한다. 먼저 StAR-base의 경우는 Texture Encoding에 전신을 두고 있다는 사실을 명심해야 한다. 먼저 StAR에서는 Combinatorial explosion을 완화하기 위해 <head,relation>과 를 각각 다른 Transformer 인코더에 넣어준다. 먼저 head와 relation의 임베딩을 입력으로 받는 Transformer-based 인코더의 경우 그 두 임베딩을 concatenation한 형태로 입력을 받게 된다. word2vec같은 tokenizer를 통해 head와 relation의 Text concatenation 시퀀스를 생성하게 된다. 위에서 X틸다와 같다.

그 후 KG-BERT를 이용해 \(\widetilde{X}^{(h)}\)가 입력으로 들어가며 Contextualizing Translation Function이 정의된다. 이 함수는 \(u\)로 표기되며 Pool함수를 통해 정의된다. Pool함수는 BERT에서 [CLS] 토큰이 인코더를 거쳐 나온 출력값을 가지고 NSP(Next Sentence Prediction)을 진행하게 되는데 이와 같은 역할을 하는 함수이다. 즉, KG-BERT에서 입력 시퀀스의 [CLS] 토큰이 인코더를 거친 결과가 Pool함수의 출력값이 되고, Triple이 Positive인지 아닌지를 판별한다. Contextualizing translation function은 결론적으로 <head, relation>의 contextualized representation \(u\)는 결국 translation function의 출력으로 볼 수 있다.

tail의 입력 시퀀스 역시 동일한 과정을 걸쳐 \(v\)라는 contextualized representaion을 얻는다.

4) Structure-aware triple encoding 구조

최종적으로 Structure-Aware Triple Encoding 부분을 보면 위와 같다. StAR의 인코더를 한 마디로 정리하면 Siamse-style Texture Encoder이다. 샴 네트워크의 아이디어를 채용하므로, 두 개의 partition은 서로 weight를 공유한다. 샴 네트워크의 구조를 따르면서 head & relation 과 tail로 partition을 나눠져 있는 구조인 것이다. 이 샴 스타일 인코더를 통해 Combinatorial explosion을 피할수 있다.

즉, 샴 네트워크는 query와 candidate를 각각 인코딩하여 pairwise input으로 네트워크를 하며 이를 통해 combinatorial explosion을 피할 수 있다. 이러한 사실을 이용하여 Link prediction시 combinatorial explosion을 피하기 위해 (head, relation)과 (tail)을 두 partition으로 니누고 텍스쳐 인코더를 하나의 샴 네트워크로 만들어 각각의 인코더가 pairwise한 다른 입력을 받아 출력으로 서로 다른 representation을 뱉어내는 것이다.

이러한 StAR의 인코더는 샴 네트워크에서 제기되었던 여러 의문점에 대해 적절한 해결책을 제시한다. 먼저 1)어떻게 하면 Triple의 contextualized knowledge를 보존할 것인가? 에대한 질문이다. 이는 샴 네트워크에서 query와 candidate를 각각 나눠 pairwise하게 입력으로 집어넣는 것처럼, head, relation과 tail의 두 부분으로 나눠 각각의 인코더에 집어넣어줌으로 해결이 가능하다. 이를 통해 효율적으로 contextualized knowledge를 대체할 수 있다.(by partition)

두 번째로 2)어떻게 하면 샴 아키텍쳐를 Triple에 적용할 것인가? 이다. 이 또한 두 partition으로 나누어져 각각 인코딩 하는 방식으로 해결된다. 또한 이 두 partition은 asymmetric하다.

마지막으로 3)어떻게 하면 Structure learning을 촉진 시킬 수 있는가에 대한 질문이다. 이는 두 개의 pairwise contextualized embedding을 유도해 구조 정보를 학습시키는 것을 목표로하게 만들면 된다. 참고로 StAR의 다음 아키텍쳐 부분인 Structure-Augmented Scoring function 부분에서 Structure learning을 하게된다.

3. Structure-Augmented Scoring Module

1) Deterministic Representation Learning

먼저 Deterministic Representation Learning을 하는 부분이다. 이 부분은 기존의 KG-BERT의 pre-training task처럼 Triple이 plausible하니 아니니? 를 판별하기 위한 학습을 진행한다. 즉, Binary Classification을 하며 이는 Text-Based model에서 많이 사용하는 방식이다. 이러한 학습 방법을 Semantic matching graph embedding 방식이라고 한다.

Pairwise 텍스쳐 인코딩을 통해 출력된 Contextualized representation인 \(u\)와 \(v\)를 직접적인 Siamese-style encoder에 적용하는 것은 불가능하다. 따라서, NLP에서 많이 사용하는 방식인 Interactive Concatenation을 이용한다. 논문에서는 이를 \(c\)로 정의한다. 이 \(c\)는 의미적으로 두 representation의 semantic reationship을 나타낸다.

KG-BERT의 맨 마지막 층과 비슷하게 Positive Triple과 Negative Triple의 two-way classifier에 통과되는데, 이는 MLP 층으로 되어있다. 결론적으로 MLP를 거치면 Positive에대한 Loss와 Negative Output 두 개를 엮은 2차원의 categorical distribution을 얻게 된다. 이때 이 분포의 두 번째 차원이 Link prediction 추론의 Positive probability이다. 이를 수식으로 정의하면 \(s^c\)이다. 이 때 이 스코어를 Confidence Score라고 한다. 최종적으로 얻은 Positive와 Negative 결과를 하나의 Classification Objective로 묶어 Binary Cross Entropy Loss, \(\mathcal{L^c}\)로 정의한다.

2) Spatial Structure Learning

이 부분에서는 Deterministic Representaion Learning과 동시에 Spatial Structure Learning을 진행하게 된다. 구조적인 지식, 정보를 증가시키기 위해 Structure Learning을 이용하는데, 중요한 것은 Translation-based Graph Embedding에서 정의한 Scoring function의 아이디어를 차용해 새로운 Scoring function \(s^d\)를 정의하고 이 함수는 \(u\)와 \(v\)의 두 representaion의 공간적인 거리(spatial distance)를 score로 나타낸 것이다. 이 scoring function을 Distance Score라고 한다.

확실하게 구분해야 할 것은 논문에 Structure Learning akin to Trans-based Emb라고 나온다. 즉, Translation-based embedding에 유사한 학습을 해 scoring function을 정의한다. Structure Learning의 결과로 Positive distance score와 Negative distance score를 얻게되고, 이 둘을 엮어 Contastive Learning을 하게된다. 따라서 Loss를 Margin-Based Hinge Loss로 정의한다.

학습을 위해 두 Loss를 동시에 학습시켜주는 Joint Optimization을 이용한다. 여기서 Correct Triple 즉 Positive Tripple을 \(tp = (h,r,t)\)로 정의하고, False postive Triple인 Wron Triple은 \(tp^{'}\)로 정의하며 head, relation, tail 중 하나가 false element인 것이다. Binary Classification의 Loss를 보여주는 Triple Classification Objective를 보면 \(\vert \mathcal{D} \vert\)는 Correct triple만 있는 Training set의 크기를 말한다.(Vertax의 크기, 엔티티 수) 또한 \(\vert \mathcal{N} \vert\)의 경우 tp로부터 만들어진 Wrong triple의 크기이다.

여기서 Confidence Score \(s^c\)의 경우 하나의 triple에 대한 신뢰성만 판단하고 다른 triple은 고려하지 않으므로 추론과정에서 Ranking에 대한 정보가 부족할 수 있다. 이 것은 학습과 추론과정 사이의 Inconsistency를 야기한다. 따라서 이와 타협하기 위해 positive와 negative examples의 loss weight는 반드시 불균형해야 한다. 이를 수식으로 나타내면 \(\vert \mathcal{N}(tp) \vert \gg 1\)이다.

Triple Constrastive Objective의 경우 SVM에서 자주쓰이는 Margin-based Hinge Loss로 정의된다. 이는 correct triple과 wrong triple간의 pairwise rnaking을 고려하게 된다. 실험을 통해서 알게된 사실은, Structure Learning은 1)눈에 띄게 false postivie를 줄이고, 2)엔티티에 disambuguating(엔티티 모호성이 감소)하며, 3)좀 더 신뢰성있는 ranking score를 뽑아낼 수 있게 만든다는 사실이다.

최종적으로 Loss는 위의 식으로 정의된다. 여기서 \(\gamma\)는 Weight이다. StAR 모델을 \(\mathcal{L}, s^c, s^d\)에 근거해 Optimization하고 추론시 ranking basis로 사용할 수 있다.

3) Model Efficiency

먼저 Training Efficiency를 보면 처음에 Texture Encoder로 들어가는 두 입력이 asymmetric partition으로 들어간다. 하지만, 이 둘의 길이는 실제로 거의 비슷하다. 그 이유는 엔티티의 시퀀스 길이가 압도적으로 길어 Relation 시퀀스가 더해져도 그 길이는 여전히 엔티티의 시퀀스 길이에 dependent하기 때문이다. 결론적으로 Siamse-Style StAR이 KG-BERT보다 학습 속도가 2배이상 빠르다.

다음으로는 Inference Efficiency이다. 표에서와 같이 KG-BERT보다 Complexity측면에서 압도적으로 빠르며, 추론 속도가 최소 4배 이상 차이난.

4. Self-Adaptive Ensemble Scheme

1) Self-Adaptive Ensemble Scheme 배경

다시 한 번 StAR모델이 제시된 과정을 살펴보면 먼저 Graph Embedding 방식의 경우 그래프의 구조 정보를 잘 반영하는 반면, Graph Incompleteness에 취약하다는 단점이 있다. 따라서 Texture Encoding 방식이 나왔고, 이는 Transformer기반의 인코딩 방식이다. Self-Attention에 의해 Cost가 크고 구조 정보를 잘 반영하지 못하지만, Text 정보를 효과적으로 활용해 대부분의 그래프 임베딩 보다 성능이 우수하다. 하지만 이 역시 Entitiy ambiguity에 취약하다.

두 모델 방식 모두 각각의 문제점을 안고 있다. 따라서 StAR모델은 Texture Encoding방식을 기반으로 Strucutre Learning을 더해 새로운 아키텍쳐를 제안한 것이다. 하지만 이럼에도 불구하고 여전히 Entity ambiguity에 고통받는다. 놀랍게도, 간단하게 graph embedding방식과 texture encoding방식의 score를 이용한 것만으로 눈에 띄는 성능 향상이 나왔고 이에 힘있어 새로운 방식인 Self-Adaptive Ensemble Scheme을 제안한다.

Self-Adaptive Ensemble의 목표는 Learnable parameter인 \(\alpha\)를 학습하는 것이다. 즉, 불완전한 triple이 주어졌을때 \(\alpha\)를 학습하는 걸 목표로 한다. 그러기 위해 먼저 RotatE의 Scoring function을 rescaling해야 한다. 이 때 rescaling 방식은 min-Max rescaling이다. Scoring function을 재정의 했으면 이제 Incomplete Triple을 추출하고자 StAR에 의해 rank된 k개의 candidate를 뽑고, 두 모델에서 각각 Score를 추출한다.

다음으로 초기 \(\alpha\)값은 1로 설정을 하고 이를 Unseen Indicator라고 한다. \(\alpha\)를 학습하기 위해 두 가지 feature를 설정한다. 이 때, StAR로부터 나온 score를 \(s^{(tc)}\)라 하고, RotatE로부터 나온 score를 \(s^{(ge)}\)라고 한다.

먼저 ambiguity degree는 \(x^{(ad)}\)로 score consistency는 \(x^{(sc)}\)로 표현하며 수학적 정의는 위와 같다. 이 둘을 이용해 \(\alpha\)를 정의한다. 학습시, StAR와 RotatE의 파리미터는 고정한채 \(\theta^{(\alpha)}\)만 최적화한다. 이 때 최적화는 Margin-based hinge loss를 통해 진행한다.

추론시에는 새롭게 정의된 Score인 Self-Adaptive Score \(s^{(sa)}\)를 사용하여 candidate의 top-k rank을 재조정하고, 나머지는 변하지 않고 그대로 둔다. 이 때 StAR(Ensemble)과 StAR(Self-Ada)의 파라미터 설정은 위와 같다.

5. Compared to Prior Text-Based Approach

Text Based 접근법에는 크게 두 가지 임베딩 방식으로 구분된다. 1)Stand-alone Embedding과 2)Joint Embedding방식이다. 먼저 Stand-alone Embedding 방식과 StAR와의 비교를 한다. Stand-alone embedding 방식은 직접적으로 엔티티와 릴레이션 임베딩을 text representation으로 대체하는 방식을 따른다. Text representation은 엔티티와 릴레이션에 걸친 Contextual information과 관계없이 CNN같은 Shallow Encoder에 직접 적용하는 것에서 파생된것이다. 중요한 사실은 Deep contextualized feature는 효과적인 text representation을 위해서 필수이다. 결론적으로 이 방식은 Generalization을 향상시키지만 여전히 성능이 좋지 않다. 반면 StAR는 Deep contextualized feature에 더 강점을 보이며 효율적이다.

다음으로 Joint Embedding방식이다. StAR모델과 좀 더 유사한 방식을 사용하지만 StAR는 다르게 Graph Embedding을 중심으로 Text represenation을 더해 Embedding의 정보력을 풍부하게 만드는 것을 목표로 한다. 엔티티와 릴레이션을 나타내는 Text representation과 heterogeneous representation을 같은 공간에 정렬하거나 그래프 임베딩을 강화하기 위해 엔티티의 공존을 포함한 Large scale rwa corpus를 사용한다. 하지만, 중심모델이 Graph Embedding이므로 그래프 임베딩의 본질적 문제점인 Generalization 문제와 Incompleteness문제를 그대로 상속받는다. 이 방식은 또한 Deep contextualized feature없이 shallow network를 기반으로 represenation을 표현한다. 반면 StAR에서는 text의 contextualized representatio만을 이용하고 structure learning을 적용해 상호적인 이점을 취한다.

Experiment

1. Dataset

Banchmark Dataset 사용. 학습 중 Zero-shot setting 사용

2. Link Prediction

StAR와 StAR(Ensemble), StAR(Self-Adp)를 비교했을때, StAR(Self-Adp)가 가장 성능이 우수하게 나왔으며, 다른 Graph Embedding모델들이나 Texture Encoding모델에 비해 성능이 좋은 것을 확인할 수 있다.

3. KG-BERT와의 비교, NELL-One dataset을 이용한 Probing

왼쪽은 KG-BERT와 성능을 비교한 것이다. 거의 모든 Evaluation Metric에서 StAR가 더 좋은 성능을 보여줬으며, Training시간과 Inference 시간에서도 압도적인 성능차이를 보여줬다. 오른쪽은 NELL-One 데이터셋을 이용한 실험이다. 일반적으로 Graph Embedding모델보다 Texture Encoding 모델에서 Unseen graph들에 대해 더 generalization이 잘되어 있다. 특히 엔티티들이나 릴레이션들이 가깝지 않을때 이는 두드러진다. 참고로 이러한 Unseen graph들은 추론과정에서 나타난다.

이러한 사실은 WN18RR을 이용했을때 Graph Embedding 접근법에서, 특히 Unnormalized metric MR에서 이는 더 두드러지게 보여진다. 먼저 few-shot dataset에 해당하는 NELL-One 데이터셋을 사용한다. Test의 릴레이션이 Training Set에 절대 나타나지 않는 Zero-shot evaluation을 하기위함이다. 오른쪽 표에서도 보여지듯 zero-shot setting을 한 StAR모델이 one/five-shot setting을 한 Graph Embedding 접근법에 얼마나 경쟁력이 있는지를 보여준다.

Unseen 엔티티를 generalization을 증명하기 위해 WN18RR에 대한 두 가지 프로빙 셋팅을 제시하였다. 첫번째 프로빙 테스크는 training set을 바꾸지 않게 유지하고 나머지 테스트 셋만 Unseen 엔티티가 있는 Triple로 구성되게 만드는 것이다. 그리고 두번째 프로빙 테스크에서는 1900개의 엔티티를 랜덤하게 traiing set으로 부터 지워 TransE의 test중에 inductive entity represenation을 지원하기 위함이다.

StAR는 샛탕 전반에 걸쳐 경쟁력이 있지만 RotatE같은 Graph Embedding 접근 방식은 첫 번째 프로핑 테스크에서 상당한 감소를 보여준다. 두 번째 프로빙 작업에서 보이지 않는 엔티티의 임베딩을 Inductive하게 완료하기 위해 변환 공식을 사용하더라도 TransE의 퇴화는 상당하다.

마지막으로 StAR 모델이 밀접한 가까운 엔티티/릴레이션 셋에 적용되더라도 여전히 경쟁력이 있는지 확인하기 위해 위의 표와 같이 세 번째 프로빙 테스크를 구성한다. Training 중에 방문한 엔티티/릴레이션이 포함된 WN18RR Test triple만 보관하고 나머지는 제거했다.

4. Ablation Study

StAR(Self-Adp)를 상대로 진행

Objective: Loss를 하나씩 제거하면 성능을 비교
Concatenation: 어떻게 concat을 구성할지 결정
Distance: 그래프 임베딩 모델의 Distance 식의 형태를 결정
Ranking Basis: Scoring function의 형태를 바꿔가며 실험

5. Futher Analyses

Contribution

가장 큰 Contribution은 샴 네트워크의 구조를 Texture Encoding 접근법에 적용한 후 Structure learning을 이용한 새로운 Ensemble 모델을 제시하였으며, 나아가 직접적으로 Graph Embedding모델을 같이 사용한 Self-Adaptive Ensemble 모델을 제시하엿다.

Meaningful

[논문리뷰]StAR: Structure-Augmented Text Representation Learning for Efficient Knowledge Graph Completion

Problem Statement

Method

1. Overview