Open-domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia Entities OVEN이라는 모델을 사용한다. 1. 개요 CLIP과 PaLI 모델을 baseline으로 사용하는데 방법은 다음과 같다. 이미지는 224*224, 14*14 패치 사이즈 사용 - CLIP Fusion: CLIP 듀얼 인코더 위쪽에 2-layer T5를 붙여서 사용한다. 2개의 CLIP 모델을 사용한다. - CLIP2CLIP: pretrained CLIP 2개를 사용해서 , , , 4가지 pair에 대해 내적하여 유사도 점수를 계산하고, 얻은 유사도 점수에 대해 learnable vector를 곱해서 logit을 얻는다. - PaLI: encod..