딥러닝/Vision

Open-domain Visual Entity Recognition:Towards Recognizing Millions of Wikipedia Entities

dnap512 2023. 6. 22. 13:25

Open-domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia Entities
OVEN이라는 모델을 사용한다.

1. 개요

CLIP과 PaLI 모델을 baseline으로 사용하는데 방법은 다음과 같다. 이미지는 224*224, 14*14 패치 사이즈 사용

- CLIP Fusion: CLIP 듀얼 인코더 위쪽에 2-layer T5를 붙여서 사용한다. 2개의 CLIP 모델을 사용한다.
- CLIP2CLIP: pretrained CLIP 2개를 사용해서 <input image, target text>, <input text, target image>, <input image, target image>, <input text, target text> 4가지 pair에 대해 내적하여 유사도 점수를 계산하고, 얻은 유사도 점수에 대해 learnable vector를 곱해서 logit을 얻는다.
- PaLI: encoder-decoder 구조이므로 generation을 사용하며, BM25로 생성한 텍스트와 entity를 retrieval한다. fine-tuning때 없던 entity 데이터도 구별할 수 있음 (pretraining때 배워야함). OVEN-WIKI 셋을 직접적으로 학습함

 

2. OVEN-WIKI 데이터셋  (아직 공개 안됨)

- Entity Split: 다양한 이미지 entity가 제공되는 image recognition
- Query Split: VQA셋
- Human Eval set: 30명 이상의 전문 어노테이터로 <이미지, 쿼리, 답변> 트리플렛 엔티티 링크를 검증. 명시적으로 이미지에 답변이 존재하는 OCR류 문제를 제거함.

 

3. 성능 평가

- 태스크에 대한 성능이 워낙 안좋다보니 baseline 이상의 의미는 부여하기 힘듦
- Human Eval 셋이 고품질 데이터인데, 이 데이터에 대한 Human+Search (사람이 직접 검색하고 답변) 성능이 77.7이다.
- 77.7이 upper bound라고 생각했을때 seen에서 인간의 80% 정도 점수를 (60점) 얻는다면 서비스로 쓸만하지 않을까 싶음