분류 전체보기 17

Open-domain Visual Entity Recognition:Towards Recognizing Millions of Wikipedia Entities

Open-domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia Entities OVEN이라는 모델을 사용한다. 1. 개요 CLIP과 PaLI 모델을 baseline으로 사용하는데 방법은 다음과 같다. 이미지는 224*224, 14*14 패치 사이즈 사용 - CLIP Fusion: CLIP 듀얼 인코더 위쪽에 2-layer T5를 붙여서 사용한다. 2개의 CLIP 모델을 사용한다. - CLIP2CLIP: pretrained CLIP 2개를 사용해서 , , , 4가지 pair에 대해 내적하여 유사도 점수를 계산하고, 얻은 유사도 점수에 대해 learnable vector를 곱해서 logit을 얻는다. - PaLI: encod..

딥러닝/Vision 2023.06.22

Meet in the Middle: A New Pre-training Paradigm

"Fill in the Middle (FIM)"이라는 pretraining idea에서 출발한 연구 Related Work FIM 문장을 세부분으로 나눈다: prefix, middle, suffix suffix, prefix, middle의 배치로 하고, middle을 예측하도록 학습한다. 하지만 이 방법은 문제점이 몇가지 있다. suffix, prefix의 context 연결이 자연스럽지 않은 것 LM 생성은 일반적으로 최근 생성한 몇가지 토큰에 대해 바이어스 되는 경향이 있음 문장은 prefix, middle, suffix를 무작위적으로 스플릿하는데, 그렇기 때문에 문장 전체를 못봄 (이건 약간 동의하기 힘들다) Bidirectional Language Modeling과 MIM의 차이 제안 방법 "M..

딥러닝/NLP 2023.03.31

3/20 (월)

- https://ds-fusion.github.io/ DS-Fusion: Artistic Typography via Discriminated and Stylized Diffusion DS-Fusion: create artistic typography automatically ds-fusion.github.io diffusion model 백본을 사용한 artistic typography 자동 생성기 - https://github.com/THUDM/ChatGLM-6B/blob/main/README_en.md GitHub - THUDM/ChatGLM-6B: ChatGLM-6B:开源双语对话语言模型 | An Open Bilingual Dialogue Language Model ChatGLM-6B:开源双语对话语..

쓸만한 논문 용어 정리

- As epitomized by: ~에 의해 요약된 바와 같이 (예문, https://arxiv.org/abs/2104.06644) In particular, masked language model (MLM) pre-training, as epitomized by BERT (Devlin et al., 2019), has proven wildly successful, although the precise reason for this success has remained unclear. - disentangle: ~를 구성요소로 분해하다 - Concretely: 구체적으로 - Alternatively,: 또는 - As the advent of ~: ~의 출현 이후로, (에문, . As the advent ..

[CVPR22 리뷰] Unsupervised Domain Generalization by Learning a Bridge Across Domains

#unsupervised domain generalization, #domain transfer 기본적으로 MOCOv2 방법을 따른다. 다른점은 같은 이미지에 augmentation을 적용하여 얻은 생성샘플 (a, b)2개를 BrAD domain으로 transfer 시킨다. 그리고 이에 대해 contrastive learning을 수행한다. Queue에는 도메인마다 분류하여 피쳐를 저장하고, negative key는 현재 샘플과 동일한 도메인 피쳐를 샘플링하여 학습한다. 학습은 3개의 loss로 구성된다. 1. BrAD 모델 loss: 정답은 휴리스틱한 방법(canny edge detector, or HED 모델)을 사용한다. 2. Domain adversarial loss: BrAD 도메인으로 tra..

딥러닝/Vision 2022.07.15

[CVPR22 리뷰] Failure Modes of Domain Generalization Algorithms

Contributions DG에서의 error를 모델의 단계별로 분해하여 분석 Training set underfitting: 규제 텀이 너무 강력해서 본래 목적에 대해 모델이 언더피팅 되었는가? Test set inseparability: feature extractor가 트레이닝셋에 너무 오버피팅 되어 테스트셋에서 의미있는 특징을 추출하는가? Training-test misalignment: 트레이닝셋과 테스트셋 특징에 대해 classifier가 분류를 할 수 있도록 특징을 잘 추출했는가? Classifier non-invariance: classifier의 트레이닝셋과 테스트셋 특징에 대한 분류 성능이 모두 좋은가? ORAL paper인데 실험이 생각보다 강력하지 않네요. 2개의 데이터셋에 대해서..

딥러닝/Vision 2022.06.13

[CVPR22 리뷰] OoD-Bench: Quantifying and Understanding Two Dimensions of Out-of-Distribution Generalization

본 논문은 CVPR 2022에 oral paper로 accept 되었습니다. (https://arxiv.org/pdf/2106.03721.pdf) For what facebook[1]에서 최근 제안된 DG (domain generalization) 알고리즘들이 일반적인 ERM (empirical risk minimization)[2] 알고리즘과 성능이 크게 차이 나지 않는 점을 지적하였으나 이유는 모름 OOD (out of distribution) generalization 과업 데이터셋들에 대한 알고리즘의 효율성을 제대로 평가하기 위해 distribution shift에 대한 정량화 지표를 제공 Contributions OOD generalization의 데이터셋의 distribution shift 정..

딥러닝/Vision 2022.04.14

베이즈 정리

베이즈 정리 사전 확률(prior probability): 아무 조건 없을때의 확률 사후 확률(posterior probability): 어떠한 조건이 발생했을때의 확률 $P(A|B)=\cfrac{P(A\cap{B})}{P(B)}=\cfrac{P(B|A)*P(A)}{P(B)}$ - A가 일어났을 때 (조건), B가 일어날 확률 (사건) - $P(A|B)$는 사후확률, $P(A)$는 사전확률 - 일반화: 사건 $B_{1}, B_{2}, ..., B_{k}$가 표본 공간 $S$의 분할 국민대 이상환 교수님의 설명을 참조하였습니다.

딥러닝/확률 2022.03.17