딥러닝/Vision

[CVPR22 리뷰] OoD-Bench: Quantifying and Understanding Two Dimensions of Out-of-Distribution Generalization

dnap512 2022. 4. 14. 13:36

본 논문은 CVPR 2022에 oral paper로 accept 되었습니다. (https://arxiv.org/pdf/2106.03721.pdf)

  1. For what
    • facebook[1]에서 최근 제안된 DG (domain generalization) 알고리즘들이 일반적인 ERM (empirical risk minimization)[2] 알고리즘과 성능이 크게 차이 나지 않는 점을 지적하였으나 이유는 모름
    • OOD (out of distribution) generalization 과업 데이터셋들에 대한 알고리즘의 효율성을 제대로 평가하기 위해 distribution shift에 대한 정량화 지표를 제공
  2. Contributions
    • OOD generalization의 데이터셋의 distribution shift 정도를 정량화하기 위한 2가지 지표를 제안: diversity, correlation
    • 지금껏 설명되지 않던 OOD generalization 알고리즘의 실패를 이 두가지 지표로 설명

 

내용 정리

식 (1)의 z의 존재 (Z1)는 OG (OOD generalization)를 가능케한다.  Z1은 모든 x에 대한 y의 인과관계를 담고 있는 특징을 의미한다.

하지만 식(2)에 해당하는 z의 존재 (Z2)는 OG 달성을 어렵게 만든다. Z2는 반대로 x에 대한 y의 인과관계를 담고 있지 않는 특징을 의미한다. (e.g. 비행기라는 라벨은 비행기 그 자체를 의미하며, 칠해진 색깔이나 또는 착륙해있거나 날고있는 모습이 비행기를 의미하지는 않는다.)

저자는 Z2를 직관적으로 2가지로 나누어 설명한다.

직관적으로, diversity shift는 데이터의 다양성이 각 환경에 공유되지 않는 특징에 의해 구체화됩니다. 반면 correlation shift는 Z2의 또다른 종류의 특징에 의해 발생하며 이는 일부 y와 가짜 상관관계를 지닙니다. 이러한 가정 위에서 식(3)과 같이 정의할 수 있습니다.

 

저자는 위의 식을 아래 그림으로 설명한다.

2가지 shift의 예시

저자는 위 이론을 토대로 데이터셋의 shift를 정량화하기 위하여, 뉴럴넷을 활용한다. 트레이닝셋과 테스트셋을 각 라벨로 두고 샘플이 어느 셋에 포함되는지 맞추도록 모델을 학습시킨다. 그리고 feature extractor에서 추출한 feature를 가지고 커널 밀도 추정(Kernel Density Estimation)을 수행한다. 그렇게 구한 지표는 다음과 같다.

보다시피 두가지 shift를 약간이라도 포함하는 데이터셋은 거의 없으며, 그나마 DomainNet, NICO 정도로 보인다. 저자는 이 결과를 가지고 데이터셋들을 각 shift에 domainated된 것으로 분류한다. 그리고 분류된 데이터셋들로 evaluation을 재정리한다.


소감

이 논문에서는 distribution shift를 2가지로 나누어 설명했는데, 실험적으로는 잘 설명이 되는 것 같다. 저자는 DomainBed에 있는 알고리즘의 성능 평가를 각 shift에 따라 다시 정리한다. Table 1은 diversity shift, Table 2는 correlation shift에 dominate된 데이터셋에 대한 평가이다. 이렇게 보면 저자가 제안한 2가지 shift에서 평균적으로 ERM보다 성능이 높은 DG 알고리즘은 없다.  DG 관점에서 모델의 일반화를 성공시키기 위해서는 2가지 관점을 잘 고려할 필요가 있어 보인다.

[1] Ishaan Gulrajani and David Lopez-Paz. In search of lost domain generalization. In ICLR, 2021.
[2] Vladimir Vapnik. Statistical Learning Theory. Wiley, 1998.