Playing with Vision Embeddings
개요
DINOv3 ViT-S 모델이 이미지를 384차원의 임베딩 벡터로 압축할 때 어떤 정보가 인코딩되는지 탐구하며, 이를 시각화하고 해석하기 위한 방법론을 제시합니다.
주요 내용
- 이미지 임베딩의 특성: DINOv3 ViT-S는 이미지의 픽셀을 384개의 숫자로 이루어진 임베딩 벡터로 압축하며, 서로 다른 이미지 크롭(crop) 및 증강(augmentation)은 유사한 임베딩을 갖도록 학습됩니다.
- 임베딩에서 이미지 생성: DINOv3 모델은 미분 가능하므로, 특정 임베딩 벡터를 목표로 하여 코사인 유사도를 최대화하는 방식으로 이미지를 생성할 수 있습니다. 이미지 생성 시 크롭 및 증강 전략을 모방하여 노이즈를 줄이고 모델의 '동일함' 정의에 최적화합니다.
- 슈퍼포지션(Superposition) 현상: 신경망은 임베딩 차원보다 훨씬 많은 수의 특징을 슈퍼포지션을 통해 압축하며, 각 특징은 거의 직교하는 방향을 가집니다. 이는 모델이 적은 차원으로 많은 특징을 학습할 수 있게 하지만, 개별 차원을 이해하기 어렵게 만듭니다.
- 희소 오토인코더(Sparse Autoencoder, SAE) 활용: SAE는 모델의 표현에 더 많은 공간을 제공하고 표현이 흩어지는 것을 방지하여, 384차원 공간에서 약 12,000개의 고유하고 해석 가능한 특징 방향을 추출합니다.
- 특징의 분해(Decomposition) 및 조합(Combining): SAE로 추출된 특징을 활용하여 특정 이미지 임베딩이 어떤 특징들의 조합으로 구성되는지 분해하거나, 두 특징을 조합하여 새로운 이미지를 생성하고 그 과정을 보간(interpolation)을 통해 시각화할 수 있습니다.
- 특징의 세부 분석: 두 개의 딸기 관련 특징을 분석한 결과, 하나는 '단일의 크고 온전한 딸기'를, 다른 하나는 '작거나 여러 개의 딸기 (잘린 것도 포함)'를 인코딩하는 것으로 나타났습니다. 이는 SAE 특징의 미묘한 차이를 보여줍니다.
- 특징 공간 시각화: ImageNet Val 이미지 코퍼스에 대해 SAE 특징의 동시 활성화(coactivation)를 기록하고 UMAP을 사용하여 2차원 지도로 시각화하여, 특징 간의 관계와 클러스터를 보여줍니다.
시사점
DINOv3와 같은 비전 모델의 임베딩 공간을 SAE와 같은 도구를 활용하여 탐색하고 시각화하는 것은 모델이 이미지를 어떻게 이해하고 표현하는지에 대한 심층적인 통찰을 제공하며, 향후 비전 모델의 해석 가능성 및 응용 연구에 기여할 수 있습니다.
원문을 불러오는 중...
댓글
GitHub Discussions