본문 바로가기

AI

[논문 리뷰] Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens (2025.11)

 

VLM이 text와 vision을 이해하고 추론하는 데 많은 발전을 해왔지만, 여전히 image를 text로 이해하는 방식 때문에 성능 저하가 있었음
따라서 성능 저하 없이 vision 그대로를 이해하는 방식을 제안하고자 함

introduction

VLM은 text와 vision을 이해하고 추론하는 데 remarkable progress를 달성함
-> CoT가 logic, mathmetics, knowledge grounding을 향상시킴


but 이러한 성공에도 불구하고 language_bound에 불과함

 

continuous visual information을 discrete한 text space로 preject하는 과정에서 lost and poorly한 representation이 생김
-> counting, spatial correspondence, relative depth estimation에 대해 struggle함

 

또한, model이 continuos spatial and geometric relations를 verbalize해야함

-> text-only인 CoT는 misdirect and reasoning performance가 degrade됨

 

natural한 solution으로는 external vision tools를 사용해서 VLMs를 augment시키는 것

-> perception이 delegeted되고, GPU cost가 높음


Another solution으로는 thinking process에서 generating or cropping images
-> 여전히 image를 text space로 project해야해서 dense visual information을 잃게 됨

Can VLMs learn to reason the way humans do, by thinking visually rather than translating everything into words?

 

Chain-of-Visual-Thoughts (COVT)는 continuos visual token space에 ground함

training에서 VLM이 reasoning chain에서 continuous visual tokens를 predict하도록 함 (rich perceptual information을 compact한 latent space로 compress하면서)

이 latent token은 task-specifix lightweight decoder에 의해 decode됨

 

Tool-Augmented Reasoning

Text Space Reasoning

Latent Space Reasoning

Chain-of-Visual-Thought(CoVT)

3.1. Preamble

VLM은 fine-grained visual reasoning에서 2가지 limitation을 가지고 있음

  1. Text-only CoT accumulates errors
    -> short and effective한 reasoning이 필요함
  2. Supervision is dominated by text responses
    -> VLMs이 스스로 fine-grained visual information을 extract하는 능력이 필요함

3.2. CoVT Overall Pipeline

CoVT는 기존의 standard next-token prediction paradigm을 유지함
(frozen vision encoder and language encoder로 extract된 visual and text features가 주어지면 VLMs이 probability of generating a sequence를 estimate함)

3.3. CoVT tokens

VLMs의 vision-centric perceptual abilty는

1) instance recognition

2) 2D and 3D spatial relationships

3) structure detection

4) deep mining of semantic information로 요약될 수 있음

 

CoVT tokens
1) Segmentation tokens
-> provide instance-level position and shape information


2) Depth tokens
-> provide pixel-level depth information


3) Edge tokens
-> provide geometry-level details


4) DINO tokens
-> provide the patch-level representation of the images

 

task-oriented model은 more fine-grained
-> Segmentation, Depth, Edge tokens
representation model은 less fine-grained
-> DINO tokens

Experients

COVT outperforms the baseline across the vision-centric benchmarks

Visualization of COVT tokens

기존의 Qwen2.5-VL에서와 달리 정확해진 것을 확인할 수 있음


Text-only CoT vs COVT

Appendix

Method에서 설명하고 있는 방법론이 대략적으로 서술되어있어, 더 자세한 방법을 알기 위해 읽게 되었다.

Additional Details of COVT

Projection Layer

 

VLM의 latent space를 decoder의 prompt space로 변환하는 과정

Segmentation COVT Token Alignment

mode이 먼저 segmentation token 8개 예측 후, projection layer를 통해 SAM의 Decoder prompt space로 projection됨
SAM Decoder의 high-quality masks를 ground truth로 두고 학습

Depth COVT Token Alignment


model이 Depth token 4개 예측 후 DepthAnything decoder의 prompt space로 projection
DepthAnything v2의 중간 feature와 batch matrix multiplication후 4개의 Depth map 예측 후 평균

Edge COVT Token Alignment

model이 Edge token 4개 예측 후 PIDINet의 prompt space로 projection
이 token을 1x1 convolution kernel로 써서 PIDINet의 각 중간 feature map에서 4개의 edge map 예측 후 평균