
VLM이 text와 vision을 이해하고 추론하는 데 많은 발전을 해왔지만, 여전히 image를 text로 이해하는 방식 때문에 성능 저하가 있었음
따라서 성능 저하 없이 vision 그대로를 이해하는 방식을 제안하고자 함
introduction
VLM은 text와 vision을 이해하고 추론하는 데 remarkable progress를 달성함
-> CoT가 logic, mathmetics, knowledge grounding을 향상시킴
but 이러한 성공에도 불구하고 language_bound에 불과함
continuous visual information을 discrete한 text space로 preject하는 과정에서 lost and poorly한 representation이 생김
-> counting, spatial correspondence, relative depth estimation에 대해 struggle함
또한, model이 continuos spatial and geometric relations를 verbalize해야함
-> text-only인 CoT는 misdirect and reasoning performance가 degrade됨
natural한 solution으로는 external vision tools를 사용해서 VLMs를 augment시키는 것
-> perception이 delegeted되고, GPU cost가 높음
Another solution으로는 thinking process에서 generating or cropping images
-> 여전히 image를 text space로 project해야해서 dense visual information을 잃게 됨
Can VLMs learn to reason the way humans do, by thinking visually rather than translating everything into words?
Chain-of-Visual-Thoughts (COVT)는 continuos visual token space에 ground함
training에서 VLM이 reasoning chain에서 continuous visual tokens를 predict하도록 함 (rich perceptual information을 compact한 latent space로 compress하면서)
이 latent token은 task-specifix lightweight decoder에 의해 decode됨

Related Work
Tool-Augmented Reasoning
Text Space Reasoning
Latent Space Reasoning

Chain-of-Visual-Thought(CoVT)
3.1. Preamble
VLM은 fine-grained visual reasoning에서 2가지 limitation을 가지고 있음
- Text-only CoT accumulates errors
-> short and effective한 reasoning이 필요함 - Supervision is dominated by text responses
-> VLMs이 스스로 fine-grained visual information을 extract하는 능력이 필요함
3.2. CoVT Overall Pipeline
CoVT는 기존의 standard next-token prediction paradigm을 유지함
(frozen vision encoder and language encoder로 extract된 visual and text features가 주어지면 VLMs이 probability of generating a sequence를 estimate함)

3.3. CoVT tokens
VLMs의 vision-centric perceptual abilty는
1) instance recognition
2) 2D and 3D spatial relationships
3) structure detection
4) deep mining of semantic information로 요약될 수 있음
CoVT tokens
1) Segmentation tokens
-> provide instance-level position and shape information
2) Depth tokens
-> provide pixel-level depth information
3) Edge tokens
-> provide geometry-level details
4) DINO tokens
-> provide the patch-level representation of the images
task-oriented model은 more fine-grained
-> Segmentation, Depth, Edge tokens
representation model은 less fine-grained
-> DINO tokens
Experients

COVT outperforms the baseline across the vision-centric benchmarks

Visualization of COVT tokens
기존의 Qwen2.5-VL에서와 달리 정확해진 것을 확인할 수 있음

Text-only CoT vs COVT
Appendix
Method에서 설명하고 있는 방법론이 대략적으로 서술되어있어, 더 자세한 방법을 알기 위해 읽게 되었다.
Additional Details of COVT

Projection Layer


VLM의 latent space를 decoder의 prompt space로 변환하는 과정
Segmentation COVT Token Alignment
mode이 먼저 segmentation token 8개 예측 후, projection layer를 통해 SAM의 Decoder prompt space로 projection됨
SAM Decoder의 high-quality masks를 ground truth로 두고 학습
Depth COVT Token Alignment

model이 Depth token 4개 예측 후 DepthAnything decoder의 prompt space로 projection
DepthAnything v2의 중간 feature와 batch matrix multiplication후 4개의 Depth map 예측 후 평균
Edge COVT Token Alignment

model이 Edge token 4개 예측 후 PIDINet의 prompt space로 projection
이 token을 1x1 convolution kernel로 써서 PIDINet의 각 중간 feature map에서 4개의 edge map 예측 후 평균