Visão Geral
Curso Vision-Language Models em Profundidade. Este curso aprofunda o estudo dos Vision-Language Models (VLMs), arquiteturas capazes de aprender representações conjuntas entre visão computacional e linguagem natural. O conteúdo explora desde os fundamentos teóricos de alinhamento multimodal até arquiteturas avançadas baseadas em Transformers, estratégias de pré-treinamento em larga escala, fine-tuning eficiente e aplicações modernas como captioning, visual question answering, retrieval multimodal e modelos generativos texto-imagem. O foco está na compreensão arquitetural, matemática do alinhamento e desafios de escala e generalização.
Conteúdo Programatico
Module 1: Foundations of Vision-Language Learning
- Motivation for vision-language integration
- Historical evolution of VLMs
- Joint representation learning
- Multimodal alignment challenges
Module 2: Visual and Text Encoders
- CNNs and Vision Transformers for visual encoding
- Tokenization and text encoders
- Shared vs dual-encoder architectures
- Embedding normalization and projection heads
Module 3: Vision-Language Alignment Objectives
- Contrastive learning objectives
- Matching and ranking losses
- Masked language and masked vision modeling
- Cross-modal consistency constraints
Module 4: Cross-Attention Architectures
- Encoder-only fusion models
- Encoder-decoder fusion models
- Cross-attention layers
- Computational trade-offs
Module 5: Large-Scale Pretraining
- Web-scale multimodal datasets
- Data filtering and curation
- Scaling laws for VLMs
- Compute and memory considerations
Module 6: Fine-Tuning and Adaptation
- Task-specific fine-tuning
- Parameter-efficient fine-tuning
- Prompt-based adaptation
- Zero-shot and few-shot transfer
Module 7: Vision-Language Applications
- Image captioning
- Visual question answering
- Multimodal retrieval
- Grounded language understanding
Module 8: Generative Vision-Language Models
- Text-to-image generation
- Image editing with language
- Multimodal diffusion models
- Evaluation metrics for generative VLMs