Curso Vision-Language Models em Profundidade

  • RPA | IA | AGI | ASI | ANI | IoT | PYTHON | DEEP LEARNING

Curso Vision-Language Models em Profundidade

24 horas
Visão Geral

Curso Vision-Language Models em Profundidade. Este curso aprofunda o estudo dos Vision-Language Models (VLMs), arquiteturas capazes de aprender representações conjuntas entre visão computacional e linguagem natural. O conteúdo explora desde os fundamentos teóricos de alinhamento multimodal até arquiteturas avançadas baseadas em Transformers, estratégias de pré-treinamento em larga escala, fine-tuning eficiente e aplicações modernas como captioning, visual question answering, retrieval multimodal e modelos generativos texto-imagem. O foco está na compreensão arquitetural, matemática do alinhamento e desafios de escala e generalização.

Objetivo

Após realizar este Curso Vision-Language Models em Profundidade, você será capaz de:

  • Compreender profundamente o alinhamento entre visão e linguagem
  • Analisar arquiteturas modernas de Vision-Language Models
  • Entender objetivos de pré-treinamento multimodal
  • Projetar pipelines de fine-tuning para tarefas visuo-linguísticas
  • Avaliar modelos VLM em diferentes aplicações
  • Compreender limitações, vieses e desafios de escala
Publico Alvo
  • Engenheiros de machine learning e deep learning
  • Cientistas de dados
  • Engenheiros de software interessados em IA multimodal
  • Pesquisadores e arquitetos de soluções em IA
Pre-Requisitos
  •  
  • Python intermediário
  • Fundamentos de deep learning
  • Conhecimentos sólidos em Transformers
  • Noções de visão computacional e NLP
  •  
Materiais
Ingles/Portugues
Conteúdo Programatico

Module 1: Foundations of Vision-Language Learning

  1. Motivation for vision-language integration
  2. Historical evolution of VLMs
  3. Joint representation learning
  4. Multimodal alignment challenges

Module 2: Visual and Text Encoders

  1. CNNs and Vision Transformers for visual encoding
  2. Tokenization and text encoders
  3. Shared vs dual-encoder architectures
  4. Embedding normalization and projection heads

Module 3: Vision-Language Alignment Objectives

  1. Contrastive learning objectives
  2. Matching and ranking losses
  3. Masked language and masked vision modeling
  4. Cross-modal consistency constraints

Module 4: Cross-Attention Architectures

  1. Encoder-only fusion models
  2. Encoder-decoder fusion models
  3. Cross-attention layers
  4. Computational trade-offs

Module 5: Large-Scale Pretraining

  1. Web-scale multimodal datasets
  2. Data filtering and curation
  3. Scaling laws for VLMs
  4. Compute and memory considerations

Module 6: Fine-Tuning and Adaptation

  1. Task-specific fine-tuning
  2. Parameter-efficient fine-tuning
  3. Prompt-based adaptation
  4. Zero-shot and few-shot transfer

Module 7: Vision-Language Applications

  1. Image captioning
  2. Visual question answering
  3. Multimodal retrieval
  4. Grounded language understanding

Module 8: Generative Vision-Language Models

  1. Text-to-image generation
  2. Image editing with language
  3. Multimodal diffusion models
  4. Evaluation metrics for generative VLMs
TENHO INTERESSE

Cursos Relacionados

Curso AI ML Toolkits with Kubeflow Foundation

24 horas

Curso Container Management with Docker

24 Horas

Curso Machine Learning Python & R In Data Science

32 Horas

Curso Docker for Developers and System Administrators

16 horas

Curso artificial inteligence AI for Everyone Foundation

16 horas

Curso IA Inteligência Artificial e Código Aberto Foundation

16 horas

Curso Artificial Intelligence with Azure

24 Horas

Curso RPA Robotic Process Automation Industria 4.0

32 horas