Curso Arquiteturas Multimodais com Transformers

  • Architecture

Curso Arquiteturas Multimodais com Transformers

24 horas
Visão Geral

Curso Arquiteturas Multimodais com Transformers. Este curso explora de forma aprofundada as arquiteturas multimodais baseadas em Transformers, responsáveis por integrar e processar múltiplos tipos de dados — como texto, imagem, áudio, vídeo e sinais — em um único modelo de aprendizado profundo. O curso aborda fundamentos teóricos, escolhas arquiteturais, estratégias de fusão multimodal, pré-treinamento em larga escala e aplicações práticas em sistemas modernos de inteligência artificial, com foco em desempenho, escalabilidade e generalização.

Objetivo

Após realizar este Curso Arquiteturas Multimodais com Transformers, você será capaz de:

  • Compreender os princípios de modelos multimodais
  • Analisar arquiteturas baseadas em Transformers para múltiplas modalidades
  • Entender estratégias de fusão precoce, tardia e intermediária
  • Projetar pipelines de pré-processamento multimodal
  • Avaliar aplicações práticas de modelos multimodais
  • Compreender desafios de treinamento e escalabilidade
Publico Alvo
  •  
  • Engenheiros de machine learning e deep learning
  • Cientistas de dados
  • Engenheiros de software interessados em IA multimodal
  • Pesquisadores e arquitetos de soluções em IA
  •  
Pre-Requisitos
  •  
  • Python intermediário
  • Fundamentos de deep learning
  • Conhecimento de Transformers
  • Álgebra linear e cálculo diferencial
  •  
Materiais
Ingles/Portugues
Conteúdo Programatico

Module 1: Introduction to Multimodal Learning

  1. Definition and motivation of multimodal models
  2. Modalities: text, vision, audio and signals
  3. Challenges in multimodal representation
  4. Use cases and applications

Module 2: Transformer-Based Representations

  1. Unified token representations
  2. Embeddings across modalities
  3. Modality-specific encoders
  4. Shared vs separate representation spaces

Module 3: Multimodal Fusion Strategies

  1. Early fusion architectures
  2. Late fusion architectures
  3. Intermediate fusion with cross-attention
  4. Gated and hierarchical fusion

Module 4: Cross-Attention and Co-Attention

  1. Cross-attention mechanisms
  2. Co-attention architectures
  3. Alignment between modalities
  4. Temporal and spatial attention

Module 5: Pretraining Multimodal Transformers

  1. Contrastive learning for multimodal data
  2. Masked modeling across modalities
  3. Alignment and matching objectives
  4. Data scaling and curriculum learning

Module 6: Vision-Language Models

  1. Image-text joint representations
  2. Captioning and visual question answering
  3. Vision transformers integration
  4. Retrieval-based multimodal models

Module 7: Audio and Video Multimodal Models

  1. Audio-text models
  2. Speech and language transformers
  3. Video transformers
  4. Temporal multimodal fusion

Module 8: Deployment and Advanced Topics

  1. Inference optimization for multimodal models
  2. Latency and memory considerations
  3. Multimodal foundation models
  4. Ethical, bias and robustness considerations
TENHO INTERESSE

Cursos Relacionados

Curso TOGAF 9 Fundamentos Nível 1

16 horas

Curso Architecture Modeling with UAF

16 horas

Curso TOGAF 9.2 Nível I & II Exame Togaf 9.2

24 Horas

Curso Microservices Engineering

24 horas