Visão Geral
Curso Arquiteturas Multimodais com Transformers. Este curso explora de forma aprofundada as arquiteturas multimodais baseadas em Transformers, responsáveis por integrar e processar múltiplos tipos de dados — como texto, imagem, áudio, vídeo e sinais — em um único modelo de aprendizado profundo. O curso aborda fundamentos teóricos, escolhas arquiteturais, estratégias de fusão multimodal, pré-treinamento em larga escala e aplicações práticas em sistemas modernos de inteligência artificial, com foco em desempenho, escalabilidade e generalização.
Objetivo
Após realizar este Curso Arquiteturas Multimodais com Transformers, você será capaz de:
- Compreender os princípios de modelos multimodais
- Analisar arquiteturas baseadas em Transformers para múltiplas modalidades
- Entender estratégias de fusão precoce, tardia e intermediária
- Projetar pipelines de pré-processamento multimodal
- Avaliar aplicações práticas de modelos multimodais
- Compreender desafios de treinamento e escalabilidade
Publico Alvo
-
- Engenheiros de machine learning e deep learning
- Cientistas de dados
- Engenheiros de software interessados em IA multimodal
- Pesquisadores e arquitetos de soluções em IA
-
Pre-Requisitos
-
- Python intermediário
- Fundamentos de deep learning
- Conhecimento de Transformers
- Álgebra linear e cálculo diferencial
-
Materiais
Ingles/Portugues
Conteúdo Programatico
Module 1: Introduction to Multimodal Learning
- Definition and motivation of multimodal models
- Modalities: text, vision, audio and signals
- Challenges in multimodal representation
- Use cases and applications
Module 2: Transformer-Based Representations
- Unified token representations
- Embeddings across modalities
- Modality-specific encoders
- Shared vs separate representation spaces
Module 3: Multimodal Fusion Strategies
- Early fusion architectures
- Late fusion architectures
- Intermediate fusion with cross-attention
- Gated and hierarchical fusion
Module 4: Cross-Attention and Co-Attention
- Cross-attention mechanisms
- Co-attention architectures
- Alignment between modalities
- Temporal and spatial attention
Module 5: Pretraining Multimodal Transformers
- Contrastive learning for multimodal data
- Masked modeling across modalities
- Alignment and matching objectives
- Data scaling and curriculum learning
Module 6: Vision-Language Models
- Image-text joint representations
- Captioning and visual question answering
- Vision transformers integration
- Retrieval-based multimodal models
Module 7: Audio and Video Multimodal Models
- Audio-text models
- Speech and language transformers
- Video transformers
- Temporal multimodal fusion
Module 8: Deployment and Advanced Topics
- Inference optimization for multimodal models
- Latency and memory considerations
- Multimodal foundation models
- Ethical, bias and robustness considerations
TENHO INTERESSE