Visão Geral
Curso Audio-Visual Transformers. Este curso aprofunda o estudo de arquiteturas Audio-Visual Transformers, modelos capazes de aprender representações conjuntas entre sinais de áudio e dados visuais (imagem e vídeo). O conteúdo aborda fundamentos teóricos, arquiteturas baseadas em Transformers, mecanismos de atenção temporal e espacial, estratégias de fusão multimodal, pré-treinamento em larga escala e aplicações práticas como reconhecimento de fala audiovisual, análise de eventos, sincronização áudio-vídeo e compreensão multimodal de cenas. O foco está na compreensão arquitetural, alinhamento temporal e desafios de treinamento e escalabilidade.
Objetivo
Após realizar este Curso Audio-Visual Transformers, você será capaz de:
- Compreender a integração entre áudio e visão em modelos Transformers
- Analisar arquiteturas Audio-Visual baseadas em atenção
- Entender mecanismos de alinhamento temporal entre modalidades
- Projetar pipelines de pré-processamento de áudio e vídeo
- Avaliar aplicações práticas de modelos áudio-visuais
- Compreender desafios de escala, latência e robustez
Publico Alvo
-
- Engenheiros de machine learning e deep learning
- Cientistas de dados
- Engenheiros de software interessados em IA multimodal
- Pesquisadores e arquitetos de soluções em IA
-
Pre-Requisitos
-
- Python intermediário
- Fundamentos de deep learning
- Conhecimento de Transformers
- Noções básicas de processamento de sinais ou visão computacional
-
Materiais
Ingles/Portugues
Conteúdo Programatico
Module 1: Introduction to Audio-Visual Learning
- Motivation for audio-visual models
- Audio and video as complementary modalities
- Temporal alignment challenges
- Audio-visual use cases and applications
Module 2: Audio and Visual Representations
- Audio signal representations and spectrograms
- Visual feature extraction from images and video
- Temporal sampling and frame aggregation
- Modality-specific encoders
Module 3: Transformer Architectures for Audio-Visual Data
- Temporal transformers for sequences
- Spatio-temporal attention mechanisms
- Shared vs separate transformer blocks
- Computational complexity considerations
Module 4: Audio-Visual Fusion Strategies
-
Early fusion approaches
-
Late fusion approaches
-
Intermediate fusion with cross-attention
-
Gated and adaptive fusion
Module 5: Audio-Visual Alignment and Synchronization
- Cross-modal temporal attention
- Synchronization and delay modeling
- Audio-visual correspondence learning
- Robustness to misalignment
Module 6: Pretraining Audio-Visual Transformers
- Self-supervised learning objectives
- Contrastive audio-visual learning
- Masked modeling for audio and video
- Dataset scale and curation
Module 7: Audio-Visual Applications
- Audio-visual speech recognition
- Event detection in videos
- Emotion and affect recognition
- Audio-visual scene understanding
Module 8: Deployment and Advanced Topics
- Inference latency and optimization
- Edge and real-time audio-visual models
- Audio-visual foundation models
- Ethical, bias and privacy considerations
TENHO INTERESSE