Curso Video Transformers em Profundidade

  • RPA | IA | AGI | ASI | ANI | IoT | PYTHON | DEEP LEARNING

Curso Video Transformers em Profundidade

24 horas
Visão Geral

Curso Video Transformers em Profundidade. Este curso aprofunda o estudo de Video Transformers, abordando arquiteturas modernas para modelagem espaço-temporal de vídeos em larga escala. O curso cobre desde os fundamentos de atenção aplicada a sequências visuais até modelos avançados usados em pesquisa e produção, incluindo Vision Transformers temporais, factorized attention, sparse attention, masked video modeling e integração com modelos multimodais. O foco é capacitar o aluno a projetar, treinar e avaliar modelos de vídeo de alto desempenho para tarefas complexas de compreensão visual.

Objetivo

Após realizar este curso Video Transformers em Profundidade, você será capaz de:

  • Compreender os desafios da modelagem espaço-temporal em vídeo
  • Implementar arquiteturas de Video Transformers modernas
  • Projetar mecanismos eficientes de atenção temporal e espacial
  • Aplicar pré-treinamento self-supervised para vídeo
  • Escalar o treinamento de modelos de vídeo em larga escala
  • Avaliar modelos de vídeo em múltiplas tarefas downstream
Publico Alvo
  •  
  • Engenheiros de Machine Learning
  • Engenheiros de Visão Computacional
  • Cientistas de Dados
  • Pesquisadores em Deep Learning
  • Profissionais que trabalham com vídeo e multimodalidade
  •  
Pre-Requisitos
  •  
  • Fundamentos sólidos de Deep Learning
  • Vision Transformers e CNNs
  • Processamento de vídeo básico
  • Álgebra linear e probabilidade
  • Programação em Python com frameworks de Deep Learning
  •  
Materiais
Ingles/Portugues
Conteúdo Programatico

Module 1: Foundations of Video Representation

  1. Video as Spatio-Temporal Data
  2. Frame-Based vs Clip-Based Modeling
  3. Temporal Sampling Strategies
  4. Challenges in Video Understanding

Module 2: From CNNs to Video Transformers

  1. 2D CNNs vs 3D CNNs
  2. Limitations of Convolutional Video Models
  3. Motivation for Transformer-Based Video Models
  4. Tokenization of Video Data

Module 3: Core Video Transformer Architectures

  1. Vanilla Video Transformer
  2. Factorized Spatial-Temporal Attention
  3. Divided vs Joint Attention
  4. Patch Embedding for Video

Module 4: Efficient Attention Mechanisms for Video

  1. Sparse Attention for Long Videos
  2. Sliding Window and Local Attention
  3. Performer and Linear Attention
  4. Memory-Efficient Transformer Variants

Module 5: Temporal Modeling Strategies

  1. Long-Range Temporal Dependencies
  2. Positional Encoding for Video
  3. Temporal Hierarchies
  4. Multi-Scale Temporal Modeling

Module 6: Self-Supervised and Masked Video Modeling

  1. Masked Video Autoencoders
  2. Contrastive Video Representation Learning
  3. Cross-Clip Prediction Tasks
  4. Pretraining at Scale

Module 7: Multimodal Video Transformers

  1. Video-Text Transformers
  2. Audio-Visual Video Models
  3. Cross-Modal Attention
  4. Shared Multimodal Representations

Module 8: Downstream Tasks and Applications

  1. Action Recognition
  2. Video Classification
  3. Video Retrieval
  4. Event Detection

Module 9: Training, Scaling, and Optimization

  1. Large-Scale Video Datasets
  2. Distributed Training for Video Transformers
  3. Memory and Compute Optimization
  4. Stability and Regularization

Module 10: Evaluation and Research Frontiers

  1. Video Benchmarks and Metrics
  2. Generalization Across Domains
  3. Foundation Models for Video
  4. Open Research Challenges
TENHO INTERESSE

Cursos Relacionados

Curso AI ML Toolkits with Kubeflow Foundation

24 horas

Curso Container Management with Docker

24 Horas

Curso Machine Learning Python & R In Data Science

32 Horas

Curso Docker for Developers and System Administrators

16 horas

Curso artificial inteligence AI for Everyone Foundation

16 horas

Curso IA Inteligência Artificial e Código Aberto Foundation

16 horas

Curso Artificial Intelligence with Azure

24 Horas

Curso RPA Robotic Process Automation Industria 4.0

32 horas