Curso Speech and Vision Multimodal Models

  • RPA | IA | AGI | ASI | ANI | IoT | PYTHON | DEEP LEARNING

Curso Speech and Vision Multimodal Models

24 horas
Visão Geral

Curso Speech and Vision Multimodal Models. Este curso explora o desenvolvimento de modelos multimodais que integram fala (speech) e visão computacional, abordando desde a representação conjunta de sinais acústicos e visuais até arquiteturas avançadas baseadas em Transformers. O foco está na construção de modelos capazes de compreender, alinhar e raciocinar sobre informações provenientes de áudio de fala e vídeo/imagens, com aplicações em reconhecimento audiovisual de fala, assistentes inteligentes, interação humano-máquina, robótica e sistemas perceptivos multimodais.

Objetivo

Após realizar este curso Speech and Vision Multimodal Models, você será capaz de:

  • Compreender os desafios e oportunidades da modelagem multimodal speech-vision
  • Projetar representações conjuntas para fala e visão
  • Implementar mecanismos de alinhamento temporal entre áudio e vídeo
  • Desenvolver modelos multimodais baseados em Transformers
  • Aplicar técnicas self-supervised e contrastive para speech-vision
  • Avaliar modelos multimodais em tarefas reais
Publico Alvo
  •  
  • Engenheiros de Machine Learning
  • Cientistas de Dados
  • Pesquisadores em Multimodal Learning
  • Engenheiros de Visão Computacional
  • Engenheiros de Speech Processing
  • Profissionais de IA aplicada a interação humano-máquina
  •  
Pre-Requisitos
  •  
  • Fundamentos de Deep Learning
  • Redes neurais convolucionais e recorrentes
  • Noções de processamento de fala e áudio
  • Visão computacional básica
  • Programação em Python com frameworks de Deep Learning
  •  
Materiais
Ingles/Portugues
Conteúdo Programatico

Module 1: Introduction to Speech and Vision Multimodality

  1. Multimodal Perception in AI Systems
  2. Speech and Vision Complementarity
  3. Historical Evolution of Multimodal Models
  4. Applications and Use Cases

Module 2: Fundamentals of Speech Representation

  1. Speech Signal Characteristics
  2. Spectrograms and Acoustic Features
  3. Deep Speech Encoders
  4. Temporal Modeling of Speech

Module 3: Fundamentals of Visual Representation

  1. Image and Video Feature Extraction
  2. Spatial and Temporal Visual Modeling
  3. CNNs and Vision Transformers
  4. Visual Attention Mechanisms

Module 4: Speech-Visual Alignment and Synchronization

  1. Temporal Alignment Challenges
  2. Audio-Visual Synchrony
  3. Lip Reading and Visual Speech Cues
  4. Cross-Modal Alignment Techniques

Module 5: Multimodal Fusion Strategies

  1. Early Fusion Architectures
  2. Late Fusion Architectures
  3. Hybrid and Hierarchical Fusion
  4. Cross-Modal Attention

Module 6: Transformer-Based Speech and Vision Models

  1. Multimodal Transformer Architectures
  2. Cross-Attention for Speech and Vision
  3. Shared vs Modality-Specific Encoders
  4. Scaling Multimodal Transformers

Module 7: Self-Supervised and Contrastive Learning

  1. Self-Supervised Pretraining for Speech and Vision
  2. Contrastive Objectives for Multimodal Learning
  3. Masked Modeling for Audio-Visual Data
  4. Transfer Learning to Downstream Tasks

Module 8: Downstream Tasks and Applications

  1. Audio-Visual Speech Recognition
  2. Visual Question Answering with Speech
  3. Multimodal Emotion Recognition
  4. Human-Computer Interaction Systems

Module 9: Evaluation and Deployment

  1. Multimodal Evaluation Protocols
  2. Robustness and Generalization
  3. Real-Time Inference Constraints
  4. Ethical Considerations in Multimodal AI
TENHO INTERESSE

Cursos Relacionados

Curso AI ML Toolkits with Kubeflow Foundation

24 horas

Curso Container Management with Docker

24 Horas

Curso Machine Learning Python & R In Data Science

32 Horas

Curso Docker for Developers and System Administrators

16 horas

Curso artificial inteligence AI for Everyone Foundation

16 horas

Curso IA Inteligência Artificial e Código Aberto Foundation

16 horas

Curso Artificial Intelligence with Azure

24 Horas

Curso RPA Robotic Process Automation Industria 4.0

32 horas