Curso Self-Supervised Audio-Visual Learning

  • RPA | IA | AGI | ASI | ANI | IoT | PYTHON | DEEP LEARNING

Curso Self-Supervised Audio-Visual Learning

24 horas
Visão Geral

Curso Self-Supervised Audio-Visual Learning. Este curso aborda os fundamentos teóricos e práticos do Self-Supervised Audio-Visual Learning, uma área avançada de aprendizado profundo que explora sinais multimodais de áudio e vídeo sem a necessidade de rótulos explícitos. O curso cobre princípios de aprendizado auto-supervisionado, alinhamento cross-modal, representação compartilhada, arquiteturas baseadas em Transformers e contrastive learning, preparando o aluno para pesquisa aplicada e desenvolvimento de sistemas multimodais escaláveis em cenários reais como reconhecimento de fala, compreensão de vídeo, robótica e sistemas perceptivos inteligentes.

Objetivo

Após realizar este Curso Self-Supervised Audio-Visual Learning, você será capaz de:

  • Compreender os princípios do aprendizado auto-supervisionado multimodal
  • Projetar tarefas de pretext para áudio e vídeo
  • Implementar modelos de alinhamento e fusão áudio-visual
  • Aplicar contrastive learning para representação multimodal
  • Desenvolver pipelines de treinamento self-supervised em larga escala
  • Avaliar e transferir representações aprendidas para tarefas downstream
Publico Alvo
  •  
  • Engenheiros de Machine Learning
  • Cientistas de Dados
  • Pesquisadores em Deep Learning e Multimodal Learning
  • Engenheiros de Visão Computacional
  • Profissionais de IA aplicada a áudio e vídeo
  •  
Pre-Requisitos

  •  
  • Álgebra linear e probabilidade
  • Fundamentos de Deep Learning
  • Redes neurais convolucionais e recorrentes
  • Noções básicas de processamento de sinais de áudio
  • Programação em Python com frameworks de Deep Learning
  •  
Materiais
Ingles/Portugues
Conteúdo Programatico

Module 1: Foundations of Self-Supervised Learning

  1. Supervised vs Unsupervised vs Self-Supervised Learning
  2. Pretext Tasks and Proxy Objectives
  3. Representation Learning Principles
  4. Information Theory and Mutual Information

Module 2: Audio and Visual Signal Fundamentals

  1. Digital Audio Signals and Spectrograms
  2. Video Representation and Temporal Modeling
  3. Feature Extraction for Audio and Video
  4. Synchronization and Temporal Alignment

Module 3: Audio-Visual Correspondence Learning

  1. Cross-Modal Consistency Assumptions
  2. Audio-Visual Synchrony Detection
  3. Temporal Misalignment as Supervision
  4. Positive and Negative Pair Construction

Module 4: Contrastive Learning for Audio-Visual Data

  1. Contrastive Loss Functions
  2. InfoNCE and Variants
  3. Memory Banks and Large-Batch Training
  4. Hard Negative Mining

Module 5: Architectures for Audio-Visual Self-Supervision

  1. CNN-Based Audio-Visual Encoders
  2. Transformer-Based Multimodal Models
  3. Cross-Attention Mechanisms
  4. Late Fusion vs Early Fusion

Module 6: Large-Scale Pretraining Strategies

  1. Dataset Construction without Labels
  2. Sampling and Augmentation Strategies
  3. Distributed Training for Multimodal Models
  4. Stability and Collapse Prevention

Module 7: Downstream Tasks and Transfer Learning

  1. Audio-Visual Speech Recognition
  2. Video Event Understanding
  3. Sound Source Localization
  4. Action Recognition with Audio Cues

Module 8: Evaluation and Benchmarking

  1. Linear Probing Protocols
  2. Fine-Tuning Strategies
  3. Cross-Dataset Generalization
  4. Multimodal Representation Metrics

Module 9: Advanced Topics and Research Frontiers

  1. Masked Modeling for Audio-Visual Data
  2. Foundation Models for Multimodal Learning
  3. Self-Supervised Learning in Robotics and Embodied AI
  4. Ethical and Bias Considerations in Multimodal Models
TENHO INTERESSE

Cursos Relacionados

Curso AI ML Toolkits with Kubeflow Foundation

24 horas

Curso Container Management with Docker

24 Horas

Curso Machine Learning Python & R In Data Science

32 Horas

Curso Docker for Developers and System Administrators

16 horas

Curso artificial inteligence AI for Everyone Foundation

16 horas

Curso IA Inteligência Artificial e Código Aberto Foundation

16 horas

Curso Artificial Intelligence with Azure

24 Horas

Curso RPA Robotic Process Automation Industria 4.0

32 horas