Visão Geral
Curso TorchAudio para Deep Learning e Speech Processing. Este curso apresenta o TorchAudio como principal biblioteca para processamento de áudio e fala no ecossistema PyTorch. O aluno aprenderá desde a manipulação de sinais acústicos até a construção de pipelines completos para treinamento de modelos de speech, áudio e aprendizado multimodal, com foco em eficiência, escalabilidade e integração com Deep Learning moderno.
Objetivo
Após realizar este curso TorchAudio para Deep Learning e Speech Processing, você será capaz de:
- Manipular e transformar sinais de áudio com TorchAudio
- Extrair features acústicas para modelos de Deep Learning
- Construir pipelines de dados eficientes para áudio
- Integrar TorchAudio com modelos PyTorch
- Preparar dados para tarefas de speech e áudio multimodal
Publico Alvo
-
- Engenheiros de Machine Learning
- Engenheiros de Speech Processing
- Cientistas de Dados
- Pesquisadores em Deep Learning
- Desenvolvedores de IA multimodal
-
Pre-Requisitos
-
- Python intermediário
- Fundamentos de Deep Learning
- Conhecimento básico de PyTorch
- Noções de sinais e sistemas
-
Materiais
Ingles/Portugues
Conteúdo Programatico
Module 1: Introduction to TorchAudio
- TorchAudio Ecosystem
- Audio I/O and Formats
- Waveform Representation
- Dataset Utilities
Module 2: Audio Signal Processing
- Sampling Rate and Resampling
- Audio Normalization
- Time-Domain Transformations
- Frequency-Domain Transformations
Module 3: Spectrograms and Features
- STFT and Inverse STFT
- Mel Spectrograms
- MFCC
- Feature Augmentation
Module 4: Audio Datasets and Pipelines
- Dataset Abstractions
- DataLoader Optimization
- Streaming and Large Datasets
- On-the-Fly Transformations
Module 5: TorchAudio with Deep Learning
- Speech Encoder Integration
- Audio Classification Models
- Speech Recognition Pipelines
- Multimodal Audio Applications
TENHO INTERESSE