Visão Geral
Curso Multimodal Foundation Models em Produção. Este curso aborda de forma prática e arquitetural a construção, adaptação, implantação e operação de Multimodal Foundation Models em ambientes de produção. O foco está em modelos que integram múltiplas modalidades — texto, imagem, áudio e vídeo — em escala industrial, cobrindo desde decisões de arquitetura e estratégias de fine-tuning eficiente até inferência otimizada, observabilidade, governança e custos. O curso conecta pesquisa de ponta com engenharia de produção, preparando o aluno para operar modelos multimodais de forma robusta, escalável e segura.
Objetivo
Após realizar este Curso Multimodal Foundation Models em Produção, você será capaz de:
- Projetar arquiteturas de sistemas baseadas em modelos multimodais
- Selecionar e adaptar modelos fundacionais multimodais
- Aplicar fine-tuning eficiente em ambientes produtivos
- Implementar pipelines de inferência multimodal escaláveis
- Monitorar desempenho, custo e qualidade de modelos em produção
- Lidar com riscos, vieses, segurança e governança de IA
Publico Alvo
-
- Engenheiros de machine learning e deep learning
- Engenheiros de MLOps e plataformas de IA
- Cientistas de dados sêniores
- Arquitetos de soluções de IA
- Profissionais que atuam com LLMs e modelos multimodais em produção
-
Pre-Requisitos
-
- Experiência com deep learning e Transformers
- Conhecimento de modelos fundacionais
- Programação intermediária/avançada em Python
- Noções de MLOps e sistemas distribuídos
-
Materiais
Ingles/Portugues
Conteúdo Programatico
Module 1: Multimodal Foundation Models Overview
- Definition and characteristics of multimodal foundation models
- Modalities and joint representations
- Model families and architectural patterns
- Research vs production gap
Module 2: System Architecture for Multimodal AI
- End-to-end multimodal pipelines
- Data ingestion and preprocessing
- Online vs batch inference
- Latency, throughput and cost trade-offs
Module 3: Model Selection and Adaptation
- Open-source vs proprietary multimodal models
- Fine-tuning strategies
- Parameter-efficient fine-tuning (PEFT)
- Prompting and adapters in production
Module 4: Multimodal Inference at Scale
- Model serving architectures
- GPU and accelerator utilization
- Batching and caching strategies
- Streaming multimodal inference
Module 5: Retrieval-Augmented Multimodal Systems
- Multimodal embeddings and indexing
- Vector databases for multimodal data
- Multimodal RAG architectures
- Grounding and hallucination mitigation
Module 6: Evaluation and Observability
- Offline and online evaluation
- Multimodal metrics and benchmarks
- Monitoring quality and drift
- Logging, tracing and feedback loops
Module 7: Reliability, Security and Governance
- Model robustness and failure modes
- Bias and fairness in multimodal models
- Security, privacy and data leakage
- Compliance and responsible AI
Module 8: Cost Optimization and Operations
- Cost modeling for multimodal inference
- Model compression and quantization
- Autoscaling and capacity planning
- Incident response and continuous improvement
TENHO INTERESSE