Curso Model Parallelism: Building and Deploying Large Neural Networks Training
8hVisão Geral
Redes neurais profundas (DNNs) muito grandes, sejam aplicadas ao processamento de linguagem natural (por exemplo, GPT-3), visão computacional (por exemplo, enormes transformadores de visão) ou IA de fala (por exemplo, Wave2Vec 2) têm certas propriedades que os diferenciam de suas contrapartes menores. À medida que as DNNs se tornam maiores e são treinadas em conjuntos de dados cada vez maiores, elas podem se adaptar a novas tarefas com apenas alguns exemplos de treinamento, acelerando o caminho em direção à inteligência artificial geral. Modelos de treinamento que contêm dezenas a centenas de bilhões de parâmetros em vastos conjuntos de dados não são triviais e exigem uma combinação única de IA, computação de alto desempenho (HPC) e conhecimento de sistemas. O objetivo deste curso é demonstrar como treinar as maiores redes neurais e implantá-las em produção.
Objetivo
Após concluir este Curso Model Parallelism: Building and Deploying Large Neural Networks Training, você será capaz de:
- Treine redes neurais em vários servidores.
- Use técnicas como checkpoint de ativação, acumulação de gradiente e várias formas de paralelismo de modelo para superar os desafios associados ao consumo de memória de modelos grandes.
- Capture e entenda as características de desempenho do treinamento para otimizar a arquitetura do modelo.
- Implante modelos multi-GPU muito grandes em produção usando o NVIDIA Triton™ Inference Server.
Pre-Requisitos
- Bom entendimento do PyTorch
- Boa compreensão dos conceitos de aprendizado profundo e treinamento paralelo de dados
- A prática com treinamento multi-GPU e processamento de linguagem natural é útil, mas opcional
Materiais
Inglês/Português/Lab PraticoConteúdo Programatico
- Introduction
- Introduction to Training of Large Models
-
- Learn about the motivation behind and key challenges of training large models.
- Get an overview of the basic techniques and tools needed for large-scale training.
- Get an introduction to distributed training and the Slurm job scheduler.
- Train a Megatron-LM-based GPT model using data parallelism.
- Profile the training process and understand execution performance.
- Model Parallelism: Advanced Topics
-
- Increase the model size using a range of memory-saving techniques.
- Get an introduction to tensor and pipeline parallelism.
- Go beyond natural language processing and get an introduction to DeepSpeed.
- Auto-tune model performance.
- Learn about mixture-of-experts models.
- Inference of Large Models
-
- Understand the challenges of deployment associated with large models.
- Explore techniques for model reduction.
- Learn how to use NVIDIA® TensorRT™ and Faster Transformer libraries.
- Learn how to use Triton Inference Server.
- Understand the process of deploying GPT checkpoint to production.
- See an example of prompt engineering.
- Final Review