Curso Model Parallelism: Building and Deploying Large Neural Networks Training

  • Machine Learning

Curso Model Parallelism: Building and Deploying Large Neural Networks Training

8h
Visão Geral

Redes neurais profundas (DNNs) muito grandes, sejam aplicadas ao processamento de linguagem natural (por exemplo, GPT-3), visão computacional (por exemplo, enormes transformadores de visão) ou IA de fala (por exemplo, Wave2Vec 2) têm certas propriedades que os diferenciam de suas contrapartes menores. À medida que as DNNs se tornam maiores e são treinadas em conjuntos de dados cada vez maiores, elas podem se adaptar a novas tarefas com apenas alguns exemplos de treinamento, acelerando o caminho em direção à inteligência artificial geral. Modelos de treinamento que contêm dezenas a centenas de bilhões de parâmetros em vastos conjuntos de dados não são triviais e exigem uma combinação única de IA, computação de alto desempenho (HPC) e conhecimento de sistemas. O objetivo deste curso é demonstrar como treinar as maiores redes neurais e implantá-las em produção.

Objetivo

Após concluir este Curso Model Parallelism: Building and Deploying Large Neural Networks Training, você será capaz de:

 

  • Treine redes neurais em vários servidores.
  • Use técnicas como checkpoint de ativação, acumulação de gradiente e várias formas de paralelismo de modelo para superar os desafios associados ao consumo de memória de modelos grandes.
  • Capture e entenda as características de desempenho do treinamento para otimizar a arquitetura do modelo.
  • Implante modelos multi-GPU muito grandes em produção usando o NVIDIA Triton™ Inference Server.
Pre-Requisitos
  • Bom entendimento do PyTorch
  • Boa compreensão dos conceitos de aprendizado profundo e treinamento paralelo de dados
  • A prática com treinamento multi-GPU e processamento de linguagem natural é útil, mas opcional
Materiais
Inglês/Português/Lab Pratico
Conteúdo Programatico
  • Introduction
  • Introduction to Training of Large Models
    1. Learn about the motivation behind and key challenges of training large models.
    2. Get an overview of the basic techniques and tools needed for large-scale training.
    3. Get an introduction to distributed training and the Slurm job scheduler.
    4. Train a Megatron-LM-based GPT model using data parallelism.
    5. Profile the training process and understand execution performance.
  • Model Parallelism: Advanced Topics
    1. Increase the model size using a range of memory-saving techniques.
    2. Get an introduction to tensor and pipeline parallelism.
    3. Go beyond natural language processing and get an introduction to DeepSpeed.
    4. Auto-tune model performance.
    5. Learn about mixture-of-experts models.
  • Inference of Large Models
    1. Understand the challenges of deployment associated with large models.
    2. Explore techniques for model reduction.
    3. Learn how to use NVIDIA® TensorRT™ and Faster Transformer libraries.
    4. Learn how to use Triton Inference Server.
    5. Understand the process of deploying GPT checkpoint to production.
    6. See an example of prompt engineering.
  • Final Review
TENHO INTERESSE

Cursos Relacionados

Curso Deep Learning Prático em Redes Neurais Artificiais

24 horas

Curso Especialista em Machine Learning

24 Horas

Curso Machine Learning AI Foundation

24 Horas

Curso Física Quântica e Matemática para Computação Quântica

16 horas

Practical Data Science with Python

24 horas

Fundamentals of Statistics for Data Analysis

24h

Machine Learning with Amazon SageMaker

16h

Curso Algorithms of Machine Learning

24h