Curso Fundamentals of Accelerated Computing with CUDA Python Training

  • Machine Learning

Curso Fundamentals of Accelerated Computing with CUDA Python Training

8h
Visão Geral

Este curso ensina as ferramentas e técnicas fundamentais para executar aplicativos Python acelerados por GPU usando GPUs CUDA e o compilador Numba. Você trabalhará em dezenas de exercícios práticos de codificação e, ao final do treinamento, implementará um novo fluxo de trabalho para acelerar um programa de álgebra linear totalmente funcional, originalmente projetado para CPUs, observando ganhos de desempenho impressionantes. Após o término do workshop, você terá recursos adicionais para ajudá-lo a criar novos aplicativos acelerados por GPU por conta própria.

 

Objetivo

Após concluir este Curso Fundamentals of Accelerated Computing with CUDA Python Training, você será capaz de:

 

  • Ufuncs NumPy acelerados por GPU com algumas linhas de código.
  • Configure a paralelização de código usando a hierarquia de threads CUDA.
  • Escreva kernels de dispositivos CUDA personalizados para máximo desempenho e flexibilidade.
  • Use a união de memória e a memória compartilhada no dispositivo para aumentar a largura de banda do kernel CUDA.
Pre-Requisitos
  • Competência básica em Python, incluindo familiaridade com tipos de variáveis, loops, instruções condicionais, funções e manipulações de array
  • Competência NumPy, incluindo o uso de ndarrays e ufuncs
  • Nenhum conhecimento prévio de programação CUDA é necessário
Materiais
Inglês/Português/Lab Pratico
Conteúdo Programatico
  • Introduction
  • Introduction to CUDA Python with Numba
    1. Begin working with the Numba compiler and CUDA programming in Python.
    2. Use Numba decorators to GPU-accelerate numerical Python functions.
    3. Optimize host-to-device and device-to-host memory transfers.
  • Custom CUDA Kernels in Python with Numba
    1. Learn CUDA’s parallel thread hierarchy and how to extend parallel program possibilities.
    2. Launch massively parallel custom CUDA kernels on the GPU.
    3. Utilize CUDA atomic operations to avoid race conditions during parallel execution.
  • Multidimensional Grids, and Shared Memory for CUDA Python with Numba
    1. Learn multidimensional grid creation and how to work in parallel on 2D matrices.
    2. Leverage on-device shared memory to promote memory coalescing while reshaping 2D matrices.
  • Final Review
TENHO INTERESSE

Cursos Relacionados

Curso Deep Learning Prático em Redes Neurais Artificiais

24 horas

Curso Especialista em Machine Learning

24 Horas

Curso Machine Learning AI Foundation

24 Horas

Curso Física Quântica e Matemática para Computação Quântica

16 horas

Practical Data Science with Python

24 horas

Fundamentals of Statistics for Data Analysis

24h

Machine Learning with Amazon SageMaker

16h

Curso Algorithms of Machine Learning

24h