Curso Dask Fundamentals

  • DevOps | CI | CD | Kubernetes | Web3

Curso Dask Fundamentals

16 horas
Visão Geral

O curso Dask Fundamentals é projetado para introduzir os fundamentos do Dask, uma poderosa biblioteca de computação paralela e distribuída para Python. Ele permite que você execute operações em grandes volumes de dados e utilize recursos de computação distribuída para escalar programas em um ambiente local ou em clusters. Durante o curso Dask Fundamentals, você aprenderá como o Dask amplia bibliotecas como pandas, NumPy e scikit-learn, facilitando o processamento de dados massivos e a execução de tarefas computacionalmente intensivas.

Objetivo

Após realizar este Curso Dask Fundamentals, você será capaz de:

  • Compreender os conceitos básicos de Dask e sua arquitetura.
  • Utilizar Dask para manipulação eficiente de grandes volumes de dados.
  • Escalar operações de bibliotecas como pandas, NumPy e scikit-learn com Dask.
  • Aplicar computação paralela e distribuída com Dask para otimizar o desempenho.
  • Implementar tarefas de processamento de dados em clusters Dask.
Publico Alvo
  • Desenvolvedores e engenheiros de dados que trabalham com grandes volumes de dados.
  • Cientistas de dados que precisam de uma solução escalável para manipulação de dados.
  • Profissionais que desejam otimizar pipelines de processamento de dados.
  • Usuários de pandas, NumPy ou scikit-learn que buscam uma maneira de escalar seus códigos.
Pre-Requisitos
  • Conhecimento intermediário de Python.
  • Familiaridade com bibliotecas como pandas, NumPy e scikit-learn.
  • Experiência básica com processamento de dados.
Materiais
Inglês + Exercícios + Lab Pratico
Conteúdo Programatico

Módulo 1: Introdução ao Dask

  1. O que é Dask e por que usá-lo?
  2. Comparação entre Dask, pandas e Spark.
  3. Arquitetura de Dask: grafos de tarefas e paralelismo.
  4. Instalação e configuração do ambiente Dask.
  5. O Dask Dashboard: monitoramento de tarefas e clusters.

Módulo 2: Dask Collections: Arrays, DataFrames e Bags

  1. Introdução às coleções do Dask.
  2. Dask Arrays: manipulação de grandes arrays multidimensionais.
  3. Dask DataFrames: escalando operações pandas com Dask.
  4. Dask Bags: processamento de dados semi-estruturados e não estruturados.
  5. Comparação de desempenho entre operações com Dask e pandas/NumPy.

Módulo 3: Operações Paralelas em Dask

  1. Fundamentos da computação paralela.
  2. Como Dask divide e distribui o trabalho.
  3. Execução de operações paralelas em grandes datasets.
  4. Controlando o número de workers e threads.
  5. Casos práticos: Operações em grande escala com Dask DataFrames.

Módulo 4: Integração de Dask com pandas, NumPy e scikit-learn

  1. Integração do Dask com bibliotecas populares de manipulação de dados.
  2. Operações pandas com Dask DataFrames.
  3. Computação científica com Dask Arrays e NumPy.
  4. Machine learning escalável com Dask e scikit-learn.
  5. Exemplo prático: Treinamento de modelos de machine learning com Dask.

Módulo 5: Processamento Distribuído e Escalabilidade com Dask

  1. Noções básicas sobre clusters distribuídos.
  2. Configuração de um cluster Dask em uma máquina local.
  3. Configuração de um cluster Dask em nuvem (AWS, GCP, Azure).
  4. Distribuição de tarefas e escalabilidade automática.
  5. Exemplo prático: Execução de tarefas distribuídas em um cluster Dask.

Módulo 6: Monitoramento e Otimização de Performance

  1. Dask Dashboard: Monitoramento e diagnóstico de tarefas.
  2. Ferramentas para monitoramento de performance.
  3. Identificação e solução de gargalos de desempenho.
  4. Dicas de otimização de código para computação distribuída.
  5. Exemplo prático: Melhorando a eficiência de um pipeline de dados com Dask.

Módulo 7: Implementando Fluxos de Trabalho com Dask Delayed e Futures

  1. Introdução a Dask Delayed: paralelizando funções arbitrárias.
  2. Criando grafos de tarefas personalizados com Dask.
  3. Dask Futures: Computação assíncrona e distribuída.
  4. Exemplo prático: Criação de um pipeline de dados customizado com Dask Delayed.

Módulo 8: Casos Práticos e Aplicações de Dask

  1. Aplicações reais de Dask em ciência de dados.
  2. Exemplo prático: Processamento de grandes datasets de séries temporais.
  3. Exemplo prático: Processamento de dados massivos em um ambiente de produção.
  4. Exercícios práticos: Resolução de problemas e desafios com Dask.
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h