Curso Dask for Data Science

  • DevOps | CI | CD | Kubernetes | Web3

Curso Dask for Data Science

16 horas
Visão Geral

O curso Dask for Data Science foi desenvolvido para cientistas de dados que precisam manipular grandes volumes de dados e realizar computações em escala, mas que desejam continuar usando ferramentas familiares como pandas, NumPy e scikit-learn. O Dask possibilita o processamento paralelo e distribuído, permitindo que você trabalhe com datasets que excedem a memória do computador e aumente o desempenho de seus modelos e análises. O curso combina teoria e prática, demonstrando como Dask pode ser uma ferramenta poderosa para escalabilidade em ciência de dados.

Objetivo

Após realizar este curso Dask for Data Science, você será capaz de:

  • Entender como Dask facilita a escalabilidade em projetos de ciência de dados.
  • Utilizar Dask para trabalhar com datasets maiores do que a memória do seu computador.
  • Integrar Dask com pandas, NumPy e scikit-learn para processamento e machine learning distribuído.
  • Construir pipelines de dados eficientes e paralelos usando Dask.
  • Implementar soluções para análise de dados em clusters Dask.
Publico Alvo
  • Cientistas de dados que trabalham com grandes volumes de dados e desejam escalabilidade.
  • Engenheiros de dados que precisam otimizar pipelines de dados e melhorar o desempenho.
  • Analistas de dados que utilizam pandas, NumPy e scikit-learn e buscam aumentar a eficiência.
  • Profissionais de TI e DevOps que precisam gerenciar grandes pipelines de dados em clusters.
Pre-Requisitos
  • Conhecimento intermediário de Python.
  • Familiaridade com bibliotecas como pandas, NumPy e scikit-learn.
  • Experiência em análise de dados e machine learning.
Materiais
Inglês + Exercícios + Lab Pratico
Conteúdo Programatico

Módulo 1: Introdução ao Dask para Ciência de Dados

  1. O que é Dask e sua importância para ciência de dados.
  2. Dask versus outras soluções de big data (Spark, Hadoop, etc.).
  3. Principais coleções do Dask: Arrays, DataFrames, Bags.
  4. Comparação de Dask com pandas e NumPy.
  5. Instalação e configuração do ambiente Dask.

Módulo 2: Manipulando Grandes Volumes de Dados com Dask DataFrames

  1. Introdução ao Dask DataFrames.
  2. Operações escaláveis com Dask DataFrames.
  3. Como dividir e processar dados em paralelo com Dask.
  4. Agregações e operações de grupo em grandes datasets.
  5. Exemplo prático: Processamento de um dataset massivo com Dask DataFrames.

Módulo 3: Processamento Científico com Dask Arrays

  1. Utilizando Dask Arrays para computação científica.
  2. Manipulação de grandes arrays multidimensionais com Dask.
  3. Paralelizando operações NumPy com Dask Arrays.
  4. Comparação de performance entre Dask e NumPy.
  5. Exemplo prático: Processamento de grandes matrizes de dados com Dask Arrays.

Módulo 4: Machine Learning Escalável com Dask e scikit-learn

  1. Integração de Dask com scikit-learn para machine learning distribuído.
  2. Treinamento de modelos de machine learning em dados grandes.
  3. Utilizando Dask para pré-processamento de dados em pipelines de machine learning.
  4. Como escalar pipelines de aprendizado supervisionado e não supervisionado.
  5. Exemplo prático: Treinamento de um modelo de regressão em um cluster Dask.

Módulo 5: Computação Paralela e Distribuída em Ciência de Dados

  1. Conceitos de computação paralela com Dask.
  2. Como Dask paraleliza operações e distribui tarefas.
  3. Execução de tarefas distribuídas em clusters de Dask.
  4. Como configurar um cluster Dask para processamento distribuído.
  5. Exemplo prático: Escalonamento de uma pipeline de ciência de dados com Dask em um cluster.

Módulo 6: Visualizando e Monitorando Tarefas com Dask

  1. O Dask Dashboard: Monitoramento de desempenho e tarefas.
  2. Ferramentas para visualização de grafos de tarefas e monitoramento.
  3. Otimizando e diagnosticando gargalos em computações paralelas.
  4. Como otimizar pipelines para grandes datasets.
  5. Exemplo prático: Monitoramento de uma pipeline de análise de dados em tempo real com Dask.

Módulo 7: Integração de Dask com Outras Ferramentas e Plataformas

  1. Dask e a nuvem: Executando Dask em AWS, Azure e GCP.
  2. Integração de Dask com Hadoop e Spark.
  3. Configurando Dask com Kubernetes para escalabilidade.
  4. Exemplo prático: Execução de uma pipeline de dados em um cluster Dask na nuvem.

Módulo 8: Casos Práticos de Dask em Ciência de Dados

  1. Aplicações reais de Dask em ciência de dados.
  2. Exemplo prático: Análise de dados de séries temporais com Dask.
  3. Exemplo prático: Processamento de dados financeiros com Dask DataFrames.
  4. Exemplo prático: Análise de grandes logs de eventos com Dask.
  5. Exercícios práticos: Resolução de problemas reais usando Dask para ciência de dados.
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h