Visão Geral
O curso Dask for Data Science foi desenvolvido para cientistas de dados que precisam manipular grandes volumes de dados e realizar computações em escala, mas que desejam continuar usando ferramentas familiares como pandas, NumPy e scikit-learn. O Dask possibilita o processamento paralelo e distribuído, permitindo que você trabalhe com datasets que excedem a memória do computador e aumente o desempenho de seus modelos e análises. O curso combina teoria e prática, demonstrando como Dask pode ser uma ferramenta poderosa para escalabilidade em ciência de dados.
Conteúdo Programatico
Módulo 1: Introdução ao Dask para Ciência de Dados
- O que é Dask e sua importância para ciência de dados.
- Dask versus outras soluções de big data (Spark, Hadoop, etc.).
- Principais coleções do Dask: Arrays, DataFrames, Bags.
- Comparação de Dask com pandas e NumPy.
- Instalação e configuração do ambiente Dask.
Módulo 2: Manipulando Grandes Volumes de Dados com Dask DataFrames
- Introdução ao Dask DataFrames.
- Operações escaláveis com Dask DataFrames.
- Como dividir e processar dados em paralelo com Dask.
- Agregações e operações de grupo em grandes datasets.
- Exemplo prático: Processamento de um dataset massivo com Dask DataFrames.
Módulo 3: Processamento Científico com Dask Arrays
- Utilizando Dask Arrays para computação científica.
- Manipulação de grandes arrays multidimensionais com Dask.
- Paralelizando operações NumPy com Dask Arrays.
- Comparação de performance entre Dask e NumPy.
- Exemplo prático: Processamento de grandes matrizes de dados com Dask Arrays.
Módulo 4: Machine Learning Escalável com Dask e scikit-learn
- Integração de Dask com scikit-learn para machine learning distribuído.
- Treinamento de modelos de machine learning em dados grandes.
- Utilizando Dask para pré-processamento de dados em pipelines de machine learning.
- Como escalar pipelines de aprendizado supervisionado e não supervisionado.
- Exemplo prático: Treinamento de um modelo de regressão em um cluster Dask.
Módulo 5: Computação Paralela e Distribuída em Ciência de Dados
- Conceitos de computação paralela com Dask.
- Como Dask paraleliza operações e distribui tarefas.
- Execução de tarefas distribuídas em clusters de Dask.
- Como configurar um cluster Dask para processamento distribuído.
- Exemplo prático: Escalonamento de uma pipeline de ciência de dados com Dask em um cluster.
Módulo 6: Visualizando e Monitorando Tarefas com Dask
- O Dask Dashboard: Monitoramento de desempenho e tarefas.
- Ferramentas para visualização de grafos de tarefas e monitoramento.
- Otimizando e diagnosticando gargalos em computações paralelas.
- Como otimizar pipelines para grandes datasets.
- Exemplo prático: Monitoramento de uma pipeline de análise de dados em tempo real com Dask.
Módulo 7: Integração de Dask com Outras Ferramentas e Plataformas
- Dask e a nuvem: Executando Dask em AWS, Azure e GCP.
- Integração de Dask com Hadoop e Spark.
- Configurando Dask com Kubernetes para escalabilidade.
- Exemplo prático: Execução de uma pipeline de dados em um cluster Dask na nuvem.
Módulo 8: Casos Práticos de Dask em Ciência de Dados
- Aplicações reais de Dask em ciência de dados.
- Exemplo prático: Análise de dados de séries temporais com Dask.
- Exemplo prático: Processamento de dados financeiros com Dask DataFrames.
- Exemplo prático: Análise de grandes logs de eventos com Dask.
- Exercícios práticos: Resolução de problemas reais usando Dask para ciência de dados.