Visão Geral
O curso Google Dataflow para Processamento de Stream e Batch foi desenvolvido para capacitar profissionais de tecnologia a projetar, desenvolver e gerenciar pipelines de dados escaláveis e eficientes utilizando o Google Cloud Dataflow. Durante o treinamento, os participantes aprenderão a processar dados em tempo real (stream) e em lote (batch) de maneira unificada, aplicando as melhores práticas de engenharia de dados e integração com outros serviços do Google Cloud Platform (GCP).
Com uma abordagem prática e orientada a projetos, este curso fornece o conhecimento essencial para construir pipelines de dados robustos, otimizados e resilientes, prontos para aplicações analíticas, de machine learning e big data.
Objetivo
Após a conclusão do curso Google Dataflow para Processamento de Stream e Batch, você será capaz de:
- Compreender os conceitos fundamentais de pipelines unificados de stream e batch.
- Criar e configurar jobs de processamento de dados no Dataflow.
- Integrar o Dataflow com outros serviços do GCP, como Pub/Sub, BigQuery e Cloud Storage.
- Implementar transformações, janelas e agregações em dados em tempo real.
- Monitorar, otimizar e solucionar problemas em pipelines Dataflow.
- Aplicar boas práticas de segurança, custo e escalabilidade em projetos de dados.
Publico Alvo
Este curso é destinado a:
- Engenheiros de dados que desejam dominar o processamento de dados em tempo real e em lote.
- Desenvolvedores que trabalham com integrações e pipelines de dados na nuvem.
- Arquitetos de soluções que buscam projetar sistemas de processamento distribuído no GCP.
- Profissionais de DevOps e Cloud Engineers interessados em automação e orquestração de fluxos de dados.
Pre-Requisitos
Para melhor aproveitamento do curso, recomenda-se que o participante possua:
- Conhecimentos básicos em Google Cloud Platform (GCP).
- Noções de Python ou Java (linguagens suportadas pelo Dataflow).
- Entendimento fundamental de bancos de dados, SQL e conceitos de processamento de dados.
Materiais
Inglês/Português + Exercícios + Lab Pratico
Conteúdo Programatico
Módulo 1: Introdução ao Google Dataflow
- O que é o Google Dataflow
- Principais conceitos: pipelines, PCollections e transformações
- Processamento unificado de stream e batch
- Vantagens do modelo serverless no Dataflow
- Arquitetura e componentes principais
Módulo 2: Fundamentos do Apache Beam
- O papel do Apache Beam no Dataflow
- Estrutura de um pipeline Beam
- Tipos de transformações (ParDo, GroupByKey, Combine, Flatten, etc.)
- Execução local e em nuvem
- Hands-on: Criando seu primeiro pipeline com Beam
Módulo 3: Processamento em Lote (Batch Processing)
- Leitura e escrita de dados em lote
- Integração com Cloud Storage, BigQuery e Cloud SQL
- Transformações para limpeza e enriquecimento de dados
- Hands-on: Pipeline de ETL com Dataflow
Módulo 4: Processamento em Tempo Real (Stream Processing)
- Introdução ao processamento de dados em streaming
- Leitura de dados em tempo real via Pub/Sub
- Janelas (windows) e triggers
- Watermarks e lateness handling
- Hands-on: Pipeline de streaming com Pub/Sub e BigQuery
Módulo 5: Integrações com Outros Serviços do Google Cloud
- Integração com Pub/Sub, BigQuery, Cloud Storage e Dataproc
- Uso de Cloud Composer para orquestração de pipelines
- Exportação e ingestão de dados externos
- Hands-on: Pipeline integrado com múltiplos serviços GCP
Módulo 6: Monitoramento e Gerenciamento de Jobs
- Acompanhamento de jobs no Dataflow Monitoring Interface
- Logs e métricas no Cloud Logging e Cloud Monitoring
- Troubleshooting de falhas e gargalos
- Otimização de performance e custos
Módulo 7: Boas Práticas de Segurança e Escalabilidade
- Controle de acesso e autenticação (IAM)
- Gerenciamento de credenciais e contas de serviço
- Estratégias de custo e otimização de recursos
- Escalabilidade automática e tolerância a falhas
Módulo 8: Casos de Uso e Projeto Final
- Casos reais de uso do Dataflow (ETL, IoT, Machine Learning, Analytics)
- Projeto prático: criação de um pipeline de streaming e batch completo
- Integração ponta a ponta com Pub/Sub, BigQuery e Cloud Storage
- Apresentação e discussão de soluções
TENHO INTERESSE