Curso Google Dataflow for Stream and Batch Processing

  • DevOps | CI | CD | Kubernetes | Web3

Curso Google Dataflow for Stream and Batch Processing

24 horas
Visão Geral

O curso Google Dataflow para Processamento de Stream e Batch foi desenvolvido para capacitar profissionais de tecnologia a projetar, desenvolver e gerenciar pipelines de dados escaláveis e eficientes utilizando o Google Cloud Dataflow. Durante o treinamento, os participantes aprenderão a processar dados em tempo real (stream) e em lote (batch) de maneira unificada, aplicando as melhores práticas de engenharia de dados e integração com outros serviços do Google Cloud Platform (GCP).

Com uma abordagem prática e orientada a projetos, este curso fornece o conhecimento essencial para construir pipelines de dados robustos, otimizados e resilientes, prontos para aplicações analíticas, de machine learning e big data.

Objetivo

Após a conclusão do curso Google Dataflow para Processamento de Stream e Batch, você será capaz de:

  • Compreender os conceitos fundamentais de pipelines unificados de stream e batch.
  • Criar e configurar jobs de processamento de dados no Dataflow.
  • Integrar o Dataflow com outros serviços do GCP, como Pub/Sub, BigQuery e Cloud Storage.
  • Implementar transformações, janelas e agregações em dados em tempo real.
  • Monitorar, otimizar e solucionar problemas em pipelines Dataflow.
  • Aplicar boas práticas de segurança, custo e escalabilidade em projetos de dados.
Publico Alvo

Este curso é destinado a:

  • Engenheiros de dados que desejam dominar o processamento de dados em tempo real e em lote.
  • Desenvolvedores que trabalham com integrações e pipelines de dados na nuvem.
  • Arquitetos de soluções que buscam projetar sistemas de processamento distribuído no GCP.
  • Profissionais de DevOps e Cloud Engineers interessados em automação e orquestração de fluxos de dados.
Pre-Requisitos

Para melhor aproveitamento do curso, recomenda-se que o participante possua:

  • Conhecimentos básicos em Google Cloud Platform (GCP).
  • Noções de Python ou Java (linguagens suportadas pelo Dataflow).
  • Entendimento fundamental de bancos de dados, SQL e conceitos de processamento de dados.
Materiais
Inglês/Português + Exercícios + Lab Pratico
Conteúdo Programatico

Módulo 1: Introdução ao Google Dataflow

  1. O que é o Google Dataflow
  2. Principais conceitos: pipelines, PCollections e transformações
  3. Processamento unificado de stream e batch
  4. Vantagens do modelo serverless no Dataflow
  5. Arquitetura e componentes principais

Módulo 2: Fundamentos do Apache Beam

  1. O papel do Apache Beam no Dataflow
  2. Estrutura de um pipeline Beam
  3. Tipos de transformações (ParDo, GroupByKey, Combine, Flatten, etc.)
  4. Execução local e em nuvem
  5. Hands-on: Criando seu primeiro pipeline com Beam

Módulo 3: Processamento em Lote (Batch Processing)

  1. Leitura e escrita de dados em lote
  2. Integração com Cloud Storage, BigQuery e Cloud SQL
  3. Transformações para limpeza e enriquecimento de dados
  4. Hands-on: Pipeline de ETL com Dataflow

Módulo 4: Processamento em Tempo Real (Stream Processing)

  1. Introdução ao processamento de dados em streaming
  2. Leitura de dados em tempo real via Pub/Sub
  3. Janelas (windows) e triggers
  4. Watermarks e lateness handling
  5. Hands-on: Pipeline de streaming com Pub/Sub e BigQuery

Módulo 5: Integrações com Outros Serviços do Google Cloud

  1. Integração com Pub/Sub, BigQuery, Cloud Storage e Dataproc
  2. Uso de Cloud Composer para orquestração de pipelines
  3. Exportação e ingestão de dados externos
  4. Hands-on: Pipeline integrado com múltiplos serviços GCP

Módulo 6: Monitoramento e Gerenciamento de Jobs

  1. Acompanhamento de jobs no Dataflow Monitoring Interface
  2. Logs e métricas no Cloud Logging e Cloud Monitoring
  3. Troubleshooting de falhas e gargalos
  4. Otimização de performance e custos

Módulo 7: Boas Práticas de Segurança e Escalabilidade

  1. Controle de acesso e autenticação (IAM)
  2. Gerenciamento de credenciais e contas de serviço
  3. Estratégias de custo e otimização de recursos
  4. Escalabilidade automática e tolerância a falhas

Módulo 8: Casos de Uso e Projeto Final

  1. Casos reais de uso do Dataflow (ETL, IoT, Machine Learning, Analytics)
  2. Projeto prático: criação de um pipeline de streaming e batch completo
  3. Integração ponta a ponta com Pub/Sub, BigQuery e Cloud Storage
  4. Apresentação e discussão de soluções
TENHO INTERESSE

Cursos Relacionados

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Ansible Overview of Ansible architecture

16h

Curso Apache NiFi e Hadoop DataFlow Engineering

40 horas

Curso Apache Kafka Data Streaming

24 horas

Curso Python Software Development

24 horas