Curso Google Dataflow for Stream and Batch Processing

  • DevOps | CI | CD | Kubernetes | Web3

Curso Google Dataflow for Stream and Batch Processing

24 horas
Visão Geral

O curso Google Dataflow para Processamento de Stream e Batch foi desenvolvido para capacitar profissionais de tecnologia a projetar, desenvolver e gerenciar pipelines de dados escaláveis e eficientes utilizando o Google Cloud Dataflow. Durante o treinamento, os participantes aprenderão a processar dados em tempo real (stream) e em lote (batch) de maneira unificada, aplicando as melhores práticas de engenharia de dados e integração com outros serviços do Google Cloud Platform (GCP).

Com uma abordagem prática e orientada a projetos, este curso fornece o conhecimento essencial para construir pipelines de dados robustos, otimizados e resilientes, prontos para aplicações analíticas, de machine learning e big data.

Objetivo

Após a conclusão do curso Google Dataflow para Processamento de Stream e Batch, você será capaz de:

  • Compreender os conceitos fundamentais de pipelines unificados de stream e batch.
  • Criar e configurar jobs de processamento de dados no Dataflow.
  • Integrar o Dataflow com outros serviços do GCP, como Pub/Sub, BigQuery e Cloud Storage.
  • Implementar transformações, janelas e agregações em dados em tempo real.
  • Monitorar, otimizar e solucionar problemas em pipelines Dataflow.
  • Aplicar boas práticas de segurança, custo e escalabilidade em projetos de dados.
Publico Alvo

Este curso é destinado a:

  • Engenheiros de dados que desejam dominar o processamento de dados em tempo real e em lote.
  • Desenvolvedores que trabalham com integrações e pipelines de dados na nuvem.
  • Arquitetos de soluções que buscam projetar sistemas de processamento distribuído no GCP.
  • Profissionais de DevOps e Cloud Engineers interessados em automação e orquestração de fluxos de dados.
Pre-Requisitos

Para melhor aproveitamento do curso, recomenda-se que o participante possua:

  • Conhecimentos básicos em Google Cloud Platform (GCP).
  • Noções de Python ou Java (linguagens suportadas pelo Dataflow).
  • Entendimento fundamental de bancos de dados, SQL e conceitos de processamento de dados.
Materiais
Inglês/Português + Exercícios + Lab Pratico
Conteúdo Programatico

Módulo 1: Introdução ao Google Dataflow

  1. O que é o Google Dataflow
  2. Principais conceitos: pipelines, PCollections e transformações
  3. Processamento unificado de stream e batch
  4. Vantagens do modelo serverless no Dataflow
  5. Arquitetura e componentes principais

Módulo 2: Fundamentos do Apache Beam

  1. O papel do Apache Beam no Dataflow
  2. Estrutura de um pipeline Beam
  3. Tipos de transformações (ParDo, GroupByKey, Combine, Flatten, etc.)
  4. Execução local e em nuvem
  5. Hands-on: Criando seu primeiro pipeline com Beam

Módulo 3: Processamento em Lote (Batch Processing)

  1. Leitura e escrita de dados em lote
  2. Integração com Cloud Storage, BigQuery e Cloud SQL
  3. Transformações para limpeza e enriquecimento de dados
  4. Hands-on: Pipeline de ETL com Dataflow

Módulo 4: Processamento em Tempo Real (Stream Processing)

  1. Introdução ao processamento de dados em streaming
  2. Leitura de dados em tempo real via Pub/Sub
  3. Janelas (windows) e triggers
  4. Watermarks e lateness handling
  5. Hands-on: Pipeline de streaming com Pub/Sub e BigQuery

Módulo 5: Integrações com Outros Serviços do Google Cloud

  1. Integração com Pub/Sub, BigQuery, Cloud Storage e Dataproc
  2. Uso de Cloud Composer para orquestração de pipelines
  3. Exportação e ingestão de dados externos
  4. Hands-on: Pipeline integrado com múltiplos serviços GCP

Módulo 6: Monitoramento e Gerenciamento de Jobs

  1. Acompanhamento de jobs no Dataflow Monitoring Interface
  2. Logs e métricas no Cloud Logging e Cloud Monitoring
  3. Troubleshooting de falhas e gargalos
  4. Otimização de performance e custos

Módulo 7: Boas Práticas de Segurança e Escalabilidade

  1. Controle de acesso e autenticação (IAM)
  2. Gerenciamento de credenciais e contas de serviço
  3. Estratégias de custo e otimização de recursos
  4. Escalabilidade automática e tolerância a falhas

Módulo 8: Casos de Uso e Projeto Final

  1. Casos reais de uso do Dataflow (ETL, IoT, Machine Learning, Analytics)
  2. Projeto prático: criação de um pipeline de streaming e batch completo
  3. Integração ponta a ponta com Pub/Sub, BigQuery e Cloud Storage
  4. Apresentação e discussão de soluções
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h