Curso SRE for Data Engineering

  • DevOps | CI | CD | Kubernetes | Web3

Curso SRE for Data Engineering

33 horas
Visão Geral

Curso SRE for Data Engineering. Este curso aplica os princípios de Site Reliability Engineering (SRE) ao contexto específico da Engenharia de Dados. O foco está em garantir confiabilidade, disponibilidade, previsibilidade e recuperação de pipelines e plataformas de dados, equilibrando inovação e estabilidade operacional em ambientes analíticos e de missão crítica.

Objetivo

Após realizar este curso SRE for Data Engineering, você será capaz de:

  • Aplicar princípios de SRE em pipelines e plataformas de dados
  • Definir SLIs, SLOs e SLAs orientados a dados
  • Reduzir falhas e incidentes em ambientes analíticos
  • Projetar pipelines resilientes e tolerantes a falhas
  • Implementar práticas de resposta a incidentes de dados
  • Reduzir toil operacional em engenharia de dados
  • Evoluir plataformas de dados com segurança operacional
Publico Alvo
  •  
  • Engenheiros de dados
  • Profissionais de SRE
  • DevOps Engineers focados em dados
  • Arquitetos de plataformas de dados
  • Profissionais responsáveis por dados em produção
  •  
Pre-Requisitos
  •  
  • Experiência com engenharia de dados
  • Conhecimentos de pipelines ETL ou ELT
  • Noções de sistemas distribuídos
  • Familiaridade com Python e SQL
  • Conhecimento básico de observabilidade
  •  
Materiais
Ingles/Portugues
Conteúdo Programatico

Module 1: SRE Foundations for Data Engineering

  1. What is SRE
  2. SRE vs traditional operations
  3. Reliability challenges in data systems
  4. Data-centric reliability

Module 2: Reliability Metrics for Data

  1. Data availability
  2. Data freshness
  3. Data correctness
  4. Consumer impact metrics

Module 3: Error Budgets for Data Pipelines

  1. Error budget concepts
  2. Budget policies
  3. Trade-offs between speed and stability
  4. Managing reliability debt

Module 4: Designing Reliable Data Pipelines

  1. Idempotency
  2. Dependency isolation
  3. Failure containment
  4. Safe retries

Module 5: Incident Management for Data

  1. Detecting data incidents
  2. Incident response workflows
  3. Communication strategies
  4. Incident resolution

Module 6: Postmortems and Learning

  1. Blameless culture
  2. Root cause analysis
  3. Actionable outcomes
  4. Continuous improvement

Module 7: Automation and Toil Reduction

  1. Identifying toil
  2. Automation strategies
  3. Self-healing pipelines
  4. Reliability automation

Module 8: Scaling SRE Practices

  1. Multi-team environments
  2. Platform ownership
  3. Reliability maturity models
  4. Long-term reliability planning
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h