Curso Data Platform Reliability Engineering

  • DevOps | CI | CD | Kubernetes | Web3

Curso Data Platform Reliability Engineering

32 horas
Visão Geral

Este Curso Data Platform Reliability Engineering, aborda os princípios, práticas e técnicas de Reliability Engineering aplicadas especificamente a plataformas de dados modernas. O foco está em garantir disponibilidade, confiabilidade, resiliência, previsibilidade e recuperação de plataformas analíticas e pipelines de dados em produção. O aluno aprenderá a aplicar conceitos de SRE ao contexto de dados, equilibrando velocidade de entrega com estabilidade operacional e impacto no negócio.

Objetivo

Após realizar este curso Data Platform Reliability Engineering, você será capaz de:

  • Aplicar princípios de Reliability Engineering em plataformas de dados
  • Definir e gerenciar SLIs, SLOs e SLAs para dados
  • Projetar pipelines resilientes e tolerantes a falhas
  • Implementar estratégias de prevenção, detecção e recuperação de incidentes
  • Reduzir impacto operacional e falhas recorrentes
  • Melhorar disponibilidade e previsibilidade de plataformas analíticas
  • Estruturar operações de dados orientadas à confiabilidade
  • Preparar plataformas de dados para ambientes críticos de negócio
Publico Alvo
  •  
  • Engenheiros de dados
  • Arquitetos de plataformas de dados
  • Analytics engineers
  • Profissionais de SRE e DevOps atuando com dados
  • Profissionais responsáveis por plataformas de dados críticas
  •  
Pre-Requisitos
  •  
  • Experiência em engenharia de dados
  • Conhecimentos de pipelines ETL ou ELT
  • Noções de sistemas distribuídos
  • Familiaridade com SQL e Python
  • Conhecimento básico de orquestração de workflows
  •  
Materiais
Ingles/Portugues
Conteúdo Programatico

Module 1: Reliability Engineering for Data Platforms

  1. What is reliability engineering
  2. Reliability challenges in data platforms
  3. Data availability vs data correctness
  4. Reliability and business impact

Module 2: SRE Principles Applied to Data

  1. Error budgets for data systems
  2. Balancing velocity and stability
  3. Toil in data operations
  4. Reliability ownership models

Module 3: SLIs, SLOs and SLAs for Data

  1. Defining data SLIs
  2. Freshness, completeness and accuracy SLOs
  3. Consumer-driven SLAs
  4. Measuring reliability over time

Module 4: Designing Reliable Data Pipelines

  1. Idempotent pipeline design
  2. Failure isolation strategies
  3. Dependency management
  4. Backfill and reprocessing

Module 5: Failure Modes and Risk Management

  1. Common data platform failure modes
  2. Dependency risk analysis
  3. Capacity and scaling risks
  4. Change management

Module 6: Incident Management for Data Platforms

  1. Detecting data incidents
  2. Incident response workflows
  3. Communication and escalation
  4. Incident resolution strategies

Module 7: Postmortems and Continuous Improvement

  1. Blameless postmortems
  2. Root cause analysis
  3. Action items and follow-ups
  4. Reliability learning loops

Module 8: Automation and Reliability

  1. Reducing manual operations
  2. Self-healing data pipelines
  3. Automated recovery strategies
  4. Reliability-driven automation

Module 9: Operating Data Platforms at Scale

  1. Multi-environment reliability
  2. Cost vs reliability trade-offs
  3. Platform evolution and migrations
  4. Long-term reliability planning

Module 10: Best Practices and Real-World Scenarios

  1. End-to-end reliable data platform
  2. Anti-patterns in data reliability
  3. Reliability maturity models
  4. Preparing for platform excellence
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h