Curso Software Reliability Engineering SRE

  • DevOps | CI | CD | Kubernetes | Web3

Curso Software Reliability Engineering SRE

24 horas
Visão Geral

O Curso Software Reliability Engineering (SRE) apresenta os princípios e práticas utilizadas para garantir alta confiabilidade, disponibilidade e desempenho em sistemas modernos de software. O treinamento aborda conceitos essenciais como definição de SLO, SLI e SLA, gerenciamento de incidentes, monitoramento avançado, observabilidade, automação de operações e práticas de engenharia utilizadas por grandes empresas de tecnologia. Os participantes aprenderão como aplicar metodologias SRE para melhorar a estabilidade de aplicações críticas, reduzir falhas e aumentar a eficiência operacional em ambientes de produção.

Objetivo

Após realizar este curso Software Reliability Engineering (SRE), você será capaz de:

  • Implementar práticas de confiabilidade em sistemas de software
  • Definir e gerenciar métricas SLI, SLO e SLA
  • Criar estratégias de monitoramento e observabilidade
  • Automatizar operações de infraestrutura e aplicações
  • Gerenciar incidentes e processos de resposta a falhas
  • Aplicar práticas de engenharia para melhorar a estabilidade e disponibilidade de sistemas
Publico Alvo
  • Profissionais de TI que atuam em operações ou infraestrutura
  • Engenheiros de software
  • DevOps Engineers
  • Arquitetos de soluções
  • Administradores de sistemas
  • Profissionais responsáveis por ambientes de produção
Pre-Requisitos
  • Conhecimento básico de sistemas operacionais Linux
  • Noções de redes de computadores
  • Experiência básica com desenvolvimento ou administração de sistemas
  • Conhecimento básico de cloud ou infraestrutura
Materiais
Inglês/Português + Exercícios + Lab Pratico
Conteúdo Programatico

Module 1: Introduction to Software Reliability Engineering

  1. Concepts of reliability in software systems
  2. Evolution of SRE practices
  3. Relationship between DevOps and SRE
  4. Reliability vs availability vs scalability
  5. Role of the SRE engineer

Module 2: Service Level Management

  1. Service Level Indicators (SLI)
  2. Service Level Objectives (SLO)
  3. Service Level Agreements (SLA)
  4. Error budgets
  5. Reliability targets and service health

Module 3: Monitoring and Observability

  1. Monitoring strategies for distributed systems
  2. Metrics, logs and traces
  3. Observability architecture
  4. Alerting strategies
  5. Incident detection

Module 4: Incident Management

  1. Incident response lifecycle
  2. On-call practices
  3. Root cause analysis
  4. Postmortem culture
  5. Incident documentation

Module 5: Automation and Reliability

  1. Infrastructure automation
  2. Configuration management
  3. Reliability automation practices
  4. Self-healing systems
  5. Automated remediation

Module 6: Chaos Engineering and Resilience

  1. Principles of Chaos Engineering
  2. Failure testing strategies
  3. Fault injection
  4. Resilience patterns
  5. Continuous reliability testing

Module 7: Observability Tools

  1. Prometheus architecture
  2. Metrics collection and storage
  3. Grafana dashboards
  4. Alertmanager configuration
  5. Monitoring Kubernetes environments
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h