Visão Geral
O Curso Software Reliability Engineering (SRE) apresenta os princípios e práticas utilizadas para garantir alta confiabilidade, disponibilidade e desempenho em sistemas modernos de software. O treinamento aborda conceitos essenciais como definição de SLO, SLI e SLA, gerenciamento de incidentes, monitoramento avançado, observabilidade, automação de operações e práticas de engenharia utilizadas por grandes empresas de tecnologia. Os participantes aprenderão como aplicar metodologias SRE para melhorar a estabilidade de aplicações críticas, reduzir falhas e aumentar a eficiência operacional em ambientes de produção.
Objetivo
Após realizar este curso Software Reliability Engineering (SRE), você será capaz de:
- Implementar práticas de confiabilidade em sistemas de software
- Definir e gerenciar métricas SLI, SLO e SLA
- Criar estratégias de monitoramento e observabilidade
- Automatizar operações de infraestrutura e aplicações
- Gerenciar incidentes e processos de resposta a falhas
- Aplicar práticas de engenharia para melhorar a estabilidade e disponibilidade de sistemas
Publico Alvo
- Profissionais de TI que atuam em operações ou infraestrutura
- Engenheiros de software
- DevOps Engineers
- Arquitetos de soluções
- Administradores de sistemas
- Profissionais responsáveis por ambientes de produção
Pre-Requisitos
- Conhecimento básico de sistemas operacionais Linux
- Noções de redes de computadores
- Experiência básica com desenvolvimento ou administração de sistemas
- Conhecimento básico de cloud ou infraestrutura
Materiais
Inglês/Português + Exercícios + Lab Pratico
Conteúdo Programatico
Module 1: Introduction to Software Reliability Engineering
- Concepts of reliability in software systems
- Evolution of SRE practices
- Relationship between DevOps and SRE
- Reliability vs availability vs scalability
- Role of the SRE engineer
Module 2: Service Level Management
- Service Level Indicators (SLI)
- Service Level Objectives (SLO)
- Service Level Agreements (SLA)
- Error budgets
- Reliability targets and service health
Module 3: Monitoring and Observability
- Monitoring strategies for distributed systems
- Metrics, logs and traces
- Observability architecture
- Alerting strategies
- Incident detection
Module 4: Incident Management
- Incident response lifecycle
- On-call practices
- Root cause analysis
- Postmortem culture
- Incident documentation
Module 5: Automation and Reliability
- Infrastructure automation
- Configuration management
- Reliability automation practices
- Self-healing systems
- Automated remediation
Module 6: Chaos Engineering and Resilience
- Principles of Chaos Engineering
- Failure testing strategies
- Fault injection
- Resilience patterns
- Continuous reliability testing
Module 7: Observability Tools
- Prometheus architecture
- Metrics collection and storage
- Grafana dashboards
- Alertmanager configuration
- Monitoring Kubernetes environments
TENHO INTERESSE