Visão Geral
Curso Reliability Engineering Practitioner: Os profissionais de SRE entregam valor comercial aos clientes por meio da colaboração com equipes de DevOps e engenharia de ambientes de aplicativos e sistemas de software confiáveis e seguros.
O curso Site Reliability Engineering Practitioner apresenta maneiras de escalar serviços de forma econômica e confiável em uma organização. Ele explora estratégias para melhorar a agilidade, a colaboração interfuncional e a transparência da saúde dos serviços em direção à construção de resiliência por design, automação e remediação de circuito fechado.
O Curso Reliability Engineering Practitioner, visa equipar os participantes com as práticas, métodos e ferramentas para envolver pessoas em toda a organização envolvidas em confiabilidade por meio do uso de cenários da vida real e histórias de caso. Após a conclusão do curso, os participantes terão lições tangíveis para alavancar quando voltarem ao escritório, como implementar modelos SRE que se ajustem ao seu contexto organizacional, construir observabilidade avançada em sistemas distribuídos, construir resiliência por design e respostas eficazes a incidentes usando práticas SRE.
O Curso Reliability Engineering Practitioner é desenvolvido alavancando fontes-chave de SRE, envolvendo-se com líderes de pensamento no espaço de SRE e trabalhando com organizações que adotam SRE para extrair as melhores práticas da vida real e foi projetado para ensinar os princípios e práticas-chave necessários para iniciar a adoção de SRE. Este curso posiciona os alunos para concluir com sucesso o exame de certificação SRE Practitioner.
Pre-Requisitos
É altamente recomendável que os alunos frequentem o curso SRE Foundation com um DevOps Institute Education Partner credenciado antes de frequentar o curso SRE Practitioner. É recomendado um entendimento e conhecimento da terminologia comum de SRE, conceitos, princípios e experiência de trabalho relacionada.
Conteúdo Programatico
SRE Anti-patterns
- SRE in a distributed ecosystem
- Avoiding SRE antipatterns
SLO is a proxy for customer happiness
- What has changed with SLOs?
- SLIs and system boundaries
- Error Budgets, velocity and risk
Building secure and reliable systems
- Non-Abstract Large Scale Design
- Fault-tolerant designs
- Designing for security, resiliency, scalability and changing landscapes
Full-stack observability
- Pillars of Observability
- Observability MELT
- Using Open Telemetry
Platform Engineering and AIOps
- Platform-centric approaches
- Using DataOps and AIOps to improve resiliency
- AIOps Simple Recipe
SRE & Incident Response Management
- Incident Command Framework
- OODA Loop
- SRE and closed-loop remediation
- AI/ML and Swarming for better incident management
Chaos Engineering
- Chaos Engineering Defined
- Myths of Chaos
- Chaos Engineering Experiments and Resources
- Game Day Basics and Exercises
SRE is the purest form of DevOps
- Key Principles of SRE
- Metrics for Success
- SRE Execution Models
- Culture and behavioral skills
- Transformations and SRE