Visão Geral
Curso Telemetry Fundamentals and Observability Concepts for SRE. Este curso apresenta os fundamentos de telemetria e observabilidade sob a ótica de Site Reliability Engineering (SRE), abordando como métricas, eventos e sinais operacionais são utilizados para garantir confiabilidade, disponibilidade, performance e resiliência de sistemas em produção. Os participantes aprenderão como a observabilidade sustenta práticas SRE como SLIs, SLOs, error budgets, incident response e melhoria contínua em ambientes distribuídos e cloud-native.
Objetivo
Após realizar este curso Telemetry Fundamentals and Observability Concepts for SRE, você será capaz de:
- Compreender os fundamentos de telemetria no contexto SRE
- Diferenciar monitoramento tradicional e observabilidade
- Entender métricas críticas para confiabilidade de sistemas
- Aplicar conceitos de SLIs, SLOs e error budgets
- Identificar fontes de telemetria em sistemas distribuídos
- Utilizar observabilidade para prevenção e resposta a incidentes
Publico Alvo
- Site Reliability Engineers (SRE)
- DevOps Engineers
- Engenheiros de Plataforma
- Profissionais de Cloud Computing
- Arquitetos de Infraestrutura
- Analistas de Observabilidade
Pre-Requisitos
- Noções básicas de sistemas distribuídos
- Conhecimentos iniciais de Linux
- Conceitos básicos de redes
- Familiaridade com ambientes cloud e DevOps é desejável
Materiais
Inglês/Portguês/Lab Pratico
Conteúdo Programatico
Module 1: Introduction to Site Reliability Engineering
- SRE principles and goals
- SRE vs traditional operations
- Reliability as a feature
- SRE culture and practices
Module 2: Telemetry Fundamentals for SRE
- What is telemetry
- Telemetry signals for reliability
- Metrics, events and operational signals
- Telemetry-driven decision making
Module 3: Monitoring vs Observability in SRE
- Limitations of traditional monitoring
- Observability concepts
- Proactive reliability management
- SRE observability use cases
Module 4: Telemetry Sources in Distributed Systems
- Application telemetry
- Infrastructure telemetry
- Containers and orchestration platforms
- Service-level telemetry
Module 5: Reliability Metrics and Error Budgets
- SLIs, SLOs and SLAs
- Error budgets concepts
- Measuring availability and latency
- Reliability targets
Module 6: Telemetry Architecture for SRE
- Scalable telemetry pipelines
- High availability monitoring
- Data ingestion and aggregation
- Real-time vs historical analysis
Module 7: Incident Response and Observability
- Detecting incidents with telemetry
- Alert fatigue and alert quality
- Root cause analysis
- Postmortems and learning culture
Module 8: SRE Observability in Practice
- Reliability engineering scenarios
- Capacity planning
- Resilience and failure testing concepts
- Continuous improvement with telemetry
TENHO INTERESSE