Curso Telemetry Fundamentals and Observability Concepts for SRE

  • DevOps | CI | CD | Kubernetes | Web3

Curso Telemetry Fundamentals and Observability Concepts for SRE

16 horas
Visão Geral

Curso Telemetry Fundamentals and Observability Concepts for SRE. Este curso apresenta os fundamentos de telemetria e observabilidade sob a ótica de Site Reliability Engineering (SRE), abordando como métricas, eventos e sinais operacionais são utilizados para garantir confiabilidade, disponibilidade, performance e resiliência de sistemas em produção. Os participantes aprenderão como a observabilidade sustenta práticas SRE como SLIs, SLOs, error budgets, incident response e melhoria contínua em ambientes distribuídos e cloud-native.

Objetivo

Após realizar este curso Telemetry Fundamentals and Observability Concepts for SRE, você será capaz de:

  • Compreender os fundamentos de telemetria no contexto SRE
  • Diferenciar monitoramento tradicional e observabilidade
  • Entender métricas críticas para confiabilidade de sistemas
  • Aplicar conceitos de SLIs, SLOs e error budgets
  • Identificar fontes de telemetria em sistemas distribuídos
  • Utilizar observabilidade para prevenção e resposta a incidentes
Publico Alvo
  • Site Reliability Engineers (SRE)
  • DevOps Engineers
  • Engenheiros de Plataforma
  • Profissionais de Cloud Computing
  • Arquitetos de Infraestrutura
  • Analistas de Observabilidade
Pre-Requisitos
  • Noções básicas de sistemas distribuídos
  • Conhecimentos iniciais de Linux
  • Conceitos básicos de redes
  • Familiaridade com ambientes cloud e DevOps é desejável
Materiais
Inglês/Portguês/Lab Pratico
Conteúdo Programatico

Module 1: Introduction to Site Reliability Engineering

  1. SRE principles and goals
  2. SRE vs traditional operations
  3. Reliability as a feature
  4. SRE culture and practices

Module 2: Telemetry Fundamentals for SRE

  1. What is telemetry
  2. Telemetry signals for reliability
  3. Metrics, events and operational signals
  4. Telemetry-driven decision making

Module 3: Monitoring vs Observability in SRE

  1. Limitations of traditional monitoring
  2. Observability concepts
  3. Proactive reliability management
  4. SRE observability use cases

Module 4: Telemetry Sources in Distributed Systems

  1. Application telemetry
  2. Infrastructure telemetry
  3. Containers and orchestration platforms
  4. Service-level telemetry

Module 5: Reliability Metrics and Error Budgets

  1. SLIs, SLOs and SLAs
  2. Error budgets concepts
  3. Measuring availability and latency
  4. Reliability targets

Module 6: Telemetry Architecture for SRE

  1. Scalable telemetry pipelines
  2. High availability monitoring
  3. Data ingestion and aggregation
  4. Real-time vs historical analysis

Module 7: Incident Response and Observability

  1. Detecting incidents with telemetry
  2. Alert fatigue and alert quality
  3. Root cause analysis
  4. Postmortems and learning culture

Module 8: SRE Observability in Practice

  1. Reliability engineering scenarios
  2. Capacity planning
  3. Resilience and failure testing concepts
  4. Continuous improvement with telemetry
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h