Curso Prometheus for SRE and DevOps

  • DevOps | CI | CD | Kubernetes | Web3

Curso Prometheus for SRE and DevOps

24 horas
Visão Geral

O curso Prometheus for SRE and DevOps capacita profissionais a implementar, operar e otimizar plataformas modernas de monitoramento utilizando o Prometheus dentro de práticas de Site Reliability Engineering (SRE) e pipelines DevOps. O treinamento apresenta os fundamentos de observabilidade orientada a métricas, monitoramento de aplicações distribuídas e práticas de confiabilidade de serviços.

Durante o curso, os participantes aprenderão a coletar métricas de infraestrutura, containers, aplicações e plataformas cloud, construir consultas avançadas utilizando PromQL, implementar alertas inteligentes e integrar dashboards através do Grafana. Também serão abordadas práticas utilizadas por equipes SRE para monitorar SLIs, definir SLOs e reduzir incidentes operacionais.

Além disso, o treinamento explora integração com ambientes cloud native como Kubernetes, automação de monitoramento em pipelines DevOps e implementação de observabilidade em larga escala. Ao final, os participantes estarão preparados para implementar monitoramento confiável e escalável em ambientes modernos de infraestrutura e aplicações.

Objetivo

Após realizar este curso Prometheus for SRE and DevOps, você será capaz de:

  • Implementar monitoramento de infraestrutura e aplicações utilizando Prometheus
  • Criar consultas avançadas de métricas utilizando PromQL
  • Construir dashboards operacionais para monitoramento de serviços
  • Implementar alertas baseados em métricas e indicadores de confiabilidade
  • Monitorar ambientes Kubernetes e plataformas cloud
  • Definir e acompanhar SLIs, SLOs e error budgets em ambientes SRE
  • Integrar monitoramento em pipelines DevOps e práticas de automação
Publico Alvo
  • Engenheiros DevOps
  • Site Reliability Engineers (SRE)
  • Administradores de sistemas
  • Engenheiros de plataforma
  • Engenheiros de cloud
  • Profissionais de operações de TI
Pre-Requisitos
  • Conhecimento básico de Linux
  • Conceitos básicos de redes e infraestrutura
  • Noções de containers e Kubernetes
  • Familiaridade com conceitos DevOps
Materiais
Inglês/Português + Exercícios + Lab Pratico
Conteúdo Programatico

Module 1: Monitoring and Observability Fundamentals

  1. Monitoring vs observability concepts
  2. Metrics, logs and traces overview
  3. Role of monitoring in DevOps and SRE
  4. Introduction to Prometheus architecture
  5. Time series metrics fundamentals

Module 2: Prometheus Installation and Configuration

  1. Installing Prometheus on Linux
  2. Prometheus configuration file structure
  3. Defining scrape targets
  4. Service discovery mechanisms
  5. Managing configuration changes

Module 3: Collecting Infrastructure and Application Metrics

  1. Exporters architecture
  2. Using Node Exporter for infrastructure monitoring
  3. Application instrumentation concepts
  4. Monitoring containers and services
  5. Labeling strategies and metric organization

Module 4: PromQL for SRE Operations

  1. PromQL query fundamentals
  2. Aggregation and filtering techniques
  3. Rate and histogram functions
  4. Query optimization strategies
  5. Building operational queries

Module 5: Dashboards and Visualization

  1. Grafana architecture and integration
  2. Building operational dashboards
  3. Visualizing service health indicators
  4. Designing SRE dashboards
  5. Dashboard best practices

Module 6: Alerting and Incident Response

  1. Alerting concepts and best practices
  2. Configuring Alertmanager
  3. Routing and notification channels
  4. Alert grouping and deduplication
  5. Incident response workflows

Module 7: Monitoring Kubernetes Environments

  1. Prometheus Operator overview
  2. Monitoring Kubernetes clusters
  3. Monitoring pods, nodes and services
  4. Kubernetes service discovery
  5. Cluster observability best practices

Module 8: SRE Metrics and Reliability Engineering

  1. Defining Service Level Indicators (SLI)
  2. Implementing Service Level Objectives (SLO)
  3. Managing error budgets
  4. Reliability metrics and reporting
  5. Improving operational resilience

Module 9: Integrating Monitoring into DevOps Pipelines

  1. Observability in CI/CD pipelines
  2. Monitoring deployment health
  3. Canary deployment monitoring
  4. Automation of monitoring configuration
  5. DevOps observability best practices

Module 10: Operating Prometheus in Production

  1. Performance tuning
  2. Managing high cardinality metrics
  3. Data retention and storage strategies
  4. Scaling Prometheus environments
  5. Operational best practices
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h