Prometheus for SRE and DevOps

Curso Prometheus for SRE and DevOps

24 horas

Visão Geral

O curso Prometheus for SRE and DevOps capacita profissionais a implementar, operar e otimizar plataformas modernas de monitoramento utilizando o Prometheus dentro de práticas de Site Reliability Engineering (SRE) e pipelines DevOps. O treinamento apresenta os fundamentos de observabilidade orientada a métricas, monitoramento de aplicações distribuídas e práticas de confiabilidade de serviços.

Durante o curso, os participantes aprenderão a coletar métricas de infraestrutura, containers, aplicações e plataformas cloud, construir consultas avançadas utilizando PromQL, implementar alertas inteligentes e integrar dashboards através do Grafana. Também serão abordadas práticas utilizadas por equipes SRE para monitorar SLIs, definir SLOs e reduzir incidentes operacionais.

Além disso, o treinamento explora integração com ambientes cloud native como Kubernetes, automação de monitoramento em pipelines DevOps e implementação de observabilidade em larga escala. Ao final, os participantes estarão preparados para implementar monitoramento confiável e escalável em ambientes modernos de infraestrutura e aplicações.

Objetivo

Após realizar este curso Prometheus for SRE and DevOps, você será capaz de:

Implementar monitoramento de infraestrutura e aplicações utilizando Prometheus
Criar consultas avançadas de métricas utilizando PromQL
Construir dashboards operacionais para monitoramento de serviços
Implementar alertas baseados em métricas e indicadores de confiabilidade
Monitorar ambientes Kubernetes e plataformas cloud
Definir e acompanhar SLIs, SLOs e error budgets em ambientes SRE
Integrar monitoramento em pipelines DevOps e práticas de automação

Publico Alvo

Engenheiros DevOps
Site Reliability Engineers (SRE)
Administradores de sistemas
Engenheiros de plataforma
Engenheiros de cloud
Profissionais de operações de TI

Pre-Requisitos

Conhecimento básico de Linux
Conceitos básicos de redes e infraestrutura
Noções de containers e Kubernetes
Familiaridade com conceitos DevOps

Materiais

Inglês/Português + Exercícios + Lab Pratico

Conteúdo Programatico

Module 1: Monitoring and Observability Fundamentals

Monitoring vs observability concepts
Metrics, logs and traces overview
Role of monitoring in DevOps and SRE
Introduction to Prometheus architecture
Time series metrics fundamentals

Module 2: Prometheus Installation and Configuration

Installing Prometheus on Linux
Prometheus configuration file structure
Defining scrape targets
Service discovery mechanisms
Managing configuration changes

Module 3: Collecting Infrastructure and Application Metrics

Exporters architecture
Using Node Exporter for infrastructure monitoring
Application instrumentation concepts
Monitoring containers and services
Labeling strategies and metric organization

Module 4: PromQL for SRE Operations

PromQL query fundamentals
Aggregation and filtering techniques
Rate and histogram functions
Query optimization strategies
Building operational queries

Module 5: Dashboards and Visualization

Grafana architecture and integration
Building operational dashboards
Visualizing service health indicators
Designing SRE dashboards
Dashboard best practices

Module 6: Alerting and Incident Response

Alerting concepts and best practices
Configuring Alertmanager
Routing and notification channels
Alert grouping and deduplication
Incident response workflows

Module 7: Monitoring Kubernetes Environments

Prometheus Operator overview
Monitoring Kubernetes clusters
Monitoring pods, nodes and services
Kubernetes service discovery
Cluster observability best practices

Module 8: SRE Metrics and Reliability Engineering

Defining Service Level Indicators (SLI)
Implementing Service Level Objectives (SLO)
Managing error budgets
Reliability metrics and reporting
Improving operational resilience

Module 9: Integrating Monitoring into DevOps Pipelines

Observability in CI/CD pipelines
Monitoring deployment health
Canary deployment monitoring
Automation of monitoring configuration
DevOps observability best practices

Module 10: Operating Prometheus in Production

Performance tuning
Managing high cardinality metrics
Data retention and storage strategies
Scaling Prometheus environments
Operational best practices

32h

Ver Curso

Curso Prometheus for SRE and DevOps

Curso Prometheus for SRE and DevOps

Visão Geral

Objetivo

Publico Alvo

Pre-Requisitos

Materiais

Conteúdo Programatico

Ficha do Curso

Investimento

Formato de Entrega

Nível

Calendário

Receba todas informações

Cursos Relacionados

Curso Docker Foundation

Curso Ansible Red Hat Basics Automation Technical Foundation

Curso Ansible Foundation

Curso Terraform Foundation

Curso Terraform Deploying to Oracle Cloud Infrastructure

Curso Ansible Linux Automation with Ansible

Curso Agile Product Owner

Curso Agile Fundamentals

Ansible Overview of Ansible architecture

Advanced Automation: Ansible Best Practices

O que você quer aprender hoje?

Curso Prometheus for SRE and DevOps

Curso Prometheus for SRE and DevOps

Visão Geral

Objetivo

Publico Alvo

Pre-Requisitos

Materiais

Conteúdo Programatico

Ficha do Curso

Investimento

Formato de Entrega

Nível

Calendário

Receba todas informações

Cursos Relacionados

Curso Docker Foundation

Curso Ansible Red Hat Basics Automation Technical Foundation

Curso Ansible Foundation

Curso Terraform Foundation

Curso Terraform Deploying to Oracle Cloud Infrastructure

Curso Ansible Linux Automation with Ansible

Curso Agile Product Owner

Curso Agile Fundamentals

Ansible Overview of Ansible architecture

Advanced Automation: Ansible Best Practices