Visão Geral
O curso Prometheus for SRE and DevOps capacita profissionais a implementar, operar e otimizar plataformas modernas de monitoramento utilizando o Prometheus dentro de práticas de Site Reliability Engineering (SRE) e pipelines DevOps. O treinamento apresenta os fundamentos de observabilidade orientada a métricas, monitoramento de aplicações distribuídas e práticas de confiabilidade de serviços.
Durante o curso, os participantes aprenderão a coletar métricas de infraestrutura, containers, aplicações e plataformas cloud, construir consultas avançadas utilizando PromQL, implementar alertas inteligentes e integrar dashboards através do Grafana. Também serão abordadas práticas utilizadas por equipes SRE para monitorar SLIs, definir SLOs e reduzir incidentes operacionais.
Além disso, o treinamento explora integração com ambientes cloud native como Kubernetes, automação de monitoramento em pipelines DevOps e implementação de observabilidade em larga escala. Ao final, os participantes estarão preparados para implementar monitoramento confiável e escalável em ambientes modernos de infraestrutura e aplicações.
Objetivo
Após realizar este curso Prometheus for SRE and DevOps, você será capaz de:
- Implementar monitoramento de infraestrutura e aplicações utilizando Prometheus
- Criar consultas avançadas de métricas utilizando PromQL
- Construir dashboards operacionais para monitoramento de serviços
- Implementar alertas baseados em métricas e indicadores de confiabilidade
- Monitorar ambientes Kubernetes e plataformas cloud
- Definir e acompanhar SLIs, SLOs e error budgets em ambientes SRE
- Integrar monitoramento em pipelines DevOps e práticas de automação
Publico Alvo
- Engenheiros DevOps
- Site Reliability Engineers (SRE)
- Administradores de sistemas
- Engenheiros de plataforma
- Engenheiros de cloud
- Profissionais de operações de TI
Pre-Requisitos
- Conhecimento básico de Linux
- Conceitos básicos de redes e infraestrutura
- Noções de containers e Kubernetes
- Familiaridade com conceitos DevOps
Materiais
Inglês/Português + Exercícios + Lab Pratico
Conteúdo Programatico
Module 1: Monitoring and Observability Fundamentals
- Monitoring vs observability concepts
- Metrics, logs and traces overview
- Role of monitoring in DevOps and SRE
- Introduction to Prometheus architecture
- Time series metrics fundamentals
Module 2: Prometheus Installation and Configuration
- Installing Prometheus on Linux
- Prometheus configuration file structure
- Defining scrape targets
- Service discovery mechanisms
- Managing configuration changes
Module 3: Collecting Infrastructure and Application Metrics
- Exporters architecture
- Using Node Exporter for infrastructure monitoring
- Application instrumentation concepts
- Monitoring containers and services
- Labeling strategies and metric organization
Module 4: PromQL for SRE Operations
- PromQL query fundamentals
- Aggregation and filtering techniques
- Rate and histogram functions
- Query optimization strategies
- Building operational queries
Module 5: Dashboards and Visualization
- Grafana architecture and integration
- Building operational dashboards
- Visualizing service health indicators
- Designing SRE dashboards
- Dashboard best practices
Module 6: Alerting and Incident Response
- Alerting concepts and best practices
- Configuring Alertmanager
- Routing and notification channels
- Alert grouping and deduplication
- Incident response workflows
Module 7: Monitoring Kubernetes Environments
- Prometheus Operator overview
- Monitoring Kubernetes clusters
- Monitoring pods, nodes and services
- Kubernetes service discovery
- Cluster observability best practices
Module 8: SRE Metrics and Reliability Engineering
- Defining Service Level Indicators (SLI)
- Implementing Service Level Objectives (SLO)
- Managing error budgets
- Reliability metrics and reporting
- Improving operational resilience
Module 9: Integrating Monitoring into DevOps Pipelines
- Observability in CI/CD pipelines
- Monitoring deployment health
- Canary deployment monitoring
- Automation of monitoring configuration
- DevOps observability best practices
Module 10: Operating Prometheus in Production
- Performance tuning
- Managing high cardinality metrics
- Data retention and storage strategies
- Scaling Prometheus environments
- Operational best practices
TENHO INTERESSE