Visão Geral
Este curso Engenharia de Observabilidade Arquitetura Enterprise Alta Escala e Multi-Cloud, forma especialistas em engenharia de observabilidade com foco em arquiteturas enterprise, ambientes de alta escala e cenários multi-cloud. A abordagem integra práticas modernas de monitoramento, tracing, logging e métricas, alinhadas a estratégias de confiabilidade, performance e resiliência de sistemas distribuídos.
Serão explorados conceitos avançados como telemetria distribuída, arquiteturas orientadas a eventos, engenharia de confiabilidade (SRE) e observabilidade como pilar estratégico para transformação digital. O curso utiliza tecnologias amplamente adotadas como OpenTelemetry, Prometheus, Grafana e Elastic Stack, aplicadas em ambientes multi-cloud como Amazon Web Services, Microsoft Azure e Google Cloud Platform.
O foco é preparar o profissional para projetar, implementar e operar plataformas de observabilidade robustas, escaláveis e resilientes em organizações complexas.
Objetivo
Após realizar este Curso Engenharia de Observabilidade (Arquitetura Enterprise, Alta Escala e Multi-Cloud), você será capaz de:
- Projetar arquiteturas de observabilidade para ambientes enterprise
- Implementar estratégias de observabilidade em alta escala
- Integrar logs, métricas e traces em uma visão unificada
- Utilizar OpenTelemetry para coleta padronizada de telemetria
- Construir plataformas multi-cloud resilientes e observáveis
- Definir SLIs, SLOs e SLAs alinhados ao negócio
- Automatizar monitoramento e resposta a incidentes
- Implementar práticas de engenharia de confiabilidade (SRE)
- Otimizar custos e performance em observabilidade
Publico Alvo
- Engenheiros DevOps e SRE
- Arquitetos de soluções e arquitetos cloud
- Engenheiros de plataforma (Platform Engineers)
- Profissionais de infraestrutura e operações (IT Ops)
- Especialistas em monitoramento e observabilidade
- Profissionais de segurança (SecOps)
Pre-Requisitos
- Conhecimento intermediário de redes e sistemas distribuídos
- Experiência com ambientes Linux
- Noções de cloud computing
- Conhecimento básico de containers (Docker/Kubernetes)
- Conceitos de logs, métricas e monitoramento
Materiais
Inglês/Português + Exercícios + Lab Pratico
Conteúdo Programatico
Module 1: Foundations of Observability Engineering
- Observability vs Monitoring vs APM
- Pillars of observability (logs, metrics, traces)
- Observability in distributed systems
- Challenges in modern architectures
Module 2: Enterprise Observability Architecture
- Designing observability architectures for large organizations
- Centralized vs decentralized observability models
- Data pipelines and telemetry flow
- Governance and standardization
Module 3: Telemetry Collection with OpenTelemetry
- OpenTelemetry architecture and components
- Instrumentation (auto and manual)
- Collectors and exporters
- Standardizing telemetry across environments
Module 4: Metrics at Scale with Prometheus
- Prometheus architecture and data model
- Service discovery and scraping
- Scaling Prometheus (federation, remote write)
- Long-term storage strategies
Module 5: Distributed Tracing
- Concepts of distributed tracing
- Trace context propagation
- Using tracing tools (Jaeger/Tempo)
- Troubleshooting microservices with traces
Module 6: Log Management at Enterprise Scale
- Centralized logging strategies
- Log ingestion pipelines
- Indexing and querying large volumes
- Cost optimization and retention policies
Module 7: Visualization and Observability UX
- Building dashboards in Grafana
- Correlating logs, metrics and traces
- Designing observability for decision making
- Advanced visualization techniques
Module 8: SRE and Reliability Engineering
- SLIs, SLOs and error budgets
- Incident management lifecycle
- Postmortem culture
- Chaos engineering fundamentals
Module 9: Multi-Cloud Observability
- Observability challenges in multi-cloud
- Cross-cloud telemetry aggregation
- Vendor lock-in avoidance strategies
- Hybrid and multi-region architectures
Module 10: Automation, AIOps and Advanced Practices
- Alerting strategies and noise reduction
- Automation and self-healing systems
- Introduction to AIOps
- Integrating observability with CI/CD pipelines
TENHO INTERESSE