Visão Geral
Este curso ensina como implementar, configurar e operar soluções completas de observabilidade para ambientes distribuídos baseados em Apache Kafka e OpenSearch executando sobre Kubernetes.
O aluno aprenderá a monitorar métricas, logs e eventos usando ferramentas modernas como Prometheus, Grafana, OpenSearch Dashboards, Filebeat, Fluent Bit e Exporters especializados, além de práticas de instrumentação e troubleshooting.
Ao final, o participante terá a capacidade de criar um ecossistema de observabilidade robusto para análise de performance, identificação de gargalos, diagnóstico de falhas e acompanhamento de pipelines de dados em tempo real.
Objetivo
Após realizar este curso Observability for Kafka and OpenSearch on Kubernetes, você será capaz de:
- Criar uma arquitetura completa de observabilidade para Kafka e OpenSearch em K8s
- Configurar coleta de métricas, logs e eventos em ambientes distribuídos
- Monitorar brokers, topics, partitions, consumer groups e ingest pipelines
- Identificar problemas de performance e gargalos em clusters Kafka
- Acompanhar a saúde, estado, shards e índices do OpenSearch
- Integrar Prometheus, Grafana e exporters especializados
- Criar dashboards avançados para detecção de anomalias e análise temporal
- Implementar troubleshooting orientado a observabilidade
- Aplicar boas práticas de monitoramento em produção
- Configurar alertas e regras automáticas
Publico Alvo
- Engenheiros DevOps
- Engenheiros de dados
- Administradores de Kubernetes
- SREs (Site Reliability Engineers)
- Arquitetos de software
- Desenvolvedores que precisam monitorar serviços de streaming
- Profissionais responsáveis por operação de OpenSearch e Kafka em produção
Pre-Requisitos
- Conhecimentos intermediários de Kubernetes
- Noções de Apache Kafka e OpenSearch
- Noções de Helm e YAML
- Noções básicas de métricas, logs e observabilidade
- Experiência prévia com linha de comando
Materiais
Inglês/Português + Exercícios + Lab Pratico
Conteúdo Programatico
Module 1 — Introduction to Observability for Data Platforms
- Observability pillars: logs, metrics, traces
- Why observability is critical for Kafka and OpenSearch
- Challenges of distributed data systems on Kubernetes
- Tools and architecture overview
Module 2 — Monitoring Kafka on Kubernetes
- Understanding Kafka performance metrics
- Broker metrics: CPU, memory, I/O, network
- Topic and partition metrics
- Consumer lag monitoring
- Exporters for Kafka (JMX Exporter, Kafka Exporter)
- Collecting Kafka metrics with Prometheus
- Visualizing Kafka health in Grafana
Module 3 — Monitoring OpenSearch on Kubernetes
- Key OpenSearch metrics: shards, indexing rate, search latency
- Node health and cluster status (green/yellow/red)
- Monitoring heap usage, GC activity and thread pools
- OpenSearch Exporter installation
- Prometheus scraping configuration
- Grafana dashboards for OpenSearch performance
Module 4 — Logging Architecture
- Log ingestion pipelines for Kubernetes
- Fluent Bit vs Filebeat: use cases and best practices
- Shipping Kafka logs to OpenSearch
- Shipping OpenSearch logs to OpenSearch (self-monitoring)
- Parsing logs for structured observability
- Building dashboards in OpenSearch Dashboards
Module 5 — Observability for Streaming Pipelines
- Tracking message flow across producers, brokers, consumers
- Identifying bottlenecks in ingestion pipelines
- Slow consumers and partition skew analysis
- Distributed logging for multi-service pipelines
- Using Kafdrop for visual inspection and debugging
Module 6 — Prometheus & Grafana Deep Dive
- Prometheus fundamentals
- Recording rules and alerting rules
- Setting up Alertmanager
- Creating custom dashboards for Kafka and OpenSearch
- Using Grafana Loki (overview)
- Using Grafana Tempo (overview)
Module 7 — OpenSearch Dashboards for Analytics
- Dashboards and visualizations
- Index patterns and search queries
- Identifying ingestion anomalies
- Detecting cluster degradation
- Combining logs and metrics for root-cause analysis
Module 8 — Tracing and Advanced Diagnostics
- Overview of tracing in event-driven systems
- Jaeger or OpenTelemetry (optional overview)
- Tracing event latency from producer to consumer
- Correlation IDs and distributed tracing patterns
Module 9 — Alerting and Automation
- Kafka alerting: broker failure, lag thresholds, partition issues
- OpenSearch alerting: shard failures, node unbalance
- Configuring Prometheus alert rules
- Integrating alerting into Slack, Teams or email
- Automated recovery strategies
Module 10 — Hands-On Labs
- Lab 1: Installing Prometheus and Grafana on Kubernetes
- Lab 2: Configuring Kafka Exporter + JMX Exporter
- Lab 3: Configuring OpenSearch Exporter
- Lab 4: Building Kafka performance dashboards
- Lab 5: Building OpenSearch cluster health dashboards
- Lab 6: Shipping logs with Fluent Bit
- Lab 7: Troubleshooting real-world Kafka scenarios
- Lab 8: Troubleshooting OpenSearch performance issues
- Lab 9: Lag investigation using Kafdrop + Grafana
- Lab 10: Alerting configuration with Alertmanager
TENHO INTERESSE