Curso Observability for Kafka and OpenSearch on Kubernetes

24 horas

Visão Geral

Este curso ensina como implementar, configurar e operar soluções completas de observabilidade para ambientes distribuídos baseados em Apache Kafka e OpenSearch executando sobre Kubernetes.
O aluno aprenderá a monitorar métricas, logs e eventos usando ferramentas modernas como Prometheus, Grafana, OpenSearch Dashboards, Filebeat, Fluent Bit e Exporters especializados, além de práticas de instrumentação e troubleshooting.

Ao final, o participante terá a capacidade de criar um ecossistema de observabilidade robusto para análise de performance, identificação de gargalos, diagnóstico de falhas e acompanhamento de pipelines de dados em tempo real.

Objetivo

Após realizar este curso Observability for Kafka and OpenSearch on Kubernetes, você será capaz de:

Criar uma arquitetura completa de observabilidade para Kafka e OpenSearch em K8s
Configurar coleta de métricas, logs e eventos em ambientes distribuídos
Monitorar brokers, topics, partitions, consumer groups e ingest pipelines
Identificar problemas de performance e gargalos em clusters Kafka
Acompanhar a saúde, estado, shards e índices do OpenSearch
Integrar Prometheus, Grafana e exporters especializados
Criar dashboards avançados para detecção de anomalias e análise temporal
Implementar troubleshooting orientado a observabilidade
Aplicar boas práticas de monitoramento em produção
Configurar alertas e regras automáticas

Publico Alvo

Engenheiros DevOps
Engenheiros de dados
Administradores de Kubernetes
SREs (Site Reliability Engineers)
Arquitetos de software
Desenvolvedores que precisam monitorar serviços de streaming
Profissionais responsáveis por operação de OpenSearch e Kafka em produção

Pre-Requisitos

Conhecimentos intermediários de Kubernetes
Noções de Apache Kafka e OpenSearch
Noções de Helm e YAML
Noções básicas de métricas, logs e observabilidade
Experiência prévia com linha de comando

Materiais

Inglês/Português + Exercícios + Lab Pratico

Conteúdo Programatico

Module 1 — Introduction to Observability for Data Platforms

Observability pillars: logs, metrics, traces
Why observability is critical for Kafka and OpenSearch
Challenges of distributed data systems on Kubernetes
Tools and architecture overview

Module 2 — Monitoring Kafka on Kubernetes

Understanding Kafka performance metrics
Broker metrics: CPU, memory, I/O, network
Topic and partition metrics
Consumer lag monitoring
Exporters for Kafka (JMX Exporter, Kafka Exporter)
Collecting Kafka metrics with Prometheus
Visualizing Kafka health in Grafana

Module 3 — Monitoring OpenSearch on Kubernetes

Key OpenSearch metrics: shards, indexing rate, search latency
Node health and cluster status (green/yellow/red)
Monitoring heap usage, GC activity and thread pools
OpenSearch Exporter installation
Prometheus scraping configuration
Grafana dashboards for OpenSearch performance

Module 4 — Logging Architecture

Log ingestion pipelines for Kubernetes
Fluent Bit vs Filebeat: use cases and best practices
Shipping Kafka logs to OpenSearch
Shipping OpenSearch logs to OpenSearch (self-monitoring)
Parsing logs for structured observability
Building dashboards in OpenSearch Dashboards

Module 5 — Observability for Streaming Pipelines

Tracking message flow across producers, brokers, consumers
Identifying bottlenecks in ingestion pipelines
Slow consumers and partition skew analysis
Distributed logging for multi-service pipelines
Using Kafdrop for visual inspection and debugging

Module 6 — Prometheus & Grafana Deep Dive

Prometheus fundamentals
Recording rules and alerting rules
Setting up Alertmanager
Creating custom dashboards for Kafka and OpenSearch
Using Grafana Loki (overview)
Using Grafana Tempo (overview)

Module 7 — OpenSearch Dashboards for Analytics

Dashboards and visualizations
Index patterns and search queries
Identifying ingestion anomalies
Detecting cluster degradation
Combining logs and metrics for root-cause analysis

Module 8 — Tracing and Advanced Diagnostics

Overview of tracing in event-driven systems
Jaeger or OpenTelemetry (optional overview)
Tracing event latency from producer to consumer
Correlation IDs and distributed tracing patterns

Module 9 — Alerting and Automation

Kafka alerting: broker failure, lag thresholds, partition issues
OpenSearch alerting: shard failures, node unbalance
Configuring Prometheus alert rules
Integrating alerting into Slack, Teams or email
Automated recovery strategies

Module 10 — Hands-On Labs

Lab 1: Installing Prometheus and Grafana on Kubernetes
Lab 2: Configuring Kafka Exporter + JMX Exporter
Lab 3: Configuring OpenSearch Exporter
Lab 4: Building Kafka performance dashboards
Lab 5: Building OpenSearch cluster health dashboards
Lab 6: Shipping logs with Fluent Bit
Lab 7: Troubleshooting real-world Kafka scenarios
Lab 8: Troubleshooting OpenSearch performance issues
Lab 9: Lag investigation using Kafdrop + Grafana
Lab 10: Alerting configuration with Alertmanager

32h

Ver Curso

Curso Observability for Kafka and OpenSearch on Kubernetes

Curso Observability for Kafka and OpenSearch on Kubernetes

Visão Geral

Objetivo

Publico Alvo

Pre-Requisitos

Materiais

Conteúdo Programatico

Ficha do Curso

Investimento

Formato de Entrega

Nível

Calendário

Receba todas informações

Cursos Relacionados

Curso Docker Foundation

Curso Ansible Red Hat Basics Automation Technical Foundation

Curso Ansible Foundation

Curso Terraform Foundation

Curso Terraform Deploying to Oracle Cloud Infrastructure

Curso Ansible Linux Automation with Ansible

Curso Agile Product Owner

Curso Agile Fundamentals

Ansible Overview of Ansible architecture

Advanced Automation: Ansible Best Practices

O que você quer aprender hoje?

Curso Observability for Kafka and OpenSearch on Kubernetes

Curso Observability for Kafka and OpenSearch on Kubernetes

Visão Geral

Objetivo

Publico Alvo

Pre-Requisitos

Materiais

Conteúdo Programatico

Ficha do Curso

Investimento

Formato de Entrega

Nível

Calendário

Receba todas informações

Cursos Relacionados

Curso Docker Foundation

Curso Ansible Red Hat Basics Automation Technical Foundation

Curso Ansible Foundation

Curso Terraform Foundation

Curso Terraform Deploying to Oracle Cloud Infrastructure

Curso Ansible Linux Automation with Ansible

Curso Agile Product Owner

Curso Agile Fundamentals

Ansible Overview of Ansible architecture

Advanced Automation: Ansible Best Practices