Visão Geral
Este curso apresenta uma abordagem profunda e técnica sobre o uso da linguagem Mojo aplicada à Engenharia de Dados moderna, com foco em construção de pipelines de dados de altíssimo desempenho. Ao longo do curso, o aluno aprenderá como combinar a produtividade do ecossistema Python com a performance próxima ao baixo nível oferecida pelo Mojo, explorando paralelismo, controle explícito de memória, vetorização e integração com sistemas distribuídos. O curso cobre desde fundamentos da linguagem até arquiteturas avançadas de pipelines, processamento em batch e streaming, otimização de throughput e latência, além de estratégias para lidar com grandes volumes de dados em ambientes corporativos e de missão crítica.
Objetivo
Após realizar este curso Mojo para Data Engineering: Pipelines de Dados Ultrarrápidos, você será capaz de:
- Projetar e implementar pipelines de dados altamente performáticos utilizando Mojo
- Aplicar técnicas avançadas de paralelismo e concorrência em pipelines de dados
- Otimizar uso de memória e CPU para processamento de grandes volumes de dados
- Integrar Mojo com ecossistemas de dados existentes baseados em Python
- Construir pipelines de dados escaláveis com baixa latência e alto throughput
- Avaliar e aplicar estratégias de otimização para workloads intensivos em dados
Publico Alvo
-
- Engenheiros de Dados
- Desenvolvedores Python que atuam com dados
- Engenheiros de Software interessados em alto desempenho
- Arquitetos de Dados
- Profissionais de Big Data e Analytics
-
Pre-Requisitos
-
- Conhecimentos sólidos em Python
- Noções de Engenharia de Dados e pipelines
- Familiaridade com conceitos de processamento de dados em batch e streaming
- Conhecimentos básicos de sistemas distribuídos
-
Materiais
Ingles/Portugues
Conteúdo Programatico
Module 1: Introduction to Mojo for Data Engineering
- Overview of Mojo Language
- Mojo vs Python for Data Workloads
- Performance Characteristics and Use Cases
Module 2: Mojo Language Fundamentals
- Syntax and Core Concepts
- Strong Typing and Memory Semantics
- Control Flow and Data Structures
Module 3: High-Performance Data Processing
- Vectorization and SIMD Concepts
- Parallel Execution Models
- Memory Management for Large Datasets
Module 4: Building Data Pipelines with Mojo
- Pipeline Architecture Design
- Batch Data Processing Pipelines
- Streaming Data Processing Concepts
Module 5: Integration with Python Data Ecosystem
- Interoperability with Python Code
- Using Pandas and Arrow with Mojo
- Migrating Python Pipelines to Mojo
Module 6: Scalability and Distributed Pipelines
- Designing Scalable Pipelines
- Parallel Data Ingestion and Transformation
- Handling Large-Scale Data Sources
Module 7: Performance Optimization and Benchmarking
- Profiling Mojo Data Pipelines
- Throughput and Latency Optimization
- Benchmarking Against Traditional Pipelines
Module 8: Production-Ready Data Pipelines
- Error Handling and Fault Tolerance
- Monitoring and Observability
- Best Practices for Production Deployment
TENHO INTERESSE