Curso Python for Data Engineering
32 horasVisão Geral
O curso Python para Engenharia de Dados foi desenvolvido para capacitar os participantes nas práticas essenciais de engenharia de dados, utilizando Python como principal linguagem. A engenharia de dados desempenha um papel fundamental na construção de pipelines de dados eficientes, permitindo a movimentação, transformação e armazenamento de grandes volumes de dados. Durante o curso, você aprenderá a construir e gerenciar pipelines de dados escaláveis, integrar diversas fontes de dados e otimizar o processamento de dados com Python.
Objetivo
Após realizar o curso Python para Engenharia de Dados, você será capaz de:
- Projetar e implementar pipelines de dados eficientes utilizando Python.
- Realizar integração de dados provenientes de diferentes fontes.
- Manipular grandes volumes de dados utilizando bibliotecas como Pandas e PySpark.
- Utilizar ferramentas de ETL para transformar dados e carregá-los em sistemas de armazenamento.
- Trabalhar com bancos de dados relacionais e NoSQL.
- Otimizar o processamento de dados em ambientes distribuídos.
- Implementar pipelines de dados automatizados e escaláveis.
Publico Alvo
- Engenheiros de dados que desejam aprimorar suas habilidades utilizando Python.
- Desenvolvedores e cientistas de dados que desejam aprender mais sobre as técnicas e práticas de engenharia de dados.
- Profissionais de TI interessados em trabalhar com a manipulação de grandes volumes de dados e construção de pipelines de dados.
Pre-Requisitos
- Conhecimento básico de Python.
- Familiaridade com bancos de dados e SQL.
- Noções básicas de conceitos de big data e ETL (extração, transformação e carga).
Materiais
Inglês + Exercícios + Lab PraticoConteúdo Programatico
Module 1: Introduction to Data Engineering with Python
- Overview of data engineering concepts
- Understanding the role of a data engineer
- Setting up Python environment for data engineering tasks
- Introduction to key Python libraries for data engineering (Pandas, NumPy, PySpark)
Module 2: Data Extraction Techniques
- Working with structured and unstructured data
- Reading and writing data from CSV, JSON, and XML files
- Connecting to APIs for data extraction
- Extracting data from databases with SQLAlchemy and Python connectors
Module 3: Data Transformation with Python
- Data cleaning and preparation using Pandas
- Handling missing and inconsistent data
- Data normalization and aggregation techniques
- Implementing data transformation workflows
Module 4: Working with Databases (SQL and NoSQL)
- Introduction to relational databases (PostgreSQL, MySQL)
- Performing SQL queries with Python
- Introduction to NoSQL databases (MongoDB, Cassandra)
- Managing database connections and handling large datasets
Module 5: Building Data Pipelines with Python
- Introduction to data pipelines and ETL processes
- Using Apache Airflow to orchestrate and schedule data pipelines
- Creating Python-based ETL jobs for data extraction, transformation, and loading
- Monitoring and logging pipeline performance
Module 6: Working with Big Data Using PySpark
- Introduction to big data and distributed computing
- Setting up and configuring PySpark for data processing
- Performing distributed data transformations with PySpark RDDs and DataFrames
- Optimizing PySpark jobs for performance and scalability
Module 7: Cloud-Based Data Engineering
- Introduction to cloud platforms for data engineering (AWS, Google Cloud, Azure)
- Working with cloud storage (Amazon S3, Google Cloud Storage)
- Processing data in the cloud using Python and cloud-native tools (AWS Lambda, Google Dataflow)
- Deploying and automating data pipelines in the cloud
Module 8: Automating Data Workflows
- Automating data pipeline execution with Python
- Using scheduling tools to automate ETL tasks
- Monitoring, alerting, and troubleshooting data pipelines
- Best practices for error handling and retry mechanisms in data pipelines
Module 9: Final Project - Building a Scalable Data Pipeline
- Designing and implementing a full data pipeline
- Integrating multiple data sources
- Processing and transforming large datasets
- Deploying the pipeline to a production environment