Curso Python for Data Engineering

  • Development

Curso Python for Data Engineering

32 horas
Visão Geral

O curso Python para Engenharia de Dados foi desenvolvido para capacitar os participantes nas práticas essenciais de engenharia de dados, utilizando Python como principal linguagem. A engenharia de dados desempenha um papel fundamental na construção de pipelines de dados eficientes, permitindo a movimentação, transformação e armazenamento de grandes volumes de dados. Durante o curso, você aprenderá a construir e gerenciar pipelines de dados escaláveis, integrar diversas fontes de dados e otimizar o processamento de dados com Python.

Objetivo

Após realizar o curso Python para Engenharia de Dados, você será capaz de:

  • Projetar e implementar pipelines de dados eficientes utilizando Python.
  • Realizar integração de dados provenientes de diferentes fontes.
  • Manipular grandes volumes de dados utilizando bibliotecas como Pandas e PySpark.
  • Utilizar ferramentas de ETL para transformar dados e carregá-los em sistemas de armazenamento.
  • Trabalhar com bancos de dados relacionais e NoSQL.
  • Otimizar o processamento de dados em ambientes distribuídos.
  • Implementar pipelines de dados automatizados e escaláveis.
Publico Alvo
  • Engenheiros de dados que desejam aprimorar suas habilidades utilizando Python.
  • Desenvolvedores e cientistas de dados que desejam aprender mais sobre as técnicas e práticas de engenharia de dados.
  • Profissionais de TI interessados em trabalhar com a manipulação de grandes volumes de dados e construção de pipelines de dados.
Pre-Requisitos
  • Conhecimento básico de Python.
  • Familiaridade com bancos de dados e SQL.
  • Noções básicas de conceitos de big data e ETL (extração, transformação e carga).
Materiais
Inglês + Exercícios + Lab Pratico
Conteúdo Programatico

Module 1: Introduction to Data Engineering with Python

  1. Overview of data engineering concepts
  2. Understanding the role of a data engineer
  3. Setting up Python environment for data engineering tasks
  4. Introduction to key Python libraries for data engineering (Pandas, NumPy, PySpark)

Module 2: Data Extraction Techniques

  1. Working with structured and unstructured data
  2. Reading and writing data from CSV, JSON, and XML files
  3. Connecting to APIs for data extraction
  4. Extracting data from databases with SQLAlchemy and Python connectors

Module 3: Data Transformation with Python

  1. Data cleaning and preparation using Pandas
  2. Handling missing and inconsistent data
  3. Data normalization and aggregation techniques
  4. Implementing data transformation workflows

Module 4: Working with Databases (SQL and NoSQL)

  1. Introduction to relational databases (PostgreSQL, MySQL)
  2. Performing SQL queries with Python
  3. Introduction to NoSQL databases (MongoDB, Cassandra)
  4. Managing database connections and handling large datasets

Module 5: Building Data Pipelines with Python

  1. Introduction to data pipelines and ETL processes
  2. Using Apache Airflow to orchestrate and schedule data pipelines
  3. Creating Python-based ETL jobs for data extraction, transformation, and loading
  4. Monitoring and logging pipeline performance

Module 6: Working with Big Data Using PySpark

  • Introduction to big data and distributed computing
  • Setting up and configuring PySpark for data processing
  • Performing distributed data transformations with PySpark RDDs and DataFrames
  • Optimizing PySpark jobs for performance and scalability

Module 7: Cloud-Based Data Engineering

  • Introduction to cloud platforms for data engineering (AWS, Google Cloud, Azure)
  • Working with cloud storage (Amazon S3, Google Cloud Storage)
  • Processing data in the cloud using Python and cloud-native tools (AWS Lambda, Google Dataflow)
  • Deploying and automating data pipelines in the cloud

Module 8: Automating Data Workflows

  • Automating data pipeline execution with Python
  • Using scheduling tools to automate ETL tasks
  • Monitoring, alerting, and troubleshooting data pipelines
  • Best practices for error handling and retry mechanisms in data pipelines

Module 9: Final Project - Building a Scalable Data Pipeline

  • Designing and implementing a full data pipeline
  • Integrating multiple data sources
  • Processing and transforming large datasets
  • Deploying the pipeline to a production environment
TENHO INTERESSE

Cursos Relacionados

Curso Python Programação Advanced

32 horas

Curso SAP ABAP S4hana Developer Foundation

32 horas

Curso Full Stack and React Essentials

32 Horas

Curso Node.js for JavaScript Developers

24 horas

Curso Elasticsearch for Developers

16H

Curso Elastic Stack Foundation

24 horas

Curso Apache Spark™ Foundation

8 Horas