Curso Python for Data Engineering

32 horas

Visão Geral

O curso Python para Engenharia de Dados foi desenvolvido para capacitar os participantes nas práticas essenciais de engenharia de dados, utilizando Python como principal linguagem. A engenharia de dados desempenha um papel fundamental na construção de pipelines de dados eficientes, permitindo a movimentação, transformação e armazenamento de grandes volumes de dados. Durante o curso, você aprenderá a construir e gerenciar pipelines de dados escaláveis, integrar diversas fontes de dados e otimizar o processamento de dados com Python.

Objetivo

Após realizar o curso Python para Engenharia de Dados, você será capaz de:

Projetar e implementar pipelines de dados eficientes utilizando Python.
Realizar integração de dados provenientes de diferentes fontes.
Manipular grandes volumes de dados utilizando bibliotecas como Pandas e PySpark.
Utilizar ferramentas de ETL para transformar dados e carregá-los em sistemas de armazenamento.
Trabalhar com bancos de dados relacionais e NoSQL.
Otimizar o processamento de dados em ambientes distribuídos.
Implementar pipelines de dados automatizados e escaláveis.

Publico Alvo

Engenheiros de dados que desejam aprimorar suas habilidades utilizando Python.
Desenvolvedores e cientistas de dados que desejam aprender mais sobre as técnicas e práticas de engenharia de dados.
Profissionais de TI interessados em trabalhar com a manipulação de grandes volumes de dados e construção de pipelines de dados.

Pre-Requisitos

Conhecimento básico de Python.
Familiaridade com bancos de dados e SQL.
Noções básicas de conceitos de big data e ETL (extração, transformação e carga).

Materiais

Inglês + Exercícios + Lab Pratico

Conteúdo Programatico

Module 1: Introduction to Data Engineering with Python

Overview of data engineering concepts
Understanding the role of a data engineer
Setting up Python environment for data engineering tasks
Introduction to key Python libraries for data engineering (Pandas, NumPy, PySpark)

Module 2: Data Extraction Techniques

Working with structured and unstructured data
Reading and writing data from CSV, JSON, and XML files
Connecting to APIs for data extraction
Extracting data from databases with SQLAlchemy and Python connectors

Module 3: Data Transformation with Python

Data cleaning and preparation using Pandas
Handling missing and inconsistent data
Data normalization and aggregation techniques
Implementing data transformation workflows

Module 4: Working with Databases (SQL and NoSQL)

Introduction to relational databases (PostgreSQL, MySQL)
Performing SQL queries with Python
Introduction to NoSQL databases (MongoDB, Cassandra)
Managing database connections and handling large datasets

Module 5: Building Data Pipelines with Python

Introduction to data pipelines and ETL processes
Using Apache Airflow to orchestrate and schedule data pipelines
Creating Python-based ETL jobs for data extraction, transformation, and loading
Monitoring and logging pipeline performance

Module 6: Working with Big Data Using PySpark

Introduction to big data and distributed computing
Setting up and configuring PySpark for data processing
Performing distributed data transformations with PySpark RDDs and DataFrames
Optimizing PySpark jobs for performance and scalability

Module 7: Cloud-Based Data Engineering

Introduction to cloud platforms for data engineering (AWS, Google Cloud, Azure)
Working with cloud storage (Amazon S3, Google Cloud Storage)
Processing data in the cloud using Python and cloud-native tools (AWS Lambda, Google Dataflow)
Deploying and automating data pipelines in the cloud

Module 8: Automating Data Workflows

Automating data pipeline execution with Python
Using scheduling tools to automate ETL tasks
Monitoring, alerting, and troubleshooting data pipelines
Best practices for error handling and retry mechanisms in data pipelines

Module 9: Final Project - Building a Scalable Data Pipeline

Designing and implementing a full data pipeline
Integrating multiple data sources
Processing and transforming large datasets
Deploying the pipeline to a production environment

TENHO INTERESSE

Cursos Relacionados

Curso Python Programação Advanced

32 horas

Ver Curso

Curso SAP ABAP S4hana Developer Foundation

32 horas

Ver Curso

Curso API Testing Overview

40 Horas

Ver Curso

Curso MATLAB Foundation

24 horas

Ver Curso

Curso Full Stack and React Essentials

32 Horas

Ver Curso

Curso Node.js for JavaScript Developers

24 horas

Ver Curso

Curso SoapUI for API Testing

16 horas

Ver Curso

Curso Elasticsearch for Developers

16H

Ver Curso

Curso Elastic Stack Foundation

24 horas

Ver Curso

Curso Apache Spark™ Foundation

8 Horas

Ver Curso

Curso Python for Data Engineering

Curso Python for Data Engineering

Visão Geral

Objetivo

Publico Alvo

Pre-Requisitos

Materiais

Conteúdo Programatico

Ficha do Curso

Investimento

Formato de Entrega

Nível

Calendário

Receba todas informações

Cursos Relacionados

Curso Python Programação Advanced

Curso SAP ABAP S4hana Developer Foundation

Curso API Testing Overview

Curso MATLAB Foundation

Curso Full Stack and React Essentials

Curso Node.js for JavaScript Developers

Curso SoapUI for API Testing

Curso Elasticsearch for Developers

Curso Elastic Stack Foundation

Curso Apache Spark™ Foundation

O que você quer aprender hoje?

Curso Python for Data Engineering

Curso Python for Data Engineering

Visão Geral

Objetivo

Publico Alvo

Pre-Requisitos

Materiais

Conteúdo Programatico

Ficha do Curso

Investimento

Formato de Entrega

Nível

Calendário

Receba todas informações

Cursos Relacionados

Curso Python Programação Advanced

Curso SAP ABAP S4hana Developer Foundation

Curso API Testing Overview

Curso MATLAB Foundation

Curso Full Stack and React Essentials

Curso Node.js for JavaScript Developers

Curso SoapUI for API Testing

Curso Elasticsearch for Developers

Curso Elastic Stack Foundation

Curso Apache Spark™ Foundation