Curso Introdução ao AWS Glue para ETL e Integração de Dados

  • DevOps | CI | CD | Kubernetes | Web3

Curso Introdução ao AWS Glue para ETL e Integração de Dados

16 horas
Visão Geral

Este Curso Introdução ao AWS Glue para ETL e Integração de Dados, apresenta o AWS Glue, serviço de ETL (Extração, Transformação e Carga) e integração de dados da Amazon Web Services. O AWS Glue facilita a descoberta, preparação e movimentação de dados em escala, permitindo o desenvolvimento de pipelines de dados eficientes para análise e integração com outros serviços AWS. Durante o curso, abordaremos os principais recursos do Glue, incluindo o catálogo de dados, a criação de scripts ETL, a orquestração de tarefas e o uso do Glue Studio. Ao final, você estará apto a configurar e gerenciar processos de ETL de forma eficiente e integrada na AWS, aproveitando as vantagens da arquitetura sem servidor.

Objetivo

Após realizar este curso de Introdução ao AWS Glue para ETL e Integração de Dados, você será capaz de:

  • Compreender e configurar o AWS Glue para pipelines de ETL.
  • Trabalhar com o AWS Glue Data Catalog para gerenciar metadados e esquemas de dados.
  • Criar e gerenciar tarefas de ETL utilizando scripts personalizados e Glue Studio.
  • Integrar o AWS Glue com outros serviços AWS para análises e transformação de dados.
Publico Alvo
  • Engenheiros de dados
  • Cientistas de dados
  • Profissionais de TI que desejam trabalhar com ETL e integração de dados
  • Especialistas em big data e analytics
  • Desenvolvedores interessados em criar pipelines de dados na nuvem
Materiais
Inglês + Exercícios + Lab Pratico
Conteúdo Programatico

Module 1: Introduction to AWS Glue and Data Integration

  1. Overview of AWS Glue and its key features
  2. Data integration concepts and best practices
  3. ETL basics and AWS Glue use cases

Module 2: Setting Up AWS Glue Environment

  1. IAM roles and permissions for AWS Glue
  2. AWS Glue Console and Glue Studio introduction
  3. Configuring Glue for data sources and targets

Module 3: AWS Glue Data Catalog

  1. Understanding the AWS Glue Data Catalog
  2. Creating and managing databases and tables
  3. Schema discovery and handling schema changes
  4. Integrating Glue Data Catalog with Amazon Athena and Redshift

Module 4: Creating ETL Jobs in AWS Glue

  1. Introduction to Glue ETL jobs and job types
  2. Writing and running Python and Spark scripts in Glue
  3. Extracting, transforming, and loading data using Glue
  4. Working with Glue connections and crawlers

Module 5: Building ETL Workflows with AWS Glue Studio

  1. Creating ETL pipelines visually with Glue Studio
  2. Mapping and transforming data with Glue Studio’s visual interface
  3. Troubleshooting and debugging Glue Studio jobs
  4. Monitoring and managing ETL jobs and workflows

Module 6: Data Transformation and Cleaning

  1. Using PySpark for data transformation in AWS Glue
  2. Handling data quality and cleansing with Glue
  3. Best practices for optimizing ETL job performance

Module 7: Integrating AWS Glue with Other AWS Services

  1. Exporting data to Amazon S3, Redshift, and RDS
  2. Leveraging Glue with Amazon Athena for data querying
  3. Integrating Glue workflows with AWS Step Functions
  4. Automating ETL processes with event triggers

Module 8: Monitoring, Scaling, and Cost Optimization

  1. Monitoring Glue jobs and pipelines with CloudWatch
  2. Scaling Glue jobs for large datasets
  3. Cost management strategies for Glue ETL jobs
  4. Tips for performance tuning and error handling
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h