Visão Geral
Este Curso Introdução ao AWS Glue para ETL e Integração de Dados, apresenta o AWS Glue, serviço de ETL (Extração, Transformação e Carga) e integração de dados da Amazon Web Services. O AWS Glue facilita a descoberta, preparação e movimentação de dados em escala, permitindo o desenvolvimento de pipelines de dados eficientes para análise e integração com outros serviços AWS. Durante o curso, abordaremos os principais recursos do Glue, incluindo o catálogo de dados, a criação de scripts ETL, a orquestração de tarefas e o uso do Glue Studio. Ao final, você estará apto a configurar e gerenciar processos de ETL de forma eficiente e integrada na AWS, aproveitando as vantagens da arquitetura sem servidor.
Objetivo
Após realizar este curso de Introdução ao AWS Glue para ETL e Integração de Dados, você será capaz de:
- Compreender e configurar o AWS Glue para pipelines de ETL.
- Trabalhar com o AWS Glue Data Catalog para gerenciar metadados e esquemas de dados.
- Criar e gerenciar tarefas de ETL utilizando scripts personalizados e Glue Studio.
- Integrar o AWS Glue com outros serviços AWS para análises e transformação de dados.
Publico Alvo
- Engenheiros de dados
- Cientistas de dados
- Profissionais de TI que desejam trabalhar com ETL e integração de dados
- Especialistas em big data e analytics
- Desenvolvedores interessados em criar pipelines de dados na nuvem
Materiais
Inglês + Exercícios + Lab Pratico
Conteúdo Programatico
Module 1: Introduction to AWS Glue and Data Integration
- Overview of AWS Glue and its key features
- Data integration concepts and best practices
- ETL basics and AWS Glue use cases
Module 2: Setting Up AWS Glue Environment
- IAM roles and permissions for AWS Glue
- AWS Glue Console and Glue Studio introduction
- Configuring Glue for data sources and targets
Module 3: AWS Glue Data Catalog
- Understanding the AWS Glue Data Catalog
- Creating and managing databases and tables
- Schema discovery and handling schema changes
- Integrating Glue Data Catalog with Amazon Athena and Redshift
Module 4: Creating ETL Jobs in AWS Glue
- Introduction to Glue ETL jobs and job types
- Writing and running Python and Spark scripts in Glue
- Extracting, transforming, and loading data using Glue
- Working with Glue connections and crawlers
Module 5: Building ETL Workflows with AWS Glue Studio
- Creating ETL pipelines visually with Glue Studio
- Mapping and transforming data with Glue Studio’s visual interface
- Troubleshooting and debugging Glue Studio jobs
- Monitoring and managing ETL jobs and workflows
Module 6: Data Transformation and Cleaning
- Using PySpark for data transformation in AWS Glue
- Handling data quality and cleansing with Glue
- Best practices for optimizing ETL job performance
Module 7: Integrating AWS Glue with Other AWS Services
- Exporting data to Amazon S3, Redshift, and RDS
- Leveraging Glue with Amazon Athena for data querying
- Integrating Glue workflows with AWS Step Functions
- Automating ETL processes with event triggers
Module 8: Monitoring, Scaling, and Cost Optimization
- Monitoring Glue jobs and pipelines with CloudWatch
- Scaling Glue jobs for large datasets
- Cost management strategies for Glue ETL jobs
- Tips for performance tuning and error handling
TENHO INTERESSE