Visão Geral
Este Curso Dataflow Serverless Data Processing with Dataflow é destinado a profissionais de Big Data que desejam aprofundar sua compreensão do Dataflow para aprimorar seus aplicativos de processamento de dados. Começando com os fundamentos, este treinamento explica como o Apache Beam e o Dataflow trabalham juntos para atender às suas necessidades de processamento de dados sem o risco de dependência de fornecedor. A seção sobre desenvolvimento de pipelines aborda como converter sua lógica de negócios em aplicativos de processamento de dados que podem ser executados no Dataflow . Este treinamento culmina com foco em operações, que analisa as lições mais importantes para operar um aplicativo de dados no Dataflow, incluindo monitoramento, solução de problemas, testes e confiabilidade.
Objetivo
Após realizar o Curso Dataflow Serverless Data Processing with Dataflow, os alunos serão capazes de:
- Demonstre como o Apache Beam e o Dataflow funcionam juntos para atender às necessidades de processamento de dados da sua organização.
- Resuma os benefícios do Beam Portability Framework e ative-o nos pipelines do Dataflow.
- Habilite Shuffle e Streaming Engine, para pipelines em lote e streaming, respectivamente, para desempenho máximo.
- Habilite o agendamento flexível de recursos para um desempenho mais econômico.
- Selecione a combinação certa de permissões do IAM para seu job do Dataflow.
- Implemente as melhores práticas para um ambiente de processamento de dados seguro.
- Selecione e ajuste a E/S de sua preferência para o pipeline do Dataflow.
- Use esquemas para simplificar o código do Beam e melhorar o desempenho do pipeline.
- Desenvolva um pipeline do Beam usando SQL e DataFrames.
- Execute monitoramento, solução de problemas, testes e CI/CD em pipelines do Dataflow.
Publico Alvo
- Engenheiro de dados.
- Analistas e cientistas de dados que desejam desenvolver habilidades de engenharia de dados
Pre-Requisitos
- Construindo pipelines de dados em lote”
- “Construindo Sistemas de Análise de Streaming Resilientes
Materiais
Inglês/Português/Lab Prático
Conteúdo Programatico
Introduction
- Introduce the course objectives.
- Demonstrate how Apache Beam and Dataflow work together to fulfill your organization’s data processing needs.
Beam Portability
- Summarize the benefits of the Beam Portability Framework.
- Customize the data processing environment of your pipeline using custom containers.
- Review use cases for cross-language transformations.
- Enable the Portability framework for your Dataflow pipelines.
Separating Compute and Storage with Dataflow
- Enable Shuffle and Streaming Engine, for batch and streaming pipelines respectively, for maximum performance.
- Enable Flexible Resource Scheduling for more cost-efficient performance.
IAM, Quotas, and Permissions
- Select the right combination of IAM permissions for your Dataflow job.
- Determine your capacity needs by inspecting the relevant quotas for your Dataflow jobs.
Security
- Select your zonal data processing strategy using Dataflow, depending on your data locality needs.
- Implement best practices for a secure data processing environment.
Beam Concepts Review
- Review main Apache Beam concepts (Pipeline, PCollections, PTransforms, Runner, reading/writing, Utility PTransforms, side inputs), bundles and DoFn Lifecycle.
Windows, Watermarks, Triggers
- Implement logic to handle your late data.
- Review different types of triggers.
- Review core streaming concepts (unbounded PCollections, windows).
Sources and Sinks
- Write the I/O of your choice for your Dataflow pipeline.
- Tune your source/sink transformation for maximum performance.
- Create custom sources and sinks using SDF.
Schemas
- Introduce schemas, which give developers a way to express structured data in their Beam pipelines.
- Use schemas to simplify your Beam code and improve the performance of your pipeline.
State and Timers
- Identify use cases for state and timer API implementations.
- Select the right type of state and timers for your pipeline.
Best Practices
- Implement best practices for Dataflow pipelines.
Dataflow SQL and DataFrames
- Develop a Beam pipeline using SQL and DataFrames.
Beam Notebooks
- Prototype your pipeline in Python using Beam notebooks.
- Use Beam magics to control the behavior of source recording in your notebook.
- Launch a job to Dataflow from a notebook.
Monitoring
- Navigate the Dataflow Job Details UI.
- Interpret Job Metrics charts to diagnose pipeline regressions.
- Set alerts on Dataflow jobs using Cloud Monitoring.
Logging and Error Reporting
- Use the Dataflow logs and diagnostics widgets to troubleshoot pipeline issues.
Troubleshooting and Debug
- Use a structured approach to debug your Dataflow pipelines.
- Examine common causes for pipeline failures.
Performance
- Understand performance considerations for pipelines.
- Consider how the shape of your data can affect pipeline performance.
Testing and CI/CD
- Testing approaches for your Dataflow pipeline.
- Review frameworks and features available to streamline your CI/CD workflow for Dataflow pipelines.
Reliability
- Implement reliability best practices for your Dataflow pipelines.
Flex Templates
- Using flex templates to standardize and reuse Dataflow pipeline code.
TENHO INTERESSE