Visão Geral
- Este curso de 1 dia fornece uma breve introdução à arquitetura Apache Spark, à API DataFrames e uma opção de várias disciplinas eletivas, abordando os fundamentos da estrutura do Apache Spark.
- Este curso enfoca os fundamentos do sistema de eco Apache Spark. Seu objetivo é fornecer o conhecimento básico necessário para analistas de dados, engenheiros de dados, cientistas de dados, profissionais de ML ou qualquer pessoa interessada em começar a desenvolver com a estrutura do Apache Spark.
- O curso começa com uma introdução à arquitetura Spark, com ênfase em conceitos de alto nível, como Drivers, Executores e Slots, além de Aplicativos, Trabalhos, Estágios e Tarefas. Conforme o tempo permitir, tópicos intermediários, como DAG Execution, também são endereçáveis.
- O curso continua com um curso intensivo sobre as APIs do DataFrame, cobrindo os componentes "principais", como as funções SparkSession, Readers & Writers, DataFrames e Spark SQL.
- Eletivas adicionais de 1 hora estão disponíveis, cobrindo mais APIs DataFrames, Streaming Estruturado ou uma demonstração dos pacotes Spark-ML para Machine Learning.
Objetivo
Após a conclusão, os alunos devem ser capazes de:
- Descrever como o design distribuído do Apache Spark permite o processamento de dados de Gigabytes a Terabytes
- Aplique intuição básica aos problemas de desempenho menores, embora comuns, que os novos desenvolvedores costumam encontrar
- Use as APIs do DataFrame para ingerir, alterar e gravar dados
- Entenda a amplitude e a profundidade dos recursos do Apache Spark
- Opcionalmente:
- Criar trabalhos de streaming estruturado
- Entenda como o pipeline de aprendizado de máquina funciona
Publico Alvo
- Qualquer pessoa com experiência em desenvolvimento de software que queira uma rápida introdução às principais APIs do Spark e uma introdução básica à arquitetura Apache Spark.
Pre-Requisitos
- Conhecimento
de SQL é útil
- É necessária
experiência com Python ou Scala
- Alguma
familiaridade com o Apache Spark ou outras estruturas de processamento de big
data é útil, mas não é necessária
Informações Gerais
- Informações Geral:
- Carga horaria 8h
- Se noturno o curso acontece de segunda e terça das 19h às 23h, total de 2 noites
- Se aos sábados o curso acontece de 09h às 18h, total de 1 sábados
- se in-company o curso acontece de acordo com agenda do cliente
Formato de entrega:
- Presencia em sala de aula
- On-line ao vivo em tempo real
Materiais
Português/Inglês
Conteúdo Programatico
About Databricks, Spark
- A high-level overview of the Spark Architecture
- Spark Entry Points, Simple Data Ingestion & overview of API docs
- Review different data ingestion options
- Introduction to the "core" DataFrames APIs
- Introduction to Spark's execution model
- Hands-on exercises to familiarize participants with the Spark UI
Electives (select one):
- Introduction to Structured Streaming
- Introduction to the Machine Learning Pipeline
- Deeper dive into the DataFrames APIs
TENHO INTERESSE