Curso Cloudera Developer para Apache Spark e Hadoop
32 horasVisão Geral
- Os desenvolvedores da Scala e Python, novos para o Hadoop, aprenderão conceitos-chave e experiência que os participantes precisam ingerir e processar dados em um cluster Hadoop usando as ferramentas e técnicas mais atualizadas, incluindo Apache Spark, Impala, Hive, Flume e Sqoop.
Leve seu conhecimento ao próximo nível
Faça o Curso Cloudera Developer para Apache Spark e Hadoop
- Oferece os conceitos-chave e os desenvolvedores de especialistas precisam desenvolver aplicativos paralelos de alto desempenho com o Apache Spark 2. Os participantes aprenderão como usar o Spark SQL para consultar dados estruturados e Spark Streaming para executar o processamento em tempo real na transmissão de dados de várias fontes. Os desenvolvedores também praticarão aplicativos de escrita que usam o núcleo Spark para executar o processamento ETL e algoritmos iterativos. O curso aborda como trabalhar com grandes conjuntos de dados armazenados em um sistema de arquivos distribuídos e executar aplicativos Spark em um cluster Hadoop. Depois de seguir este curso, os participantes estarão preparados para enfrentar desafios do mundo real e criar aplicativos para executar decisões mais rápidas, melhores decisões e análises interativas, aplicadas em uma ampla variedade de casos de uso, arquiteturas e indústrias.
- Com esta atualização do curso, simplificamos a agenda para ajudá-lo a tornar-se rapidamente produtivo com as tecnologias mais importantes, incluindo o Spark 2.
Experiência prática:
- Os exercícios práticos ocorrem em um cluster ao vivo, rodando na nuvem. Um cluster privado será construído para cada aluno a usar durante a aula.
- Através de discussão liderada por instrutores e exercícios interativos e práticos, os participantes irão navegar no ecossistema Hadoop, aprendendo como
- Distribua, armazena e processa dados em um cluster Hadoop
- Escreva, configure e implemente aplicativos Spark em um cluster
- Use o Spark shell para análise de dados interativos
- Processar e consultar dados estruturados usando Spark SQL
- Use Spark Streaming para processar um fluxo de dados ao vivo
Objetivo
- Este curso foi concebido para desenvolvedores e engenheiros que tenham experiência em programação, mas não é necessário conhecimento prévio de Hadoop e / ou Spark.
- Apache Spark exemplos e hands-on exercícios são apresentados em Scala e Python. A capacidade de programação em um desses idiomas é necessária.
- A familiaridade básica com a linha de comando do Linux é assumida.
- O conhecimento básico do SQL é útil
Informações Gerais
Obter certificação:
Curso Cloudera Developer para Apache Spark e Hadoop
- Após a conclusão do curso, os participantes são encorajados a continuar seu estudo e se inscrever para o exame CCA Spark e Hadoop Developer. A certificação é um grande diferencial. Isso ajuda a estabelecer você como um líder no campo, proporcionando empregadores e clientes com evidências tangíveis de suas habilidades e conhecimentos.
Materiais
PortuguêsConteúdo Programatico
INTRODUÇÃO AO APACHE HADOOP E AO ECOSSISTEMA HADOOP
- Visão geral de Apache Hadoop
- Ingestão e armazenamento de dados
- Processamento de dados
- Análise e Exploração de Dados
- Outras ferramentas do ecossistema
- Introdução aos exercícios práticos
ARMAZENAMENTO DE ARQUIVOS DO APACHE HADOOP
- Apache Hadoop Cluster Components
- Arquitetura HDFS
- Usando HDFS
PROCESSAMENTO DISTRIBUÍDO EM UM CLUSTER APACHE HADOOP
- YARN Architecture
- Trabalhando com YARN
APACHE SPARK BASICS
- O que é Apache Spark?
- Iniciando o Spark Shell
- Usando o Spark Shell
- Iniciando com Datasets e DataFrames
- Operações do DataFrame
TRABALHANDO COM DATAFRAMES E ESQUEMAS
- Criando DataFrames a partir de fontes de dados
- Salvando DataFrames para Fontes de Dados
- Esquemas DataFrame
- Execução ansiosa e preguiçosa
ANALISANDO DADOS COM CONSULTAS DO DATAFRAME
- Consultando DataFrames Usando Expressões de Colunas
- Agrupar e agrupar consultas
- Juntando DataFrames
VISÃO GERAL DO RDD
- Visão geral do RDD
- Fontes de dados RDD
- Criando e salvando RDDs
- Operações RDD
TRANSFORMANDO DADOS COM RDDS
- Escrevendo e passando funções de transformação
- Execução de Transformação
- Conversão entre RDDs e DataFrames
AGREGANDO DADOS COM PARES RDDS
- RDDs de chave-valor
- Map-Reduce
- Outras Operações de Par RDD
CONSULTANDO TABELAS E VISUALIZAÇÕES COM O APACHE SPARK SQL
- Consultando Tabelas no Spark Usando o SQL
- Consultando Arquivos e Visualizações
- A API do catálogo
- Comparando Spark SQL, Apache Impala e Apache Hive-on-Spark
TRABALHANDO COM CONJUNTOS DE DADOS EM SCALA
- Datasets e DataFrames
- Criando Conjuntos de Dados
- Carregando e salva conjuntos de dados
- Operações do conjunto de dados
ESCRITA, CONFIGURAÇÃO E EXECUÇÃO DE APLICATIVOS APACHE SPARK
- Escrevendo uma aplicação de faísca
- Criando e executando uma aplicação
- Modo de implantação de aplicativos
- O Spark Application Web UI
- Configurando Propriedades do Aplicativo
PROCESSO DE DISTRIBUIÇÃO
- Revisão: Apache Spark em um cluster
- Partições RDD
- Exemplo: particionamento em consultas
- Etapas e tarefas
- Planejamento da execução do trabalho
- Exemplo: Plano de Execução do Catalisador
- Exemplo: Plano de Execução RDD
PERSISTÊNCIA DE DADOS DISTRIBUÍDOS
- DataFrame e Persistência do conjunto de dados
- Níveis de armazenamento de persistência
- Visualizando RDDs persistentes
PADRÕES COMUNS NO PROCESSAMENTO DE DADOS APACHE SPARK
- Casos de uso comuns de Apache Spark
- Algoritmos iterativos em Apache Spark
- Aprendizado de máquinas
- Exemplo: k-means
APACHE SPARK STREAMING: INTRODUÇÃO A DSTREAMS
- Visão geral do streaming do Apache Spark
- Exemplo: Contagem de Solicitação de Transmissão
- DStreams
- Desenvolvendo aplicativos de streaming
APACHE SPARK STREAMING: PROCESSAMENTO DE VÁRIOS LOTES
- Operações multi-lotes
- Time Slicing
- Operações Estaduais
- Operações de janelas deslizantes
- Visualização: transmissão estruturada
APACHE SPARK STREAMING: FONTES DE DADOS
- Visão geral da fonte de dados em fluxo contínuo
- Apache Flume e Apache Kafka Data Sources
- Exemplo: usando uma fonte de dados direta da Kafka