Curso Cloudera Developer para Apache Spark e Hadoop

  • APP Mobile & Development

Curso Cloudera Developer para Apache Spark e Hadoop

32 horas
Visão Geral
  • Os desenvolvedores da Scala e Python, novos para o Hadoop, aprenderão conceitos-chave e experiência que os participantes precisam ingerir e processar dados em um cluster Hadoop usando as ferramentas e técnicas mais atualizadas, incluindo Apache Spark, Impala, Hive, Flume e Sqoop.

Leve seu conhecimento ao próximo nível

Faça o Curso Cloudera Developer para Apache Spark e Hadoop

  • Oferece os conceitos-chave e os desenvolvedores de especialistas precisam desenvolver aplicativos paralelos de alto desempenho com o Apache Spark 2. Os participantes aprenderão como usar o Spark SQL para consultar dados estruturados e Spark Streaming para executar o processamento em tempo real na transmissão de dados de várias fontes. Os desenvolvedores também praticarão aplicativos de escrita que usam o núcleo Spark para executar o processamento ETL e algoritmos iterativos. O curso aborda como trabalhar com grandes conjuntos de dados armazenados em um sistema de arquivos distribuídos e executar aplicativos Spark em um cluster Hadoop. Depois de seguir este curso, os participantes estarão preparados para enfrentar desafios do mundo real e criar aplicativos para executar decisões mais rápidas, melhores decisões e análises interativas, aplicadas em uma ampla variedade de casos de uso, arquiteturas e indústrias.
  • Com esta atualização do curso, simplificamos a agenda para ajudá-lo a tornar-se rapidamente produtivo com as tecnologias mais importantes, incluindo o Spark 2.

Experiência prática:

  • Os exercícios práticos ocorrem em um cluster ao vivo, rodando na nuvem. Um cluster privado será construído para cada aluno a usar durante a aula.
  • Através de discussão liderada por instrutores e exercícios interativos e práticos, os participantes irão navegar no ecossistema Hadoop, aprendendo como
  • Distribua, armazena e processa dados em um cluster Hadoop
  • Escreva, configure e implemente aplicativos Spark em um cluster
  • Use o Spark shell para análise de dados interativos
  • Processar e consultar dados estruturados usando Spark SQL
  • Use Spark Streaming para processar um fluxo de dados ao vivo
Objetivo
  • Este curso foi concebido para desenvolvedores e engenheiros que tenham experiência em programação, mas não é necessário conhecimento prévio de Hadoop e / ou Spark.
  • Apache Spark exemplos e hands-on exercícios são apresentados em Scala e Python. A capacidade de programação em um desses idiomas é necessária.
  • A familiaridade básica com a linha de comando do Linux é assumida.
  • O conhecimento básico do SQL é útil
Informações Gerais

Obter certificação:

Curso Cloudera Developer para Apache Spark e Hadoop

  • Após a conclusão do curso, os participantes são encorajados a continuar seu estudo e se inscrever para o exame CCA Spark e Hadoop Developer. A certificação é um grande diferencial. Isso ajuda a estabelecer você como um líder no campo, proporcionando empregadores e clientes com evidências tangíveis de suas habilidades e conhecimentos.
Materiais
Português
Conteúdo Programatico

INTRODUÇÃO AO APACHE HADOOP E AO ECOSSISTEMA HADOOP

  • Visão geral de Apache Hadoop
  • Ingestão e armazenamento de dados
  • Processamento de dados
  • Análise e Exploração de Dados
  • Outras ferramentas do ecossistema
  • Introdução aos exercícios práticos

ARMAZENAMENTO DE ARQUIVOS DO APACHE HADOOP

  • Apache Hadoop Cluster Components
  • Arquitetura HDFS
  • Usando HDFS

PROCESSAMENTO DISTRIBUÍDO EM UM CLUSTER APACHE HADOOP

  • YARN Architecture
  • Trabalhando com YARN

APACHE SPARK BASICS

  • O que é Apache Spark?
  • Iniciando o Spark Shell
  • Usando o Spark Shell
  • Iniciando com Datasets e DataFrames
  • Operações do DataFrame

TRABALHANDO COM DATAFRAMES E ESQUEMAS

  • Criando DataFrames a partir de fontes de dados
  • Salvando DataFrames para Fontes de Dados
  • Esquemas DataFrame
  • Execução ansiosa e preguiçosa

ANALISANDO DADOS COM CONSULTAS DO DATAFRAME

  • Consultando DataFrames Usando Expressões de Colunas
  • Agrupar e agrupar consultas
  • Juntando DataFrames

VISÃO GERAL DO RDD

  • Visão geral do RDD
  • Fontes de dados RDD
  • Criando e salvando RDDs
  • Operações RDD

TRANSFORMANDO DADOS COM RDDS

  • Escrevendo e passando funções de transformação
  • Execução de Transformação
  • Conversão entre RDDs e DataFrames

AGREGANDO DADOS COM PARES RDDS

  • RDDs de chave-valor
  • Map-Reduce
  • Outras Operações de Par RDD

CONSULTANDO TABELAS E VISUALIZAÇÕES COM O APACHE SPARK SQL

  • Consultando Tabelas no Spark Usando o SQL
  • Consultando Arquivos e Visualizações
  • A API do catálogo
  • Comparando Spark SQL, Apache Impala e Apache Hive-on-Spark

TRABALHANDO COM CONJUNTOS DE DADOS EM SCALA

  • Datasets e DataFrames
  • Criando Conjuntos de Dados
  • Carregando e salva conjuntos de dados
  • Operações do conjunto de dados

ESCRITA, CONFIGURAÇÃO E EXECUÇÃO DE APLICATIVOS APACHE SPARK

  • Escrevendo uma aplicação de faísca
  • Criando e executando uma aplicação
  • Modo de implantação de aplicativos
  • O Spark Application Web UI
  • Configurando Propriedades do Aplicativo

PROCESSO DE DISTRIBUIÇÃO

  • Revisão: Apache Spark em um cluster
  • Partições RDD
  • Exemplo: particionamento em consultas
  • Etapas e tarefas
  • Planejamento da execução do trabalho
  • Exemplo: Plano de Execução do Catalisador
  • Exemplo: Plano de Execução RDD

PERSISTÊNCIA DE DADOS DISTRIBUÍDOS

  • DataFrame e Persistência do conjunto de dados
  • Níveis de armazenamento de persistência
  • Visualizando RDDs persistentes

PADRÕES COMUNS NO PROCESSAMENTO DE DADOS APACHE SPARK

  • Casos de uso comuns de Apache Spark
  • Algoritmos iterativos em Apache Spark
  • Aprendizado de máquinas
  • Exemplo: k-means

APACHE SPARK STREAMING: INTRODUÇÃO A DSTREAMS

  • Visão geral do streaming do Apache Spark
  • Exemplo: Contagem de Solicitação de Transmissão
  • DStreams
  • Desenvolvendo aplicativos de streaming

APACHE SPARK STREAMING: PROCESSAMENTO DE VÁRIOS LOTES

  • Operações multi-lotes
  • Time Slicing
  • Operações Estaduais
  • Operações de janelas deslizantes
  • Visualização: transmissão estruturada

APACHE SPARK STREAMING: FONTES DE DADOS

  • Visão geral da fonte de dados em fluxo contínuo
  • Apache Flume e Apache Kafka Data Sources
  • Exemplo: usando uma fonte de dados direta da Kafka
TENHO INTERESSE

Cursos Relacionados

Curso Python Introdução a Programação

32 horas

Curso iOS Swift Desenvolvendo Apps

40 horas

Curso Desenvolvimento de Aplicações Para SAP HANA 

24horas

Curso Big Data Analyst Mineração de Dados

32 horas

Curso SAP FIORI Desenvolvedor Fiori

32 Horas

Curso SAP ABAP HANA - Desenvolvedor ABAP HANA

24 horas

Curso Técnicas de integração de dados ETL

16 horas

Curso Cloudera Administrador Apache Hadoop

32 horas