Curso Cloudera Developer para Apache Spark e Hadoop

32 horas

Visão Geral

Os desenvolvedores da Scala e Python, novos para o Hadoop, aprenderão conceitos-chave e experiência que os participantes precisam ingerir e processar dados em um cluster Hadoop usando as ferramentas e técnicas mais atualizadas, incluindo Apache Spark, Impala, Hive, Flume e Sqoop.

Leve seu conhecimento ao próximo nível

Faça o Curso Cloudera Developer para Apache Spark e Hadoop

Oferece os conceitos-chave e os desenvolvedores de especialistas precisam desenvolver aplicativos paralelos de alto desempenho com o Apache Spark 2. Os participantes aprenderão como usar o Spark SQL para consultar dados estruturados e Spark Streaming para executar o processamento em tempo real na transmissão de dados de várias fontes. Os desenvolvedores também praticarão aplicativos de escrita que usam o núcleo Spark para executar o processamento ETL e algoritmos iterativos. O curso aborda como trabalhar com grandes conjuntos de dados armazenados em um sistema de arquivos distribuídos e executar aplicativos Spark em um cluster Hadoop. Depois de seguir este curso, os participantes estarão preparados para enfrentar desafios do mundo real e criar aplicativos para executar decisões mais rápidas, melhores decisões e análises interativas, aplicadas em uma ampla variedade de casos de uso, arquiteturas e indústrias.
Com esta atualização do curso, simplificamos a agenda para ajudá-lo a tornar-se rapidamente produtivo com as tecnologias mais importantes, incluindo o Spark 2.

Experiência prática:

Os exercícios práticos ocorrem em um cluster ao vivo, rodando na nuvem. Um cluster privado será construído para cada aluno a usar durante a aula.

Através de discussão liderada por instrutores e exercícios interativos e práticos, os participantes irão navegar no ecossistema Hadoop, aprendendo como
Distribua, armazena e processa dados em um cluster Hadoop

Escreva, configure e implemente aplicativos Spark em um cluster
Use o Spark shell para análise de dados interativos
Processar e consultar dados estruturados usando Spark SQL
Use Spark Streaming para processar um fluxo de dados ao vivo

Objetivo

Este curso foi concebido para desenvolvedores e engenheiros que tenham experiência em programação, mas não é necessário conhecimento prévio de Hadoop e / ou Spark.
Apache Spark exemplos e hands-on exercícios são apresentados em Scala e Python. A capacidade de programação em um desses idiomas é necessária.
A familiaridade básica com a linha de comando do Linux é assumida.
O conhecimento básico do SQL é útil

Informações Gerais

Obter certificação:

Curso Cloudera Developer para Apache Spark e Hadoop

Após a conclusão do curso, os participantes são encorajados a continuar seu estudo e se inscrever para o exame CCA Spark e Hadoop Developer. A certificação é um grande diferencial. Isso ajuda a estabelecer você como um líder no campo, proporcionando empregadores e clientes com evidências tangíveis de suas habilidades e conhecimentos.

Materiais

Português

Conteúdo Programatico

INTRODUÇÃO AO APACHE HADOOP E AO ECOSSISTEMA HADOOP

Visão geral de Apache Hadoop
Ingestão e armazenamento de dados
Processamento de dados
Análise e Exploração de Dados
Outras ferramentas do ecossistema
Introdução aos exercícios práticos

ARMAZENAMENTO DE ARQUIVOS DO APACHE HADOOP

Apache Hadoop Cluster Components
Arquitetura HDFS
Usando HDFS

PROCESSAMENTO DISTRIBUÍDO EM UM CLUSTER APACHE HADOOP

YARN Architecture
Trabalhando com YARN

APACHE SPARK BASICS

O que é Apache Spark?
Iniciando o Spark Shell
Usando o Spark Shell
Iniciando com Datasets e DataFrames
Operações do DataFrame

TRABALHANDO COM DATAFRAMES E ESQUEMAS

Criando DataFrames a partir de fontes de dados
Salvando DataFrames para Fontes de Dados
Esquemas DataFrame
Execução ansiosa e preguiçosa

ANALISANDO DADOS COM CONSULTAS DO DATAFRAME

Consultando DataFrames Usando Expressões de Colunas
Agrupar e agrupar consultas
Juntando DataFrames

VISÃO GERAL DO RDD

Visão geral do RDD
Fontes de dados RDD
Criando e salvando RDDs
Operações RDD

TRANSFORMANDO DADOS COM RDDS

Escrevendo e passando funções de transformação
Execução de Transformação
Conversão entre RDDs e DataFrames

AGREGANDO DADOS COM PARES RDDS

RDDs de chave-valor
Map-Reduce
Outras Operações de Par RDD

CONSULTANDO TABELAS E VISUALIZAÇÕES COM O APACHE SPARK SQL

Consultando Tabelas no Spark Usando o SQL
Consultando Arquivos e Visualizações
A API do catálogo
Comparando Spark SQL, Apache Impala e Apache Hive-on-Spark

TRABALHANDO COM CONJUNTOS DE DADOS EM SCALA

Datasets e DataFrames
Criando Conjuntos de Dados
Carregando e salva conjuntos de dados
Operações do conjunto de dados

ESCRITA, CONFIGURAÇÃO E EXECUÇÃO DE APLICATIVOS APACHE SPARK

Escrevendo uma aplicação de faísca
Criando e executando uma aplicação
Modo de implantação de aplicativos
O Spark Application Web UI
Configurando Propriedades do Aplicativo

PROCESSO DE DISTRIBUIÇÃO

Revisão: Apache Spark em um cluster
Partições RDD
Exemplo: particionamento em consultas
Etapas e tarefas
Planejamento da execução do trabalho
Exemplo: Plano de Execução do Catalisador
Exemplo: Plano de Execução RDD

PERSISTÊNCIA DE DADOS DISTRIBUÍDOS

DataFrame e Persistência do conjunto de dados
Níveis de armazenamento de persistência
Visualizando RDDs persistentes

PADRÕES COMUNS NO PROCESSAMENTO DE DADOS APACHE SPARK

Casos de uso comuns de Apache Spark
Algoritmos iterativos em Apache Spark
Aprendizado de máquinas
Exemplo: k-means

APACHE SPARK STREAMING: INTRODUÇÃO A DSTREAMS

Visão geral do streaming do Apache Spark
Exemplo: Contagem de Solicitação de Transmissão
DStreams
Desenvolvendo aplicativos de streaming

APACHE SPARK STREAMING: PROCESSAMENTO DE VÁRIOS LOTES

Operações multi-lotes
Time Slicing
Operações Estaduais
Operações de janelas deslizantes
Visualização: transmissão estruturada

APACHE SPARK STREAMING: FONTES DE DADOS

Visão geral da fonte de dados em fluxo contínuo
Apache Flume e Apache Kafka Data Sources
Exemplo: usando uma fonte de dados direta da Kafka

TENHO INTERESSE

Cursos Relacionados

Curso Python Introdução a Programação

32 horas

Ver Curso

Curso iOS Swift Desenvolvendo Apps

40 horas

Ver Curso

Curso Desenvolvimento de Aplicações Para SAP HANA

24horas

Ver Curso

Curso Big Data Analyst Mineração de Dados

32 horas

Ver Curso

Curso SAP FIORI Desenvolvedor Fiori

32 Horas

Ver Curso

Curso Scrum Product Owner

16 horas

Ver Curso

Curso SAP ABAP HANA - Desenvolvedor ABAP HANA

24 horas

Ver Curso

Curso Técnicas de integração de dados ETL

16 horas

Ver Curso

Curso Cloudera Administrador Apache Hadoop

32 horas

Ver Curso

Curso SAP JAVA Administrator

Ver Curso

Curso Cloudera Developer para Apache Spark e Hadoop

Curso Cloudera Developer para Apache Spark e Hadoop

Visão Geral

Objetivo

Informações Gerais

Materiais

Conteúdo Programatico

Ficha do Curso

Investimento

Formato de Entrega

Calendário

Receba todas informações

Cursos Relacionados

Curso Python Introdução a Programação

Curso iOS Swift Desenvolvendo Apps

Curso Desenvolvimento de Aplicações Para SAP HANA

Curso Big Data Analyst Mineração de Dados

Curso SAP FIORI Desenvolvedor Fiori

Curso Scrum Product Owner

Curso SAP ABAP HANA - Desenvolvedor ABAP HANA

Curso Técnicas de integração de dados ETL

Curso Cloudera Administrador Apache Hadoop

Curso SAP JAVA Administrator

O que você quer aprender hoje?

Curso Cloudera Developer para Apache Spark e Hadoop

Curso Cloudera Developer para Apache Spark e Hadoop

Visão Geral

Objetivo

Informações Gerais

Materiais

Conteúdo Programatico

Ficha do Curso

Investimento

Formato de Entrega

Calendário

Receba todas informações

Cursos Relacionados

Curso Python Introdução a Programação

Curso iOS Swift Desenvolvendo Apps

Curso Desenvolvimento de Aplicações Para SAP HANA

Curso Big Data Analyst Mineração de Dados

Curso SAP FIORI Desenvolvedor Fiori

Curso Scrum Product Owner

Curso SAP ABAP HANA - Desenvolvedor ABAP HANA

Curso Técnicas de integração de dados ETL

Curso Cloudera Administrador Apache Hadoop

Curso SAP JAVA Administrator