Conteúdo Programatico
INTRODUÇÃO AO APACHE HADOOP E AO ECOSSISTEMA HADOOP
- Visão geral de Apache Hadoop
- Ingestão e armazenamento de dados
- Processamento de dados
- Análise e Exploração de Dados
- Outras ferramentas do ecossistema
- Introdução aos exercícios práticos
ARMAZENAMENTO DE ARQUIVOS DO APACHE HADOOP
- Apache Hadoop Cluster Components
- Arquitetura HDFS
- Usando HDFS
PROCESSAMENTO DISTRIBUÍDO EM UM CLUSTER APACHE HADOOP
- YARN Architecture
- Trabalhando com YARN
APACHE SPARK BASICS
- O que é Apache Spark?
- Iniciando o Spark Shell
- Usando o Spark Shell
- Iniciando com Datasets e DataFrames
- Operações do DataFrame
TRABALHANDO COM DATAFRAMES E ESQUEMAS
- Criando DataFrames a partir de fontes de dados
- Salvando DataFrames para Fontes de Dados
- Esquemas DataFrame
- Execução ansiosa e preguiçosa
ANALISANDO DADOS COM CONSULTAS DO DATAFRAME
- Consultando DataFrames Usando Expressões de Colunas
- Agrupar e agrupar consultas
- Juntando DataFrames
VISÃO GERAL DO RDD
- Visão geral do RDD
- Fontes de dados RDD
- Criando e salvando RDDs
- Operações RDD
TRANSFORMANDO DADOS COM RDDS
- Escrevendo e passando funções de transformação
- Execução de Transformação
- Conversão entre RDDs e DataFrames
AGREGANDO DADOS COM PARES RDDS
- RDDs de chave-valor
- Map-Reduce
- Outras Operações de Par RDD
CONSULTANDO TABELAS E VISUALIZAÇÕES COM O APACHE SPARK SQL
- Consultando Tabelas no Spark Usando o SQL
- Consultando Arquivos e Visualizações
- A API do catálogo
- Comparando Spark SQL, Apache Impala e Apache Hive-on-Spark
TRABALHANDO COM CONJUNTOS DE DADOS EM SCALA
- Datasets e DataFrames
- Criando Conjuntos de Dados
- Carregando e salva conjuntos de dados
- Operações do conjunto de dados
ESCRITA, CONFIGURAÇÃO E EXECUÇÃO DE APLICATIVOS APACHE SPARK
- Escrevendo uma aplicação de faísca
- Criando e executando uma aplicação
- Modo de implantação de aplicativos
- O Spark Application Web UI
- Configurando Propriedades do Aplicativo
PROCESSO DE DISTRIBUIÇÃO
- Revisão: Apache Spark em um cluster
- Partições RDD
- Exemplo: particionamento em consultas
- Etapas e tarefas
- Planejamento da execução do trabalho
- Exemplo: Plano de Execução do Catalisador
- Exemplo: Plano de Execução RDD
PERSISTÊNCIA DE DADOS DISTRIBUÍDOS
- DataFrame e Persistência do conjunto de dados
- Níveis de armazenamento de persistência
- Visualizando RDDs persistentes
PADRÕES COMUNS NO PROCESSAMENTO DE DADOS APACHE SPARK
- Casos de uso comuns de Apache Spark
- Algoritmos iterativos em Apache Spark
- Aprendizado de máquinas
- Exemplo: k-means
APACHE SPARK STREAMING: INTRODUÇÃO A DSTREAMS
- Visão geral do streaming do Apache Spark
- Exemplo: Contagem de Solicitação de Transmissão
- DStreams
- Desenvolvendo aplicativos de streaming
APACHE SPARK STREAMING: PROCESSAMENTO DE VÁRIOS LOTES
- Operações multi-lotes
- Time Slicing
- Operações Estaduais
- Operações de janelas deslizantes
- Visualização: transmissão estruturada
APACHE SPARK STREAMING: FONTES DE DADOS
- Visão geral da fonte de dados em fluxo contínuo
- Apache Flume e Apache Kafka Data Sources
- Exemplo: usando uma fonte de dados direta da Kafka