Visão Geral
O treinamento Big Data Analyst Mineração de Dados – Analista de Dados ensinará você a aplicar análise de dados e habilidades de business intelligence para ferramentas de big data como o Apache Impala, Apache Hive, e Apache Pig.
Objetivo
Apresentamos as ferramentas que os profissionais de dados precisam para acessar, manipular, transformar e analisar conjuntos de dados complexos usando SQL e linguagens de script familiares. Aprenda um conjunto de ferramentas modernas. Os alunos terão a oportunidade de aprender e trabalhar com ferramentas modernas, como.
- O Apache Impala permite a análise interativa instantânea dos dados armazenados no Apache Hadoop através de um ambiente SQL nativo.
- O Apache Hive fornece uma linguagem de consulta semelhante ao SQL com o HiveQL, que torna os dados acessíveis para analistas, administradores de banco de dados e outros sem experiência em programação Java.
- O Apache Pig aplica os fundamentos das linguagens de script familiares ao cluster do Hadoop.
- Obtenha experiência prática através de discussões conduzidas por instrutores e exercícios práticos interativos, em sala de aula, levamos os participantes á navegam pelo ecossistema do Hadoop, aprendendo:
- Adquira, armazene e analise dados usando recursos do Pig, Hive e Impala
- Executar tarefas fundamentais de ETL (extrair, transformar e carregar) com ferramentas do Hadoop Use Pig, Hive e Impala para melhorar a produtividade para tarefas típicas de análise
- Junte diversos conjuntos de dados para obter informações valiosas sobre os negócios
- Realizar consultas complexas e interativas em conjuntos de dados
Publico Alvo
Este curso foi projetado para qualquer ser humano que tenha interesse em trabalhar com Big Data Analyst. Analistas de Dados, especialistas em inteligência de negócios, desenvolvedores, sistema arquitetos e administradores de banco de dados, Gerentes de projetos, Analista de negócios, processos de negócios entre ouros já incluso no mercado ou não.
Conteúdo Programatico
FUNDAMENTOS DO APACHE HADOOP
- A motivação para o Hadoop
- Visão geral do Hadoop
- Armazenamento de dados: HDFS
- Processamento de dados distribuídos: YARN, MapReduce e Spark
- Processamento e Análise de Dados: Pig, Hive e Impala
- Integração do banco de dados: Sqoop
- Outras ferramentas de dados do Hadoop
- Cenários de Exercício
INTRODUÇÃO AO APACHE PIG
- O que é Pig?
- Características do Pig
- Casos de Uso de Pigs
- Interagindo com o Pig
ANÁLISE BÁSICA DE DADOS COM O APACHE PIG
- Sintaxe Latin Pig
- Carregando dados
- Tipos de dados simples
- Definições de Campo
- Saída de dados
- Visualizando o Esquema
- Filtrando e classificando dados
- Funções comumente usadas
PROCESSANDO DADOS COMPLEXOS COM APACHE PIG
- Formatos de Armazenamento
- Tipos de dados complexos / aninhados
- Agrupamento
- Funções incorporadas para dados complexos
- Iterando dados agrupados
OPERAÇÕES DE MULTI-DATASET COM APACHE PIG
- Técnicas para Combinar Conjuntos de Dados
- Unindo conjuntos de dados no Pig
- Definir operações
- Divisão de conjuntos de dados
SOLUÇÃO DE PROBLEMAS DO APACHE PIG E OTIMIZAÇÃO
- Troubleshooting Troubleshooting
- Exploração madeireira
- Usando a interface da Web do Hadoop
- Amostragem de dados e depuração
- Visão geral do desempenho – Entendendo o Plano de Execução
- Dicas para melhorar o desempenho de trabalhos do Pig
INTRODUÇÃO AO APACHE HIVE E IMPALA
- O que é a Hive?
- O que é Impala?
- Por que usar o Hive e o Impala?
- Esquema e armazenamento de dados
- Comparando a Hive e a Impala
- Para bancos de dados tradicionais
- Casos de Uso
CONSULTANDO COM O APACHE HIVE E IMPALA
- Bancos de Dados e Tabelas
- Basic Hive e Impala Query
SINTAXE DA LINGUAGEM
- Tipos de dados
- Usando o Hue para executar consultas
- Usando Beeline (Hive’s Shell)
USANDO O IMPALA SHELL
- Apache Hive e Impala – Gestão de dados
- Armazenamento de dados
- Criando Bancos de Dados e Tabelas
- Carregando dados
- Alterando Bancos de Dados e Tabelas
- Simplificando consultas com vistas
- Armazenando Resultados da Consulta – Armazenamento de dados e desempenho
TABELAS DE PARTICIONAMENTO
- Carregando dados em tabelas particionadas
- Quando usar o particionamento
- Escolhendo um formato de arquivo
- Usando formatos de arquivos Avro e Parquet
ANÁLISE DE DADOS RELACIONAIS COM – APACHE HIVE E IMPALA
- Juntando conjuntos de dados
- Funções Internas Comuns
- Agregação e janelamento
DADOS COMPLEXOS COM O APACHE HIVE E IMPALA
- Dados complexos com Hive
- Dados Complexos com Impala – Analisando texto com o Apache Hive
- E Impala
- Usando expressões regulares com Hive e Impala
- Processando Dados de Texto com SerDes em Hive
- Análise de Sentimentos e n-grams em Hive
APACHE HIVE OPTIMIZATION
- Entendendo o desempenho da consulta
- Bucketing
- Indexando Dados
- Hive on Spark
APACHE IMPALA OPTIMIZATION
- Como o Impala Executa Consultas
- Melhorando o desempenho do Impala
ESTENDENDO O APACHE HIVE E O IMPALA
- SerDes personalizado e formatos de arquivo em Hive
- Transformação de dados com
- Scripts personalizados no Hive
- Funções definidas pelo usuário
- Consultas parametrizadas
ESCOLHENDO A MELHOR FERRAMENTA PARA O TRABALHO
- Comparando Pig, Hive, Impala, e bancos de dados relacionais
- Qual escolher?