Curso Big Data Analyst Mineração de Dados

  • Data Science Analytic

Curso Big Data Analyst Mineração de Dados

32 horas
Visão Geral

O treinamento Big Data Analyst Mineração de Dados – Analista de Dados ensinará você a aplicar análise de dados e habilidades de business intelligence para ferramentas de big data como o Apache Impala, Apache Hive, e Apache Pig.

Objetivo

Apresentamos as ferramentas que os profissionais de dados precisam para acessar, manipular, transformar e analisar conjuntos de dados complexos usando SQL e linguagens de script familiares. Aprenda um conjunto de ferramentas modernas.  Os alunos terão a oportunidade de aprender e trabalhar com ferramentas modernas, como.

  • O Apache Impala permite a análise interativa instantânea dos dados armazenados no Apache Hadoop através de um ambiente SQL nativo.
  • O Apache Hive fornece uma linguagem de consulta semelhante ao SQL com o HiveQL, que torna os dados acessíveis para analistas, administradores de banco de dados e outros sem experiência em programação Java.
  • O Apache Pig aplica os fundamentos das linguagens de script familiares ao cluster do Hadoop.
  • Obtenha experiência prática através de discussões conduzidas por instrutores e exercícios práticos interativos, em sala de aula, levamos os participantes á navegam pelo ecossistema do Hadoop, aprendendo:
  • Adquira, armazene e analise dados usando recursos do Pig, Hive e Impala
  • Executar tarefas fundamentais de ETL (extrair, transformar e carregar) com ferramentas do Hadoop Use Pig, Hive e Impala para melhorar a produtividade para tarefas típicas de análise
  • Junte diversos conjuntos de dados para obter informações valiosas sobre os negócios
  • Realizar consultas complexas e interativas em conjuntos de dados
Publico Alvo

Este curso foi projetado para qualquer ser humano que tenha interesse em trabalhar com Big Data Analyst. Analistas de Dados, especialistas em inteligência de negócios, desenvolvedores, sistema arquitetos e administradores de banco de dados, Gerentes de projetos, Analista de negócios, processos de negócios entre ouros já incluso no mercado ou não.

Pre-Requisitos

Curso Big Data Analyst Mineração de Dados

  • Conhecimento prévio do Apache Hadoop NÃO é necessário.
  • Conhecimento Básico de SQL ou semelhantes vai te ajudar a entender melhor o curso,
  • A familiaridade básica com a linha de comando do Linux é esperada
  • Conhecimento de uma linguagem de script (como script Bash, Perl, Python ou Ruby) é útil, mas não essencial.
Conteúdo Programatico

FUNDAMENTOS DO APACHE HADOOP

  • A motivação para o Hadoop
  • Visão geral do Hadoop
  • Armazenamento de dados: HDFS
  • Processamento de dados distribuídos: YARN, MapReduce e Spark
  • Processamento e Análise de Dados: Pig, Hive e Impala
  • Integração do banco de dados: Sqoop
  • Outras ferramentas de dados do Hadoop
  • Cenários de Exercício

INTRODUÇÃO AO APACHE PIG

  • O que é Pig?
  • Características do Pig
  • Casos de Uso de Pigs
  • Interagindo com o Pig

ANÁLISE BÁSICA DE DADOS COM O APACHE PIG

  • Sintaxe Latin Pig
  • Carregando dados
  • Tipos de dados simples
  • Definições de Campo
  • Saída de dados
  • Visualizando o Esquema
  • Filtrando e classificando dados
  • Funções comumente usadas

PROCESSANDO DADOS COMPLEXOS COM APACHE PIG

  • Formatos de Armazenamento
  • Tipos de dados complexos / aninhados
  • Agrupamento
  • Funções incorporadas para dados complexos
  • Iterando dados agrupados

OPERAÇÕES DE MULTI-DATASET COM APACHE PIG

  • Técnicas para Combinar Conjuntos de Dados
  • Unindo conjuntos de dados no Pig
  • Definir operações
  • Divisão de conjuntos de dados

SOLUÇÃO DE PROBLEMAS DO APACHE PIG E OTIMIZAÇÃO

  • Troubleshooting Troubleshooting
  • Exploração madeireira
  • Usando a interface da Web do Hadoop
  • Amostragem de dados e depuração
  • Visão geral do desempenho – Entendendo o Plano de Execução
  • Dicas para melhorar o desempenho de trabalhos do Pig

INTRODUÇÃO AO APACHE HIVE E IMPALA

  • O que é a Hive?
  • O que é Impala?
  • Por que usar o Hive e o Impala?
  • Esquema e armazenamento de dados
  • Comparando a Hive e a Impala
  • Para bancos de dados tradicionais
  • Casos de Uso

CONSULTANDO COM O APACHE HIVE E IMPALA

  • Bancos de Dados e Tabelas
  • Basic Hive e Impala Query

SINTAXE DA LINGUAGEM

  • Tipos de dados
  • Usando o Hue para executar consultas
  • Usando Beeline (Hive’s Shell)

USANDO O IMPALA SHELL

  • Apache Hive e Impala – Gestão de dados
  • Armazenamento de dados
  • Criando Bancos de Dados e Tabelas
  • Carregando dados
  • Alterando Bancos de Dados e Tabelas
  • Simplificando consultas com vistas
  • Armazenando Resultados da Consulta – Armazenamento de dados e desempenho

TABELAS DE PARTICIONAMENTO

  • Carregando dados em tabelas particionadas
  • Quando usar o particionamento
  • Escolhendo um formato de arquivo
  • Usando formatos de arquivos Avro e Parquet

ANÁLISE DE DADOS RELACIONAIS COM – APACHE HIVE E IMPALA

  • Juntando conjuntos de dados
  • Funções Internas Comuns
  • Agregação e janelamento

DADOS COMPLEXOS COM O APACHE HIVE E IMPALA

  • Dados complexos com Hive
  • Dados Complexos com Impala – Analisando texto com o Apache Hive
  • E Impala
  • Usando expressões regulares com Hive e Impala
  • Processando Dados de Texto com SerDes em Hive
  • Análise de Sentimentos e n-grams em Hive

APACHE HIVE OPTIMIZATION

  • Entendendo o desempenho da consulta
  • Bucketing
  • Indexando Dados
  • Hive on Spark

APACHE IMPALA OPTIMIZATION

  • Como o Impala Executa Consultas
  • Melhorando o desempenho do Impala

ESTENDENDO O APACHE HIVE E O IMPALA

  • SerDes personalizado e formatos de arquivo em Hive
  • Transformação de dados com
  • Scripts personalizados no Hive
  • Funções definidas pelo usuário
  • Consultas parametrizadas

ESCOLHENDO A MELHOR FERRAMENTA PARA O TRABALHO

 

  • Comparando Pig, Hive, Impala, e bancos de dados relacionais
  • Qual escolher?
TENHO INTERESSE

Cursos Relacionados

Curso Técnicas de integração de dados ETL

16 horas

Curso Big Data Boot Camp Visão de Negócios

Curso Oracle Fundamentos de Big Data

32 horas