Curso Cloudera Analyzing with Cloudera Data Warehouse

  • Data Science Analytic

Curso Cloudera Analyzing with Cloudera Data Warehouse

24 horas
Visão Geral

Este Curso Cloudera Analyzing with Cloudera Data Warehouse, ensinará você a aplicar análises de dados tradicionais e habilidades de business intelligence a big data. Este curso apresenta as ferramentas de que os profissionais de dados precisam para acessar, manipular, transformar e analisar conjuntos de dados complexos usando SQL e linguagens de script familiares.

Objetivo

Após realizare este Curso Cloudera Analyzing with Cloudera Data Warehouse, com êxito você será capaz de:

  • Use Apache Hive e Apache Impala para acessar dados por meio de consultas
  • Identifique distinções entre Hive e Impala, como diferenças de sintaxe, formatos de dados e recursos suportados
  • Escreva e execute consultas que usam funções, funções agregadas e subconsultas
  • Use junções e uniões para combinar conjuntos de dados
  • Criar, modificar e excluir tabelas, visualizações e bancos de dados
  • Carregar dados em tabelas e armazenar resultados de consultas
  • Selecione formatos de arquivo e desenvolva esquemas de particionamento para melhor desempenho
  • Use funções analíticas e de janelas para obter insights sobre seus dados
  • Armazene e consulte estruturas de dados complexas ou aninhadas
  • Processar e analisar dados semiestruturados e não estruturados
  • Otimize e amplie os recursos do Hive e do Impala
  • Determine se Hive, Impala, um RDBMS ou uma combinação destes é a melhor escolha para uma determinada tarefa
  • Utilize os benefícios do CDP Public Cloud Data Warehouse
Materiais
Inglês/Português/Lab Prático
Conteúdo Programatico

Foundations for Big Data Analytics

  1. Big Data Analytics Overview
  2. Data Storage: HDFS
  3. Distributed Data Processing: YARN, MapReduce, and Spark
  4. Data Processing and Analysis: Hive and Impala
  5. Database Integration: Sqoop
  6. Other Data Tools
  7. Exercise Scenario Explanation

Introduction to Apache Hive and Impala

  1. What Is Hive?
  2. What Is Impala?
  3. Why Use Hive and Impala?
  4. Schema and Data Storage
  5. Comparing Hive and Impala to Traditional Databases
  6. Use Cases

Querying with Apache Hive and Impala

  1. Databases and Tables
  2. Basic Hive and Impala Query Language Syntax
  3. Data Types
  4. Using Hue to Execute Queries
  5. Using Beeline (Hive's Shell)
  6. Using the Impala Shell

Common Operators and Built-In Functions

  1. Operators
  2. Scalar Functions
  3. Aggregate Functions

Data Management

  1. Data Storage
  2. Creating Databases and Tables
  3. Loading Data
  4. Altering Databases and Tables
  5. Simplifying Queries with Views
  6. Storing Query Results

Data Storage and Performance

  1. Partitioning Tables
  2. Loading Data into Partitioned Tables
  3. When to Use Partitioning
  4. Choosing a File Format
  5. Using Avro and Parquet File Formats

Working with Multiple Datasets

  1. UNION and Joins
  2. Handling NULL Values in Joins
  3. Advanced Joins

Analytic Functions and Windowing

  1. Using Analytic Functions
  2. Other Analytic Functions
  3. Sliding Windows

Complex Data

  1. Complex Data with Hive
  2. Complex Data with Impala

Analyzing Text

  1. Using Regular Expressions with Hive and Impala
  2. Processing Text Data with SerDes in Hive
  3. Sentiment Analysis and n-grams in Hive

Apache Hive Optimization

  1. Understanding Query Performance
  2. Cost-Based Optimization and Statistics
  3. Bucketing
  4. ORC File Optimizations

Apache Impala Optimization

  1. How Impala Executes Queries
  2. Improving Impala Performance

Extending Hive and Impala

  1. User-Defined Functions
  2. Parameterized Queries

Choosing the Best Tool for the Job

  1. Comparing Hive, Impala, and
  2. Relational Databases
  3. Which to Choose?

CDP Public Cloud Data Warehouse

  1. Data Warehouse Overview
  2. Auto-Scaling
  3. Managing Virtual Warehouses
  4. Querying Data Using CLI and Third-Party Integration

Appendix: Apache Kudu

  1. What Is Kudu?
  2. Kudu Tables
  3. Using Impala with Kudu
TENHO INTERESSE

Cursos Relacionados

Curso Fundamentos de Gerenciamento de Dados Mestres

16 horas

Curso Big Data Analyst Mineração de Dados

32 horas

Curso Técnicas de integração de dados ETL

16 horas

Curso Big Data Boot Camp Visão de Negócios

Curso Inteligência Artificial / AI Visão Geral

8 horas

Curso Oracle Fundamentos de Big Data

32 horas

Curso Fundamentos de Qualidade de Dados

16 horas

Curso Marchine Learning Com Hadoop

32 horas

Curso Python for Data Analysis

24 horas