Curso Analyzing Big Data Using Hadoop Hive Spark and HBase

  • RPA | IA | AGI | ASI | ANI | IoT | PYTHON | DEEP LEARNING

Curso Analyzing Big Data Using Hadoop Hive Spark and HBase

32 horas
Visão Geral

Este Curso Analyzing Big Data Using Hadoop Hive Spark and HBase, começa com uma visão geral do Big Data e seu papel na empresa. Em seguida, apresenta o Hadoop Distributed File System (HDFS), que é a base para muitas das outras tecnologias de Big Data mostradas no curso. O Hadoop MapReduce é então apresentado e aplicativos MapReduce simples são demonstrados usando APIs de streaming e Java.

Neste ponto, o cenário está montado para apresentar o Apache Spark no YARN como uma plataforma flexível e de alto desempenho para computação em cluster. A arquitetura e APIs do Spark são apresentadas com ênfase na mineração de dados HDFS com MapReduce.

O foco do Curso Analyzing Big Data Using Hadoop Hive Spark and HBase,  muda então para o uso do Hadoop como plataforma de data warehouse. A primeira tecnologia analisada sob essa perspectiva é o Apache Hive. O Hive permite que os clientes acessem arquivos HDFS como se fossem tabelas relacionais. Isso é feito usando uma linguagem de consulta semelhante a SQL chamada Hive Query Language (HQL). O curso oferece uma visão geral do HQL e mostra como os metadados da tabela podem ser acessados ​​por outros aplicativos, como o Spark.

Objetivo

Depois de concluir com êxito este Curso Analyzing Big Data Using Hadoop Hive Spark and HBase, os alunos serão capazes de:

  • Descreva a arquitetura do Hadoop
  • Gerencie arquivos e diretórios no HDFS
  • Explique os componentes de um aplicativo MapReduce no Hadoop
  • Implementar e executar aplicativos Apache Spark
  • Use o Hive Query Language (HQL) para analisar dados HDFS
  • Crie tabelas mutáveis ​​no HDFS com HBase
  • Processe dados de streaming quase em tempo real com Apache Storm
Materiais
Inglês + Exercícios + Lab Pratico
Conteúdo Programatico

Overview of Big Data

  1. What Is Big Data?
  2. Big Data Use Cases
  3. The Rise of the Data Center and Cloud Computing
  4. MapReduce and Batch Data Processing
  5. MapReduce and Near Real-Time (Stream) Processing
  6. NoSQL Solutions for Persisting Big Data
  7. The Big Data Ecosystem

The Hadoop Distributed File System (HDFS)

  1. Overview of HDFS
  2. Launching HDFS in Pseudo-Distributed Mode
  3. Core HDFS Services
  4. Installing and Configuring HDFS
  5. HDFS Commands
  6. HDFS Safe Mode
  7. Check Pointing HDFS
  8. Federated and High Availability HDFS
  9. Running a Fully-Distributed HDFS Cluster with Docker

MapReduce with Hadoop

  1. MapReduce from the Linux Command Line
  2. Scaling MapReduce on a Cluster
  3. Introducing Apache Hadoop
  4. Overview of YARN
  5. Launching YARN in Pseudo-Distributed Mode
  6. Demonstration of the Hadoop Streaming API
  7. Demonstration of MapReduce with Java

Introduction to Apache Spark

  1. Why Spark?
  2. Spark Architecture
  3. Spark Drivers and Executors
  4. Spark on YARN
  5. Spark and the Hive Metastore
  6. Structured APIs, DataFrames, and Datasets
  7. The Core API and Resilient Distributed Datasets (RDDs)
  8. Overview of Functional Programming
  9. MapReduce with Python

Apache Hive

  1. Hive as a Data Warehouse
  2. Hive Architecture
  3. Understanding the Hive Metastore and HCatalog
  4. Interacting with Hive using the Beeline Interface
  5. Creating Hive Tables
  6. Loading Text Data Files into Hive
  7. Exploring the Hive Query Language
  8. Partitions and Buckets
  9. Built-in and Aggregation Functions
  10. Invoking MapReduce Scripts from Hive
  11. Common File Formats for Big Data Processing
  12. Creating Avro and Parquet Files with Hive
  13. Creating Hive Tables from Pig
  14. Accessing Hive Tables with the Spark SQL Shell

Persisting Data with Apache HBase

  1. Features and Use Cases
  2. HBase Architecture
  3. The Data Model
  4. Command Line Shell
  5. Schema Creation
  6. Considerations for Row Key Design

Apache Storm

  1. Processing Real-Time Streaming Data
  2. Storm Architecture: Nimbus, Supervisors, and ZooKeeper
  3. Application Design: Topologies, Spouts, and Bolts

Apache Pig

  1. Declarative vs. Procedural
  2. Role of Pig
  3. Setting Up Pig
  4. Loading and Working with Data
  5. Writing a Pig Script
  6. Executing Pig in Local and Hadoop Mode
  7. Filtering Results
  8. Storing, Loading, Dumping

Getting the Most Out of Pig

  • Relations, Tuples, Fields
  • Pig Data Types
  • Tuples, Bags, and Maps
  • Flatten on Bags and Tuples
  • Join and Union
  • Regular Expressions
TENHO INTERESSE

Cursos Relacionados

Curso AI ML Toolkits with Kubeflow Foundation

24 horas

Curso Container Management with Docker

24 Horas

Curso Machine Learning Python & R In Data Science

32 Horas

Curso Docker for Developers and System Administrators

16 horas

Curso artificial inteligence AI for Everyone Foundation

16 horas

Curso IA Inteligência Artificial e Código Aberto Foundation

16 horas

Curso Artificial Intelligence with Azure

24 Horas

Curso RPA Robotic Process Automation Industria 4.0

32 horas