Curso Cloudera Cientista de Dados

  • Redes & Infraestrutura de TI

Curso Cloudera Cientista de Dados

32 horas
Visão Geral

Usando cenários e conjuntos de dados de uma empresa de tecnologia de ficção, os alunos descobrem informações para apoiar decisões críticas de negócios e desenvolver produtos de dados para transformar o negócio. O material é apresentado através de uma sequência de palestras breves, demonstrações interativas, extensos exercícios práticos e discussões. As demonstrações e os exercícios do Apache Spark são realizados em Python (com PySpark) e R (com sparklyr) usando o ambiente Cloudera Data Science Workbench (CDSW).

Este workshop de quatro dias abrange fluxos de trabalho de ciência da informação e aprendizagem de máquina em escala usando o Apache Spark 2 e outros componentes importantes do ecossistema Hadoop. O workshop enfatiza o uso da ciência dos dados e dos métodos de aprendizagem mecânica para enfrentar os desafios das empresas do mundo real.

Objetivo
  • A oficina é projetada para cientistas de dados que atualmente usam Python ou R para trabalhar com conjuntos de dados menores em uma única máquina e que precisam expandir suas análises e modelos de aprendizado de máquina para grandes conjuntos de dados em clusters distribuídos. Os engenheiros de dados e os desenvolvedores com algum conhecimento da ciência dos dados e da aprendizagem por máquinas também podem achar essa oficina útil.
  • Os participantes da oficina devem ter uma compreensão básica de Python ou R e alguma experiência explorando e analisando dados e desenvolvendo modelos de aprendizagem estatística ou de máquinas. O conhecimento de Hadoop ou Spark não é necessário.
Informações Gerais

Tecnologias: Curso Cloudera Cientista de Dados

Os participantes ganham habilidades práticas e experiência prática com ferramentas de ciência da informação, incluindo:

  • Spark, Spark SQL e Spark MLlib
  • PySpark e sparklyr
  • Cloudera Data Science Workbench (CDSW)
  • Matiz
Materiais
Português | Inglês
Conteúdo Programatico

O workshop inclui breves palestras, demonstrações interativas, exercícios práticos e discussões sobre temas como:

  • Visão geral da ciência dos dados e do aprendizado automático em escala
  • Visão geral do ecossistema Hadoop
  • Trabalhando com dados HDFS e tabelas de colméia usando Hue
  • Introdução ao Cloudera Data Science Workbench
  • Visão geral do Apache Spark 2
  • Leitura e escrita de dados
  • Inspecionando a qualidade dos dados
  • Limpeza e transformação de dados
  • Resumindo e agrupando dados
  • Combinando, dividindo e remodelando dados
  • Explorando dados
  • Configuração, monitoramento e solução de problemas Aplicações de faísca
  • Visão geral da aprendizagem de máquinas em Spark MLlib
  • Extraindo, transformando e selecionando recursos
  • Criando e avaliando modelos de regressão
  • Construindo e avaliando modelos de classificação
  • Criando e avaliando modelos de agrupamento
  • Modelos de validação cruzada e hiperparâmetros de ajuste
  • Máquinas de construção de pipelines de aprendizagem
  • Implantando modelos de aprendizagem de máquinas
TENHO INTERESSE

Cursos Relacionados

Curso CISCO CCNA Exame CCNA 200-125

40 horas

Curso SAP BASIS S4hana - Administração e Infraestrutura

40 horas

Curso MCSA Networking with Windows Server 2016

40 horas

Curso CCNP Route 300-101 Preparatório Para Certificação

40 horas

Curso VMware Instalando Configurando e Gerenciando vSphere

32 horas

Curso de Redes TCP/IP - Protocolo de Redes de Computadores

40 horas

Curso Cisco Switched Networks 300-115

40 horas

Curso Wireless LAN Foundations

16 horas

Curso Certified Network Defender Certification

40 horas

Curso Compreendendo Fundamentos de Redes

40 horas