Visão Geral
Usando cenários e conjuntos de dados de uma empresa de tecnologia de ficção, os alunos descobrem informações para apoiar decisões críticas de negócios e desenvolver produtos de dados para transformar o negócio. O material é apresentado através de uma sequência de palestras breves, demonstrações interativas, extensos exercícios práticos e discussões. As demonstrações e os exercícios do Apache Spark são realizados em Python (com PySpark) e R (com sparklyr) usando o ambiente Cloudera Data Science Workbench (CDSW).
Este workshop de quatro dias abrange fluxos de trabalho de ciência da informação e aprendizagem de máquina em escala usando o Apache Spark 2 e outros componentes importantes do ecossistema Hadoop. O workshop enfatiza o uso da ciência dos dados e dos métodos de aprendizagem mecânica para enfrentar os desafios das empresas do mundo real.
Objetivo
- A oficina é projetada para cientistas de dados que atualmente usam Python ou R para trabalhar com conjuntos de dados menores em uma única máquina e que precisam expandir suas análises e modelos de aprendizado de máquina para grandes conjuntos de dados em clusters distribuídos. Os engenheiros de dados e os desenvolvedores com algum conhecimento da ciência dos dados e da aprendizagem por máquinas também podem achar essa oficina útil.
- Os participantes da oficina devem ter uma compreensão básica de Python ou R e alguma experiência explorando e analisando dados e desenvolvendo modelos de aprendizagem estatística ou de máquinas. O conhecimento de Hadoop ou Spark não é necessário.
Informações Gerais
Tecnologias: Curso Cloudera Cientista de Dados
Os participantes ganham habilidades práticas e experiência prática com ferramentas de ciência da informação, incluindo:
- Spark, Spark SQL e Spark MLlib
- PySpark e sparklyr
- Cloudera Data Science Workbench (CDSW)
- Matiz
Materiais
Português | Inglês
Conteúdo Programatico
O workshop inclui breves palestras, demonstrações interativas, exercícios práticos e discussões sobre temas como:
- Visão geral da ciência dos dados e do aprendizado automático em escala
- Visão geral do ecossistema Hadoop
- Trabalhando com dados HDFS e tabelas de colméia usando Hue
- Introdução ao Cloudera Data Science Workbench
- Visão geral do Apache Spark 2
- Leitura e escrita de dados
- Inspecionando a qualidade dos dados
- Limpeza e transformação de dados
- Resumindo e agrupando dados
- Combinando, dividindo e remodelando dados
- Explorando dados
- Configuração, monitoramento e solução de problemas Aplicações de faísca
- Visão geral da aprendizagem de máquinas em Spark MLlib
- Extraindo, transformando e selecionando recursos
- Criando e avaliando modelos de regressão
- Construindo e avaliando modelos de classificação
- Criando e avaliando modelos de agrupamento
- Modelos de validação cruzada e hiperparâmetros de ajuste
- Máquinas de construção de pipelines de aprendizagem
- Implantando modelos de aprendizagem de máquinas
TENHO INTERESSE