Curso ython SQL and PySpark App Development

  • Development

Curso ython SQL and PySpark App Development

32 horas
Visão Geral

O treinamento de certificação de desenvolvimento de aplicativos Python, SQL e PySpark gira principalmente em torno do domínio das habilidades essenciais exigidas no setor de programação e gerenciamento de banco de dados. O curso cobre fundamentos da programação Python, como estruturas de dados, sequenciamento, operações de arquivos e tratamento de exceções. Ele se aprofunda ainda mais nos detalhes da operação do banco de dados SQL, abordando conceitos como operações CRUD, visualizações, procedimentos armazenados e transações. Além disso, fornece uma compreensão abrangente do PySpark, orientando os alunos a desenvolver aplicativos usando a API Python do Spark para análise de big data.

 

Por que você deve aprender o desenvolvimento de aplicativos Python, SQL e PySpark?

Aprender Python, SQL e PySpark App Development em estatísticas fornece habilidades valiosas em análise e manipulação de dados, cruciais para empresas modernas. Essas linguagens facilitam o gerenciamento de grandes conjuntos de dados, aprimoram os recursos de aprendizado de máquina e agilizam o desenvolvimento de aplicativos. O domínio nessas áreas aumenta significativamente as perspectivas de carreira no próspero campo da ciência de dados.

Objetivo

Habilidades de desenvolvimento de aplicativos Python, SQL e PySpark medidas

Depois de concluir o treinamento de certificação em Python, SQL e PySpark App Development, um indivíduo pode adquirir habilidades como fundamentos e conceitos avançados de Python, vasto conhecimento em SQL e manipulação de banco de dados e proficiência em PySpark. Eles também ganhariam habilidades na criação de aplicativos Spark usando Python e na integração deles com SQL. Eles poderiam executar com eficácia tarefas de processamento de dados, mapear funções, construir pipelines de dados, criar tarefas ETL, realizar análises exploratórias de dados e criar algoritmos de ML. Além disso, eles podem lidar com processamento e análise de dados em tempo real com eficiência.

Objetivos de aprendizagem - O que você aprenderá neste curso de desenvolvimento de aplicativos Python, SQL e PySpark?

Os objetivos de aprendizagem de um curso de desenvolvimento de aplicativos Python, SQL e PySpark são compreender e utilizar os conceitos básicos e avançados da programação Python. Inclui escrever scripts Python, usar bibliotecas Python e desenvolver aplicativos usando Python. Os alunos devem ser capazes de usar SQL para gerenciar bancos de dados, escrever consultas SQL e realizar análises de dados. Além disso, eles devem aprender a aproveitar o PySpark para processamento de big data, compreender sua arquitetura e usá-lo para ingestão, processamento e visualização de dados. Além disso, compreender como combinar estas tecnologias no desenvolvimento de aplicações será um objetivo fundamental.

Publico Alvo

Indivíduos que desejam se tornar engenheiros de software ou cientistas de dados
- Profissionais de TI atuais que buscam aprimorar suas habilidades de programação
- Estudantes que estudam ciência da computação ou análise de dados
- Gerentes de projeto ou líderes de equipe envolvidos em projetos baseados em tecnologia
- Entusiastas de codificação ou hobbyistas interessados ​​em aprender novas linguagens .

Pre-Requisitos

Compreensão básica de programação de computadores
• Familiaridade com linguagens de programação como Java, C++
• Conhecimento de sistemas de gerenciamento de banco de dados
• Compreensão básica de SQL (Structured Query Language)
• Experiência anterior com programação Python é altamente recomendada
• Compreensão de estruturas de Big Data e fundamentos de Hadoop
• Familiaridade com APIs e bibliotecas básicas em Python.
 

Materiais
Inglês/Português/Lab Prático
Conteúdo Programatico

Module I

  1. Installing and setting up python
  2. Writing your very first program in python
  3. Printing Hello World
  4. Operators and Expressions
  5. Slicing
  6. Negative slicing o
  7. Using step in slicing
  8. Slicing backwards
  9. Strings
  10. String operators
  11. String formatting
  12. Program Flow control in Python
  13. if statement
  14. elif
  15. for loop
  16. continue and break o while loop

Module II

  1. List and Tuples
  2. mutable vs Immutable objects
  3. List o Sorting a list
  4. Removing items from list
  5. Replacing items in list
  6. What are tuples
  7. Performing basic functions to a tuple
  8. Dictionary and Sets
  9. Functions
  10. Defining a function
  11. Parameters and arguments
  12. Returning values
  13. Docstring
  14.  *args

Module III

  1. Input and Output in python
  2. Reading and writing to a text file
  3. Appending to a file
  4. Object persistence using shelve
  5. Exception handling in python
  6. Generators, Decorators and lambda expression

Module IV

  1. Introduction to external libraries in Python
  2. Deep dive into libraries
  3. NumPy, Pandas and Matplotlib Assessment

Module V

  1. Fundamentals of SQL
  2.  Introduction to SQL
  3. Introduction
  4. Work with Schemas
  5. Explore the structure of SQL Statements DDL, DML, DCL
  6. Examine the SELECT statements
  7. Work with data types
  8. Handle NULLs Hands-on: Work with SELECT statements

Module VI

  1. Sort and filter results in SQL
  2. Sort your results o Limit the sorted results
  3. Page results
  4. Remove duplicates
  5. Filter data with predicates
  6. Combine multiple tables with JOINs in SQL
  7. Understand joins concepts and syntax
  8. Use Inner joins o Use Outer joins
  9. Use Cross joins
  10. Use Self joins
  11. Write Subqueries in SQL
  12. Understand Subqueries
  13. Use scalar or multi-valued subqueries
  14. Use self-contained or correlated subqueries Hands-on: Sort and filter query results Hands-on: Query multiple tables with joins Hands-on: Use Subqueries

Module VII

  1. Use built-in functions and GROUP BY in SQL
  2. Categorize built-in functions
  3. Use aggregate functions - AVG SUM MIN MAX COUNT
  4. Use Mathematical functions - ABS, COS/SIN, ROUND RAND
  5. Use Ranking functions - RANK, DENDE-RANK
  6. Use Analytical function - LAG, LAST_VALUE, LEAD, PERCENTILE_CONT, PERCENTILE_DISC, PERCENT_RANK
  7. Use Logical functions - CHOOSE, GREATEST, LEAST o Summarize data with GROUP BY
  8. Filter groups with HAVING
  9. Modify data with SQL
  10. Insert data
  11. Generate automatic values
  12. Update data
  13. Delete data
  14. Merge data based on multiple tables Hands-on: Use built-in functions Hands-on: Modify data

Module VIII

  1. Triggers
  2. Stored Procedure o Stored procedures
  3. Create o Modify
  4. Delete
  5. Execute
  6. Specify parameters
  7. Indexes
  8. Heaps (Tables without Clustered Indexes) o Clustered & Non-Clustered Indexes Hands-on:
  9. Stored procedure Hands-on:
  10. Indexes Assessment

Module IX

  1. Fundamentals of PySpark o A Brief Primer on PySpark
  2. Brief Introduction to Spark
  3. Apache Spark Stack
  4. Spark Execution Process
  5. Newest Capabilities of PySpark
  6. Cloning GitHub Repository
  7. Resilient Distributed Datasets
  8. Resilient Distributed Datasets
  9. Creating RDDs
  10. Schema of an RDD
  11. Understanding Lazy Execution
  12. Introducing Transformations – .map(…)
  13. Introducing Transformations – .filter(…)
  14. Introducing Transformations – .flatMap(…)
  15. Introducing Transformations –. distinct(…)
  16. Introducing Transformations – .sample(…)
  17. Introducing Transformations – .join(…)
  18. Introducing Transformations – .repartition(…)
  19. Project 1: Count Data Project (ingestion of dataset, doing a preprocessing and exploratory dataset though the data set, applying map, filter, faltmap, distinct, join and repartition) o Project 2: Weather Temperature Crunch (ingestion of dataset, doing a preprocessing and exploratory dataset though the data set, applying map, filter, faltmap, distinct, join and repartition on instream data)

Module X

  1. Resilient Distributed Datasets and Actions
  2. Introducing Actions – .collect(…)
  3. Introducing Actions – .reduce(…) and .reduceByKey(…)
  4. Introducing Actions – .count()
  5. Introducing Actions – .foreach(…)
  6. Introducing Actions – .aggregate(…) and .aggregateByKey(…)
  7. Introducing Actions – .coalesce(…)
  8. Introducing Actions – .combineByKey(…)
  9. Introducing Actions – .histogram(…)
  10. Introducing Actions – .sortBy(…)
  11. Introducing Actions – Saving Data
  12. Introducing Actions – Descriptive Statistics
  13. Project 3: 10 Tasks in Students/Professor University Datasets (ingestion of dataset, doing a preprocessing and exploratory dataset though the data set, applying RDD actions.)
  14. Project 4: 8 Tasks in Customer Data Datasets (ingestion of dataset, doing a preprocessing and exploratory dataset though the data set, applying RDD actions through specified applicability)
  15. Project 5: Movie ratings
  16. DataFrames and Transformations
  17. Creating DataFrames
  18. Specifying Schema of a DataFrame
  19. Interacting with DataFrames
  20. The .agg(…) Transformation
  21. The .sql(…) Transformation
  22. Creating Temporary Tables
  23. Joining Two DataFrames
  24. Performing Statistical Transformations
  25. The .distinct(…) Transformation
  26. Project 6: CompanyMegaData (doing all the transformation logics, columunal logic and aggregation and exploratory data analysis)
  27. Project 7: University Data (end to end pyspark execution of insight delivery on University Data)

Module XI

  1. Collaborative Filtering and Techniques
  2. Collaborative filtering
  3. Utility Matrix
  4. Explicit and Implict Rating
  5. Expected Results
  6. Dataset
  7. Joining Dataframe
  8. Train and Test Data
  9. ALS model
  10. Optimization Hyperparameter tuning and cross validation
  11. Best model and evaluate prediction
  12. Project 8: IMDB Rating project (Optimization logics focused on the project with extensive pyspark logic and clever techniques of manipulation )
  13. Spark Streaming o Introduction to spark streaming
  14. Spark streaming with RDD
  15. Spark streaming Context
  16. Spark streaming Reading Data
  17. Spark streaming Cluster Restart
  18. Spark streaming RDD Transformation
  19. Spark streaming DF and Display
  20. Spark streaming DF Aggregation
  21. Project 9: Streaming Crunch Dataset(orchestration of a stream pipeline project of end to end execution of the ingestion of live data)

Module XII

  1. Spark ETL and Captone project
  2. Introduction to ETL
  3. ETL Pipeline
  4. Dataset
  5. Preprocessing, extraction, transformation
  6. Loading Data and cleaning
  7. RDS Networking
  8. Downloading PostGres
  9. Configuration and execution Project 10: Completion of Captone Project (Full end to end project Streaming Crunch Dataset of entire pyspark concepts from data exploratory to applying techniques and finding out the logics to the requirement of the dataset along with applying multiple ways to solve a solution and figuring out the correct and most optimized way and efficient way)
TENHO INTERESSE

Cursos Relacionados

Curso Python Programação Advanced

32 horas

Curso SAP ABAP S4hana Developer Foundation

32 horas

Curso Full Stack and React Essentials

32 Horas

Curso Node.js for JavaScript Developers

24 horas

Curso Elasticsearch for Developers

16H

Curso Elastic Stack Foundation

24 horas

Curso Apache Spark™ Foundation

8 Horas