Visão Geral
O treinamento de certificação de desenvolvimento de aplicativos Python, SQL e PySpark gira principalmente em torno do domínio das habilidades essenciais exigidas no setor de programação e gerenciamento de banco de dados. O curso cobre fundamentos da programação Python, como estruturas de dados, sequenciamento, operações de arquivos e tratamento de exceções. Ele se aprofunda ainda mais nos detalhes da operação do banco de dados SQL, abordando conceitos como operações CRUD, visualizações, procedimentos armazenados e transações. Além disso, fornece uma compreensão abrangente do PySpark, orientando os alunos a desenvolver aplicativos usando a API Python do Spark para análise de big data.
Por que você deve aprender o desenvolvimento de aplicativos Python, SQL e PySpark?
Aprender Python, SQL e PySpark App Development em estatísticas fornece habilidades valiosas em análise e manipulação de dados, cruciais para empresas modernas. Essas linguagens facilitam o gerenciamento de grandes conjuntos de dados, aprimoram os recursos de aprendizado de máquina e agilizam o desenvolvimento de aplicativos. O domínio nessas áreas aumenta significativamente as perspectivas de carreira no próspero campo da ciência de dados.
Objetivo
Habilidades de desenvolvimento de aplicativos Python, SQL e PySpark medidas
Depois de concluir o treinamento de certificação em Python, SQL e PySpark App Development, um indivíduo pode adquirir habilidades como fundamentos e conceitos avançados de Python, vasto conhecimento em SQL e manipulação de banco de dados e proficiência em PySpark. Eles também ganhariam habilidades na criação de aplicativos Spark usando Python e na integração deles com SQL. Eles poderiam executar com eficácia tarefas de processamento de dados, mapear funções, construir pipelines de dados, criar tarefas ETL, realizar análises exploratórias de dados e criar algoritmos de ML. Além disso, eles podem lidar com processamento e análise de dados em tempo real com eficiência.
Objetivos de aprendizagem - O que você aprenderá neste curso de desenvolvimento de aplicativos Python, SQL e PySpark?
Os objetivos de aprendizagem de um curso de desenvolvimento de aplicativos Python, SQL e PySpark são compreender e utilizar os conceitos básicos e avançados da programação Python. Inclui escrever scripts Python, usar bibliotecas Python e desenvolver aplicativos usando Python. Os alunos devem ser capazes de usar SQL para gerenciar bancos de dados, escrever consultas SQL e realizar análises de dados. Além disso, eles devem aprender a aproveitar o PySpark para processamento de big data, compreender sua arquitetura e usá-lo para ingestão, processamento e visualização de dados. Além disso, compreender como combinar estas tecnologias no desenvolvimento de aplicações será um objetivo fundamental.
Publico Alvo
Indivíduos que desejam se tornar engenheiros de software ou cientistas de dados
- Profissionais de TI atuais que buscam aprimorar suas habilidades de programação
- Estudantes que estudam ciência da computação ou análise de dados
- Gerentes de projeto ou líderes de equipe envolvidos em projetos baseados em tecnologia
- Entusiastas de codificação ou hobbyistas interessados em aprender novas linguagens .
Pre-Requisitos
Compreensão básica de programação de computadores
• Familiaridade com linguagens de programação como Java, C++
• Conhecimento de sistemas de gerenciamento de banco de dados
• Compreensão básica de SQL (Structured Query Language)
• Experiência anterior com programação Python é altamente recomendada
• Compreensão de estruturas de Big Data e fundamentos de Hadoop
• Familiaridade com APIs e bibliotecas básicas em Python.
Materiais
Inglês/Português/Lab Prático
Conteúdo Programatico
Module I
- Installing and setting up python
- Writing your very first program in python
- Printing Hello World
- Operators and Expressions
- Slicing
- Negative slicing o
- Using step in slicing
- Slicing backwards
- Strings
- String operators
- String formatting
- Program Flow control in Python
- if statement
- elif
- for loop
- continue and break o while loop
Module II
- List and Tuples
- mutable vs Immutable objects
- List o Sorting a list
- Removing items from list
- Replacing items in list
- What are tuples
- Performing basic functions to a tuple
- Dictionary and Sets
- Functions
- Defining a function
- Parameters and arguments
- Returning values
- Docstring
- *args
Module III
- Input and Output in python
- Reading and writing to a text file
- Appending to a file
- Object persistence using shelve
- Exception handling in python
- Generators, Decorators and lambda expression
Module IV
- Introduction to external libraries in Python
- Deep dive into libraries
- NumPy, Pandas and Matplotlib Assessment
Module V
- Fundamentals of SQL
- Introduction to SQL
- Introduction
- Work with Schemas
- Explore the structure of SQL Statements DDL, DML, DCL
- Examine the SELECT statements
- Work with data types
- Handle NULLs Hands-on: Work with SELECT statements
Module VI
- Sort and filter results in SQL
- Sort your results o Limit the sorted results
- Page results
- Remove duplicates
- Filter data with predicates
- Combine multiple tables with JOINs in SQL
- Understand joins concepts and syntax
- Use Inner joins o Use Outer joins
- Use Cross joins
- Use Self joins
- Write Subqueries in SQL
- Understand Subqueries
- Use scalar or multi-valued subqueries
- Use self-contained or correlated subqueries Hands-on: Sort and filter query results Hands-on: Query multiple tables with joins Hands-on: Use Subqueries
Module VII
- Use built-in functions and GROUP BY in SQL
- Categorize built-in functions
- Use aggregate functions - AVG SUM MIN MAX COUNT
- Use Mathematical functions - ABS, COS/SIN, ROUND RAND
- Use Ranking functions - RANK, DENDE-RANK
- Use Analytical function - LAG, LAST_VALUE, LEAD, PERCENTILE_CONT, PERCENTILE_DISC, PERCENT_RANK
- Use Logical functions - CHOOSE, GREATEST, LEAST o Summarize data with GROUP BY
- Filter groups with HAVING
- Modify data with SQL
- Insert data
- Generate automatic values
- Update data
- Delete data
- Merge data based on multiple tables Hands-on: Use built-in functions Hands-on: Modify data
Module VIII
- Triggers
- Stored Procedure o Stored procedures
- Create o Modify
- Delete
- Execute
- Specify parameters
- Indexes
- Heaps (Tables without Clustered Indexes) o Clustered & Non-Clustered Indexes Hands-on:
- Stored procedure Hands-on:
- Indexes Assessment
Module IX
- Fundamentals of PySpark o A Brief Primer on PySpark
- Brief Introduction to Spark
- Apache Spark Stack
- Spark Execution Process
- Newest Capabilities of PySpark
- Cloning GitHub Repository
- Resilient Distributed Datasets
- Resilient Distributed Datasets
- Creating RDDs
- Schema of an RDD
- Understanding Lazy Execution
- Introducing Transformations – .map(…)
- Introducing Transformations – .filter(…)
- Introducing Transformations – .flatMap(…)
- Introducing Transformations –. distinct(…)
- Introducing Transformations – .sample(…)
- Introducing Transformations – .join(…)
- Introducing Transformations – .repartition(…)
- Project 1: Count Data Project (ingestion of dataset, doing a preprocessing and exploratory dataset though the data set, applying map, filter, faltmap, distinct, join and repartition) o Project 2: Weather Temperature Crunch (ingestion of dataset, doing a preprocessing and exploratory dataset though the data set, applying map, filter, faltmap, distinct, join and repartition on instream data)
Module X
- Resilient Distributed Datasets and Actions
- Introducing Actions – .collect(…)
- Introducing Actions – .reduce(…) and .reduceByKey(…)
- Introducing Actions – .count()
- Introducing Actions – .foreach(…)
- Introducing Actions – .aggregate(…) and .aggregateByKey(…)
- Introducing Actions – .coalesce(…)
- Introducing Actions – .combineByKey(…)
- Introducing Actions – .histogram(…)
- Introducing Actions – .sortBy(…)
- Introducing Actions – Saving Data
- Introducing Actions – Descriptive Statistics
- Project 3: 10 Tasks in Students/Professor University Datasets (ingestion of dataset, doing a preprocessing and exploratory dataset though the data set, applying RDD actions.)
- Project 4: 8 Tasks in Customer Data Datasets (ingestion of dataset, doing a preprocessing and exploratory dataset though the data set, applying RDD actions through specified applicability)
- Project 5: Movie ratings
- DataFrames and Transformations
- Creating DataFrames
- Specifying Schema of a DataFrame
- Interacting with DataFrames
- The .agg(…) Transformation
- The .sql(…) Transformation
- Creating Temporary Tables
- Joining Two DataFrames
- Performing Statistical Transformations
- The .distinct(…) Transformation
- Project 6: CompanyMegaData (doing all the transformation logics, columunal logic and aggregation and exploratory data analysis)
- Project 7: University Data (end to end pyspark execution of insight delivery on University Data)
Module XI
- Collaborative Filtering and Techniques
- Collaborative filtering
- Utility Matrix
- Explicit and Implict Rating
- Expected Results
- Dataset
- Joining Dataframe
- Train and Test Data
- ALS model
- Optimization Hyperparameter tuning and cross validation
- Best model and evaluate prediction
- Project 8: IMDB Rating project (Optimization logics focused on the project with extensive pyspark logic and clever techniques of manipulation )
- Spark Streaming o Introduction to spark streaming
- Spark streaming with RDD
- Spark streaming Context
- Spark streaming Reading Data
- Spark streaming Cluster Restart
- Spark streaming RDD Transformation
- Spark streaming DF and Display
- Spark streaming DF Aggregation
- Project 9: Streaming Crunch Dataset(orchestration of a stream pipeline project of end to end execution of the ingestion of live data)
Module XII
- Spark ETL and Captone project
- Introduction to ETL
- ETL Pipeline
- Dataset
- Preprocessing, extraction, transformation
- Loading Data and cleaning
- RDS Networking
- Downloading PostGres
- Configuration and execution Project 10: Completion of Captone Project (Full end to end project Streaming Crunch Dataset of entire pyspark concepts from data exploratory to applying techniques and finding out the logics to the requirement of the dataset along with applying multiple ways to solve a solution and figuring out the correct and most optimized way and efficient way)
TENHO INTERESSE