Curso Reinforcement Learning

  • RPA | IA | AGI | ASI | ANI | IoT | PYTHON | DEEP LEARNING

Curso Reinforcement Learning

16 horas
Visão Geral

Este Curso Reinforcement Learning foi elaborado como uma introdução completa ao Aprendizado por Reforço. É necessário um bom entendimento do aprendizado de máquina básico e uma base de probabilidades justas.

O "Reinforcement Learning" (Aprendizado por Reforço, em português) é um paradigma de aprendizado de máquina que se concentra na maneira como os agentes tomam decisões para maximizar uma recompensa cumulativa ao longo do tempo em um ambiente específico. É um dos três principais tipos de aprendizado de máquina, ao lado do aprendizado supervisionado e não supervisionado. O Aprendizado por Reforço é particularmente adequado para situações em que um agente precisa tomar uma série de ações sequenciais para alcançar um objetivo.

Os principais componentes do Aprendizado por Reforço:

  • Agente: É a entidade que toma decisões e interage com o ambiente. Pode ser um programa de computador, um robô ou qualquer sistema que aprenda a realizar ações.
  • Ambiente: Refere-se ao contexto em que o agente opera e no qual suas ações têm impacto. O ambiente fornece feedback ao agente na forma de recompensas ou penalidades, com base nas ações que o agente toma.
  • Ações: São as escolhas que o agente faz em cada etapa. Essas ações podem ter diferentes consequências e impactar o estado futuro do ambiente.
  • Estado: Representa uma descrição do ambiente em um determinado momento. O estado fornece informações sobre o contexto atual do ambiente e ajuda o agente a decidir qual ação tomar a seguir.
  • Recompensa: É um feedback numérico que o agente recebe do ambiente após cada ação. A recompensa é usada para avaliar a qualidade das ações e direcionar o aprendizado do agente para maximizar as recompensas cumulativas.

O processo de aprendizado por reforço envolve o agente explorando o ambiente, tomando ações e aprendendo com a experiência. O objetivo é encontrar uma política, que é um conjunto de regras ou estratégias que determinam quais ações o agente deve tomar em cada estado para maximizar as recompensas ao longo do tempo.

Publico Alvo
  • Cientistas de Dados e Engenheiros de Machine Learning: Profissionais que desejam aprofundar seus conhecimentos em aprendizado de máquina e inteligência artificial e aprender como aplicar o Aprendizado por Reforço em projetos práticos.
  • Pesquisadores em IA: Aqueles que estão envolvidos em pesquisa acadêmica em aprendizado de máquina e desejam explorar as técnicas e algoritmos avançados do Aprendizado por Reforço.
  • Engenheiros de Software: Desenvolvedores que desejam entender como implementar agentes de aprendizado por reforço em aplicativos e sistemas de software, como jogos, sistemas de controle e muito mais.
  • Profissionais da Indústria de Jogos: Aqueles que trabalham na indústria de jogos podem usar o Aprendizado por Reforço para criar IA mais avançada para NPCs (personagens não-jogáveis) e sistemas de jogos.
  • Pesquisadores em Robótica: Profissionais que estão interessados em desenvolver robôs autônomos e sistemas de controle baseados em aprendizado por reforço.
  • Estudantes de Ciência da Computação e Engenharia: Alunos que desejam aprender sobre aprendizado de máquina e inteligência artificial e estão interessados em uma introdução ao Aprendizado por Reforço.
  • Profissionais de Controle de Processos: Aqueles que trabalham em automação industrial e controle de processos podem aplicar o Aprendizado por Reforço para otimizar sistemas de controle.
  • Tomadores de Decisão e Gerentes: Pessoas em cargos de liderança que desejam entender os princípios do Aprendizado por Reforço para tomar decisões informadas sobre sua aplicação nos negócios.
Pre-Requisitos

 Aprendizado profundo básico: neurônios, tipos de camadas, redes, funções de perda, otimizadores, overfitting, Tensorflow

Materiais
Inglês/Português/Lab Prático
Conteúdo Programatico

K-Armed Bandit Problem

  1. Sequential Decision Making with Evaluative Feedback
  2. Learning Action Values
  3. Estimating Action Values Incrementally
  4. Optimistic initial values
  5. UCB Action Selection
  6. Contextual Bandits for Real World RL

Hands-on Lab: Understand expected values from different gambling games

Markov Decision Processes

  1. Examples of MDPs
  2. The Reward Hypothesis
  3. Continuing Tasks
  4. Episodic and Continuing Tasks

Hands-on Lab: Understand Markov Decision Processes by creating a classifier for thrash random writing

Value Functions and Bellman Equations

  1. Specifying Policies
  2. Value Functions
  3. Bellman Equation Derivation
  4. Optimal Policies
  5. Optimal Value Functions
  6. Using Optimal Value Functions to get Optimal Policies


Dynamic Programming

  1. Iterative Policy Evaluation
  2. Policy Iteration
  3. Efficiency of Dynamic Programming

Hands-on Lab: Implement the Bellman equations and Dynamic Programming for a grid world game

Monte Carlo for Prediction and Control

  1. What is Monte Carlo?
  2. Prediction
  3. Action Values
  4. Blackjack example
  5. Epsilon-soft policies
  6. Off-policy learning

Hands-on Lab:

  • Implement the off-policy learning methods and compare them with the single policy ones for a grid world game
  • Understand Markov Decision Processes by creating a classifier for thrash random writing


On-policy Prediction with Approximation

  1. Parameterized Functions
  2. Generalization and Discrimination
  3. Value Error Objective
  4. Gradient Descent

Hands-on Lab: Implement your own Flappy Bird AI that learn to play only from the environment

TENHO INTERESSE

Cursos Relacionados

Curso AI ML Toolkits with Kubeflow Foundation

24 horas

Curso Container Management with Docker

24 Horas

Curso Machine Learning Python & R In Data Science

32 Horas

Curso Docker for Developers and System Administrators

16 horas

Curso artificial inteligence AI for Everyone Foundation

16 horas

Curso IA Inteligência Artificial e Código Aberto Foundation

16 horas

Curso Artificial Intelligence with Azure

24 Horas

Curso RPA Robotic Process Automation Industria 4.0

32 horas