Curso Cross-check da Tabulacao por IA

  • DevOps | CI | CD | Kubernetes | Web3

Curso Cross-check da Tabulacao por IA

16 horas
Visão Geral

Este Curso Cross-check da Tabulação por IA: Validação e Refinamento de Dados com Gemini, intensivo de 12 horas é focado em como utilizar modelos de Linguagem Grande (LLMs), especificamente o Gemini, para realizar o Cross-check (validação cruzada), limpeza e refinamento de dados tabulares (ex: extraídos de PDFs, sistemas legados, ou OCR). A tabulação é o processo de estruturar dados em tabelas; o cross-check é a validação de que esses dados são precisos e consistentes.

Os participantes aprenderão a arte da Engenharia de Prompts para tarefas de QA (Quality Assurance) de dados, a construir uma Página de Edição (Sandbox) para interagir com o modelo e a integrar a API do Gemini para um fluxo de trabalho de validação automatizado e escalável. O foco é na transição de dados brutos e não confiáveis para um dataset limpo e pronto para análise.

Objetivo

Ao final do curso "Cross-check da Tabulação por IA", você será capaz de:

  • Dominar a Engenharia de Prompts para tarefas de validação, detecção de erros e preenchimento de gaps.
  • Estruturar dados tabulares (JSON, CSV) para consumo eficiente pelo Gemini.
  • Desenvolver um ambiente (sandbox) de UI/UX básico para editar, enviar e receber dados validados pela IA.
  • Utilizar a API do Gemini para chamadas de validação e refinamento em tempo real.
  • Implementar o Cross-check para verificar a consistência, detetar anomalias e normalizar dados.
  • Configurar Prompts de múltiplas etapas para limpeza e validação complexas.
Publico Alvo
  • Engenheiros de Dados: Que precisam de implementar testes de qualidade de dados automatizados.
  • Cientistas de Dados: Para a limpeza rápida e validação de datasets antes da modelagem.
  • Analistas de QA (Quality Assurance): Que procuram otimizar a inspeção manual de dados.
  • Desenvolvedores: Interessados em integrar LLMs em pipelines de processamento de dados.
Pre-Requisitos
  • Conhecimento sólido de Python (estrutura de dados, manipulação de strings e JSON).
  • Noções básicas de APIs REST (Familiaridade com requisições HTTP).
  • Noções básicas de Data Quality (Consistência, Completude, Precisão).
Materiais
Português + Exercícios + Lab Pratico
Conteúdo Programatico

Módulo 1: Fundamentos do Cross-check por IA e Engenharia de Prompts (4 horas)

1.1. O Desafio da Tabulação e a IA:

  1. Cenários comuns de erro: OCR, dados ausentes (NULLs), inconsistência de formato (datas, moedas).
  2. Como os LLMs (Gemini) atuam como "motores de raciocínio e validação" para dados.

1.2. Estruturação de Dados para LLMs:

  1. Formatação ideal de dados tabulares para prompting (Conversão de CSV para JSON).
  2. A importância dos Metadados e Esquemas na instrução do modelo.
  3. Hands-on: Converter um dataset de exemplo (Python/Pandas) para um formato JSON estruturado.

1.3. Princípios de Engenharia de Prompts para QA:

  1. O Prompt como "Regra de Negócio": Definir claramente a tarefa, o formato de entrada e o formato de saída.
  2. Técnicas de Validação: Few-shot Prompting (exemplos de dados bons/maus).
  3. Hands-on: Criar um prompt inicial para validar se uma coluna de "Preço" está no formato monetário esperado.

1.4. Output Estruturado (JSON Mode):

  1. Forçar o Gemini a responder com um objeto JSON previsível para facilitar a ingestão.
  2. Schema Validation: Definir o esquema JSON esperado para o resultado da validação.
  3. Hands-on: Refinar o prompt para garantir que o output do Gemini é sempre um JSON com os campos is_valid (booleano) e reason (string).

Módulo 2: Integração da API e Construção da Página de Edição (4 horas)

2.1. Configuração da API do Gemini (Google AI Studio):

  1. Obter a chave de API e boas práticas de segurança (variáveis de ambiente).
  2. Introdução ao SDK do Python para Gemini.
  3. Hands-on: Configurar o ambiente de desenvolvimento e fazer a primeira chamada à API (gemini-2.5-flash).

2.2. A Interface Humana: Página de Edição (Sandbox):

  1. Utilização de frameworks leves (ex: Streamlit ou Flask/Gradio) para a UI/UX.
  2. Componentes essenciais: Área de texto para o prompt, área de upload de dados e área de resultados.
  3. Hands-on: Criar a estrutura básica da página de edição onde o utilizador pode colar um dado tabular.

2.3. Fluxo de Validação Unidirecional:

  1. Lógica de backend: Receber o dado do utilizador → Enviar ao Gemini → Receber o JSON de validação → Exibir o resultado.
  2. Hands-on: Integrar a chamada da API do Módulo 2.1 na página de edição, mostrando o JSON de cross-check diretamente na UI.

2.4. Cross-check de Múltiplas Etapas (Refinamento):

  1. Prompt Chaining: Usar a saída de uma validação (ex: "Data está errada") como entrada para uma tarefa de correção (ex: "Corrija a data para o formato YYYY-MM-DD").
  2. Hands-on: Implementar um fluxo onde o primeiro prompt valida e o segundo (se necessário) corrige o dado, exibindo a sugestão de correção na tela.

Módulo 3: Cenários Avançados de Validação e Otimização (4 horas)

3.1. Validação de Consistência Inter-Colunas:

  1. O prompt para verificar regras de negócio complexas (ex: Se Região = 'Norte', o Imposto não pode ser maior que X%).
  2. Uso de Zero-shot vs. Few-shot para regras de alta ou baixa complexidade.
  3. Hands-on: Criar um prompt que valide a consistência de 3 colunas simultaneamente.

3.2. Detecção e Imputação de Valores Ausentes (NULLs):

  1. Instruir o Gemini a preencher valores ausentes com base no contexto das linhas adjacentes (Imputação de dados).
  2. Definir limites de confiança para imputação: Quando a IA deve preencher e quando deve marcar como "Humano Requerido".
  3. Hands-on: Enviar uma linha com um valor ausente e usar o Gemini para sugerir a melhor imputação.

3.3. Otimização de Custos e Latência:

  1. Escolha do modelo: Quando usar o Gemini 2.5 Pro (raciocínio complexo) vs. Gemini 2.5 Flash (velocidade e custo).
  2. Prompt Compression e o impacto no custo.
  3. Hands-on: Comparar o tempo de resposta e o custo estimado para um cross-check simples entre dois modelos Gemini.

3.4. Projeto Final Integrador:

  1. Desafio: O participante deve pegar um dataset simulado com 5 tipos de erros (formato, consistência, ausência, anomalia) e construir o fluxo completo (Prompt + UI + API) para que o Gemini gere um relatório de cross-check que exibe os erros e sugere as correções para o utilizador.
  2. Revisão e Q&A: Discussão sobre como integrar esta metodologia em um pipeline de ETL/ELT (ex: via Cloud Functions).
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h