Curso Cross-check da Tabulacao por IA

  • DevOps | CI | CD | Kubernetes | Web3

Curso Cross-check da Tabulacao por IA

16 horas
Visão Geral

Este Curso Cross-check da Tabulação por IA: Validação e Refinamento de Dados com Gemini, intensivo de 12 horas é focado em como utilizar modelos de Linguagem Grande (LLMs), especificamente o Gemini, para realizar o Cross-check (validação cruzada), limpeza e refinamento de dados tabulares (ex: extraídos de PDFs, sistemas legados, ou OCR). A tabulação é o processo de estruturar dados em tabelas; o cross-check é a validação de que esses dados são precisos e consistentes.

Os participantes aprenderão a arte da Engenharia de Prompts para tarefas de QA (Quality Assurance) de dados, a construir uma Página de Edição (Sandbox) para interagir com o modelo e a integrar a API do Gemini para um fluxo de trabalho de validação automatizado e escalável. O foco é na transição de dados brutos e não confiáveis para um dataset limpo e pronto para análise.

Objetivo

Ao final do curso "Cross-check da Tabulação por IA", você será capaz de:

  • Dominar a Engenharia de Prompts para tarefas de validação, detecção de erros e preenchimento de gaps.
  • Estruturar dados tabulares (JSON, CSV) para consumo eficiente pelo Gemini.
  • Desenvolver um ambiente (sandbox) de UI/UX básico para editar, enviar e receber dados validados pela IA.
  • Utilizar a API do Gemini para chamadas de validação e refinamento em tempo real.
  • Implementar o Cross-check para verificar a consistência, detetar anomalias e normalizar dados.
  • Configurar Prompts de múltiplas etapas para limpeza e validação complexas.
Publico Alvo
  • Engenheiros de Dados: Que precisam de implementar testes de qualidade de dados automatizados.
  • Cientistas de Dados: Para a limpeza rápida e validação de datasets antes da modelagem.
  • Analistas de QA (Quality Assurance): Que procuram otimizar a inspeção manual de dados.
  • Desenvolvedores: Interessados em integrar LLMs em pipelines de processamento de dados.
Pre-Requisitos
  • Conhecimento sólido de Python (estrutura de dados, manipulação de strings e JSON).
  • Noções básicas de APIs REST (Familiaridade com requisições HTTP).
  • Noções básicas de Data Quality (Consistência, Completude, Precisão).
Materiais
Português + Exercícios + Lab Pratico
Conteúdo Programatico

Módulo 1: Fundamentos do Cross-check por IA e Engenharia de Prompts (4 horas)

1.1. O Desafio da Tabulação e a IA:

  1. Cenários comuns de erro: OCR, dados ausentes (NULLs), inconsistência de formato (datas, moedas).
  2. Como os LLMs (Gemini) atuam como "motores de raciocínio e validação" para dados.

1.2. Estruturação de Dados para LLMs:

  1. Formatação ideal de dados tabulares para prompting (Conversão de CSV para JSON).
  2. A importância dos Metadados e Esquemas na instrução do modelo.
  3. Hands-on: Converter um dataset de exemplo (Python/Pandas) para um formato JSON estruturado.

1.3. Princípios de Engenharia de Prompts para QA:

  1. O Prompt como "Regra de Negócio": Definir claramente a tarefa, o formato de entrada e o formato de saída.
  2. Técnicas de Validação: Few-shot Prompting (exemplos de dados bons/maus).
  3. Hands-on: Criar um prompt inicial para validar se uma coluna de "Preço" está no formato monetário esperado.

1.4. Output Estruturado (JSON Mode):

  1. Forçar o Gemini a responder com um objeto JSON previsível para facilitar a ingestão.
  2. Schema Validation: Definir o esquema JSON esperado para o resultado da validação.
  3. Hands-on: Refinar o prompt para garantir que o output do Gemini é sempre um JSON com os campos is_valid (booleano) e reason (string).

Módulo 2: Integração da API e Construção da Página de Edição (4 horas)

2.1. Configuração da API do Gemini (Google AI Studio):

  1. Obter a chave de API e boas práticas de segurança (variáveis de ambiente).
  2. Introdução ao SDK do Python para Gemini.
  3. Hands-on: Configurar o ambiente de desenvolvimento e fazer a primeira chamada à API (gemini-2.5-flash).

2.2. A Interface Humana: Página de Edição (Sandbox):

  1. Utilização de frameworks leves (ex: Streamlit ou Flask/Gradio) para a UI/UX.
  2. Componentes essenciais: Área de texto para o prompt, área de upload de dados e área de resultados.
  3. Hands-on: Criar a estrutura básica da página de edição onde o utilizador pode colar um dado tabular.

2.3. Fluxo de Validação Unidirecional:

  1. Lógica de backend: Receber o dado do utilizador → Enviar ao Gemini → Receber o JSON de validação → Exibir o resultado.
  2. Hands-on: Integrar a chamada da API do Módulo 2.1 na página de edição, mostrando o JSON de cross-check diretamente na UI.

2.4. Cross-check de Múltiplas Etapas (Refinamento):

  1. Prompt Chaining: Usar a saída de uma validação (ex: "Data está errada") como entrada para uma tarefa de correção (ex: "Corrija a data para o formato YYYY-MM-DD").
  2. Hands-on: Implementar um fluxo onde o primeiro prompt valida e o segundo (se necessário) corrige o dado, exibindo a sugestão de correção na tela.

Módulo 3: Cenários Avançados de Validação e Otimização (4 horas)

3.1. Validação de Consistência Inter-Colunas:

  1. O prompt para verificar regras de negócio complexas (ex: Se Região = 'Norte', o Imposto não pode ser maior que X%).
  2. Uso de Zero-shot vs. Few-shot para regras de alta ou baixa complexidade.
  3. Hands-on: Criar um prompt que valide a consistência de 3 colunas simultaneamente.

3.2. Detecção e Imputação de Valores Ausentes (NULLs):

  1. Instruir o Gemini a preencher valores ausentes com base no contexto das linhas adjacentes (Imputação de dados).
  2. Definir limites de confiança para imputação: Quando a IA deve preencher e quando deve marcar como "Humano Requerido".
  3. Hands-on: Enviar uma linha com um valor ausente e usar o Gemini para sugerir a melhor imputação.

3.3. Otimização de Custos e Latência:

  1. Escolha do modelo: Quando usar o Gemini 2.5 Pro (raciocínio complexo) vs. Gemini 2.5 Flash (velocidade e custo).
  2. Prompt Compression e o impacto no custo.
  3. Hands-on: Comparar o tempo de resposta e o custo estimado para um cross-check simples entre dois modelos Gemini.

3.4. Projeto Final Integrador:

  1. Desafio: O participante deve pegar um dataset simulado com 5 tipos de erros (formato, consistência, ausência, anomalia) e construir o fluxo completo (Prompt + UI + API) para que o Gemini gere um relatório de cross-check que exibe os erros e sugere as correções para o utilizador.
  2. Revisão e Q&A: Discussão sobre como integrar esta metodologia em um pipeline de ETL/ELT (ex: via Cloud Functions).
TENHO INTERESSE

Cursos Relacionados

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Ansible Overview of Ansible architecture

16h

Curso Apache NiFi e Hadoop DataFlow Engineering

40 horas

Curso Apache Kafka Data Streaming

24 horas

Curso Python Software Development

24 horas