Lucas S. Vieira


Python + API de LLM


Conectando com modelos


Guilda de IA

📰 Fofocas da Semana

  • Gemini 3.5 Flash (19/mai) — Google I/O: 4x mais rápido que 3.1 Pro em agentes/coding, já default no app
  • Qwen 3.7 Max (20/mai) — modelo agêntico da Alibaba, foco em execução autônoma longa
  • Microsoft cancela Claude Code — billing por token inviável, Uber queimou orçamento 2026 em semanas
  • Tencent Hy-MT2 — tradução 1.8B: 67 tok/s vs TranslateGemma 4B: 46 tok/s (testamos ontem!)

Recap: Semana 03

  • Variáveis, listas, dicionários
  • Funções com estado (sem classes!)
  • Strings, JSON, loops e condicionais
  • Mensagens de LLM = lista de dicts

"Python é a ferramenta. O LLM é o cérebro. A API é a ponte."

O que é uma API de LLM?

  • API = garçom entre seu código e o modelo
  • Você manda JSON, recebe JSON
  • Esse padrão é universal — Gemini, Ollama, OpenAI, todos igual

Entender HTTP = entender todas as APIs de LLM.

Cloud vs Local

Aspecto Cloud (Gemini) Local (Ollama)
Setup API key (2 min) Install + download
Velocidade ~100+ tok/s 18-80 tok/s
Custos Grátis com limites 100% grátis
Privacidade Dados vão pro Google Fica na máquina
Internet Necessária Não (após setup)

Recomendação: comece pelo Gemini (rápido), depois experimente Ollama e LM Studio.

System Prompt e Parâmetros

  • System prompt → instrução que guia o modelo
  • temperature → 0.0 (determinístico) a 2.0 (criativo)
  • maxtokens → limite de tamanho da resposta

System prompt = "Você é um tutor de Python." → muda completamente o comportamento.

Chat com Memória

  • Cada chamada manda o histórico completo
  • O modelo não "lembra" — recebe tudo de novo
  • É uma lista de dicts: system → user → assistant → user → ...

É como repetir toda a conversa toda vez que você fala.

Tratamento de Erros

Código Significado O que fazer
401 Não autorizado Verificar API key
429 Rate limit Aguardar e tentar
500 Erro do servidor Tentar mais tarde
503 Indisponível Servidor sobrecarregado

Na apostila: chamar_api() com retry automático e backoff.

🔴 Demo 1: Gemini API (Cloud)

  1. Abrir luksamuk.codes/pages/guilda-ia → Semana 04
  2. Clicar em 📓 Colab Gemini
  3. Rodar as células: API key, chat, system prompt

Gemini = 1M tokens/dia gratuito. Sem GPU, sem instalação.

🔴 Demo 2: Ollama no Colab (Local)

  1. No mesmo site → 📓 Colab Ollama
  2. Mudar runtime pra T4 GPU
  3. Rodar setup → warm up (~2-3 min) → chat

Warm up é de ~2-3 min na primeira vez. Depois: ~80 tok/s com Qwen 3.5 4B.

🔴 Demo 3: Terminal — Ollama, LM Studio, llama-swap

  1. Abrir chat.py no editor
  2. uv run chat.py — mesma requisição, 3 backends
  3. Mesmo código, mesma API, só muda a URL

Exercícios

  1. Função perguntar() que funciona com qualquer API
  2. Chat com memória (dicts, sem classes)
  3. Trocar de provedor (Gemini → Ollama → LM Studio)
  4. Tratamento de erros com try/except

Todos os exercícios estão na apostila com gabarito.

Para a próxima aula

  • Ter uma conta Google funcionando
  • Ter API key do Gemini
  • Começar a criar seus próprios códigos — Colab ou local, você escolhe
  • Próxima aula: vamos construir nosso primeiro agente!

Perguntas?