Python + API de LLM

Lucas S. Vieira

Python + API de LLM

Conectando com modelos

Guilda de IA

📰 Fofocas da Semana

Gemini 3.5 Flash (19/mai) — Google I/O: 4x mais rápido que 3.1 Pro em agentes/coding, já default no app
Qwen 3.7 Max (20/mai) — modelo agêntico da Alibaba, foco em execução autônoma longa
Microsoft cancela Claude Code — billing por token inviável, Uber queimou orçamento 2026 em semanas
Tencent Hy-MT2 — tradução 1.8B: 67 tok/s vs TranslateGemma 4B: 46 tok/s (testamos ontem!)

Recap: Semana 03

Variáveis, listas, dicionários
Funções com estado (sem classes!)
Strings, JSON, loops e condicionais
Mensagens de LLM = lista de dicts

"Python é a ferramenta. O LLM é o cérebro. A API é a ponte."

O que é uma API de LLM?

API = garçom entre seu código e o modelo
Você manda JSON, recebe JSON
Esse padrão é universal — Gemini, Ollama, OpenAI, todos igual

Entender HTTP = entender todas as APIs de LLM.

Cloud vs Local

Aspecto	Cloud (Gemini)	Local (Ollama)
Setup	API key (2 min)	Install + download
Velocidade	~100+ tok/s	18-80 tok/s
Custos	Grátis com limites	100% grátis
Privacidade	Dados vão pro Google	Fica na máquina
Internet	Necessária	Não (após setup)

Recomendação: comece pelo Gemini (rápido), depois experimente Ollama e LM Studio.

System Prompt e Parâmetros

System prompt → instrução que guia o modelo
temperature → 0.0 (determinístico) a 2.0 (criativo)
max_tokens → limite de tamanho da resposta

System prompt = "Você é um tutor de Python." → muda completamente o comportamento.

Chat com Memória

Cada chamada manda o histórico completo
O modelo não "lembra" — recebe tudo de novo
É uma lista de dicts: system → user → assistant → user → ...

É como repetir toda a conversa toda vez que você fala.

Tratamento de Erros

Código	Significado	O que fazer
401	Não autorizado	Verificar API key
429	Rate limit	Aguardar e tentar
500	Erro do servidor	Tentar mais tarde
503	Indisponível	Servidor sobrecarregado

Na apostila: chamar_api() com retry automático e backoff.

🔴 Demo 1: Gemini API (Cloud)

Abrir luksamuk.codes/pages/guilda-ia → Semana 04
Clicar em 📓 Colab Gemini
Rodar as células: API key, chat, system prompt

Gemini = 1M tokens/dia gratuito. Sem GPU, sem instalação.

🔴 Demo 2: Ollama no Colab (Local)

No mesmo site → 📓 Colab Ollama
Mudar runtime pra T4 GPU
Rodar setup → warm up (~2-3 min) → chat

Warm up é de ~2-3 min na primeira vez. Depois: ~80 tok/s com Qwen 3.5 4B.

🔴 Demo 3: Terminal — Ollama, LM Studio, llama-swap

Abrir chat.py no editor
uv run chat.py — mesma requisição, 3 backends
Mesmo código, mesma API, só muda a URL

Exercícios

Função perguntar() que funciona com qualquer API
Chat com memória (dicts, sem classes)
Trocar de provedor (Gemini → Ollama → LM Studio)
Tratamento de erros com try/except

Todos os exercícios estão na apostila com gabarito.

Para a próxima aula

Ter uma conta Google funcionando
Ter API key do Gemini
Começar a criar seus próprios códigos — Colab ou local, você escolhe
Próxima aula: vamos construir nosso primeiro agente!

Python + API de LLM

📰 Fofocas da Semana

Recap: Semana 03

O que é uma API de LLM?

Cloud vs Local

System Prompt e Parâmetros

Chat com Memória

Tratamento de Erros

🔴 Demo 1: Gemini API (Cloud)

🔴 Demo 2: Ollama no Colab (Local)

🔴 Demo 3: Terminal — Ollama, LM Studio, llama-swap

Exercícios

Para a próxima aula

Perguntas?