IA, LLM, RAG, Agentes: Entendendo as Nomenclaturas

O Problema

Muita gente usa esses termos como se fossem a mesma coisa. Não são. Neste artigo, vamos definir formalmente cada conceito e entender as diferenças fundamentais entre eles.

IA (Inteligência Artificial)

Definição formal

Inteligência Artificial é um campo da ciência da computação dedicado a criar sistemas capazes de executar tarefas que normalmente requerem inteligência humana, como percepção, raciocínio, aprendizado e tomada de decisão.

Base teórica

O termo foi cunhado por John McCarthy em 1956, na Conferência de Dartmouth, considerada o marco fundador do campo. Mas a história começa antes¹.

O prelúdio veio com a Cibernética (1940s): Warren McCulloch, Walter Pitts e Norbert Wiener investigando "mente como circuito" — sistemas de feedback, auto-organização, e a ideia de que processos cognitivos poderiam ser realizados por máquinas.

Alan Turing e os fundamentos

Em 1936, antes mesmo do termo "inteligência artificial", Alan Turing publicou "On Computable Numbers", demonstrando que existe uma sequência finita de passos (algoritmo) para qualquer processo computacional — incluindo, hipoteticamente, processos cognitivos.

A Tese de Church-Turing sugere: se um ser pensante opera uma sequência finita de passos para realizar um processo cognitivo, então tal processo pode ser realizado por uma Máquina de Turing.

Isso estabelece a base filosófica: computação e IA são indissociáveis. Sempre houve a pretensão de criar tecnologias que simulem ou se assemelhem a mentes artificiais.

Nota: Esta classificação acompanha a evolução acadêmica da ciência cognitiva — ver Carvalho, Pereira & Coelho (2015) para a genealogia completa das escolas.

Desde Dartmouth, a IA evoluiu através de vários paradigmas:

IA Simbólica (1950s-1980s): Sistemas baseados em regras explícitas e representação de conhecimento
IA Conexionista (1980s-presente): Redes neurais artificiais inspiradas no cérebro
IA Estatística (1990s-2010s): Métodos probabilísticos e aprendizado de máquina
IA Generativa (2017-presente): Modelos que criam novo conteúdo

Classificação por capacidades (para construtores)

Ao escolher um modelo, o que importa são as capacidades, não o marketing:

Capacidade	O que faz	Modelos com essa capacidade
Geração de texto	Completa prompts	Todos os LLMs
Contexto longo	Janela de contexto grande (100K+)	Gemini 3 Flash/3.1 Flash-Lite (1M), Claude 4.7 (1M), Qwen 3.6 Plus (1M), Kimi K2.5 (128K), GLM-5.1 (~200K)
Tool calling	Consegue chamar ferramentas externas	Gemini 3 Flash, Claude 4.7, GPT-5.4, Qwen 3.6 Plus, GLM-5.1, Gemma 4 31B
Raciocínio	Pensamento passo a passo explícito	DeepSeek R1, o1, Gemini 3 Flash Thinking, Gemma 4 31B, Qwen 3.6 Plus (always-on CoT)
Multimodalidade	Imagem, áudio, vídeo	Gemini 3 Flash, Qwen 3.6 Plus, Gemma 4, Kimi K2.5, Qwen 3.6-35B-A3B
Vision	Processa imagens	Gemini 3 Flash, Claude 4.7, Qwen 3.6 Plus, Gemma 4, Kimi K2.5

Dica: Para construir agentes, o essencial é tool calling e estabilidade. Modelos densos (não-MoE) tendem a ser mais estáveis nisso.

Sobre o termo "AGI"

"AGI virou termo de hype" — Andrew Ng (Google Brain) e Yann LeCun (Meta AI)

Andrew Ng, fundador do Google Brain e professor de Stanford, afirma que "AGI virou um termo de hype, não um termo com significado preciso". Yann LeCun, Chief AI Scientist da Meta e vencedor do Turing Award, complementa: "O hype de IA é ridículo em todas as direções."

O problema: não existe definição rigorosa. Empresas usam para criar FOMO² e justificar valuations.

Para quem constrói, o que importa são capacidades mensuráveis: o modelo X faz tool calling? Tem contexto suficiente? É estável? Foco no que você pode testar.

LLM (Large Language Model)

Definição formal

Large Language Model é um tipo de modelo de linguagem neural baseado na arquitetura Transformer, treinado em grandes corpus de texto (bilhões a trilhões de tokens) para prever a próxima palavra em uma sequência, desenvolvendo capacidades emergentes de compreensão e geração de linguagem natural.

Base teórica

Os LLMs fundamentam-se na arquitetura Transformer proposta por Vaswani et al. (2017). O mecanismo de self-attention permite que o modelo pondere a importância de diferentes partes do input de forma dinâmica.

Como funciona (detalhado)

Escala de Modelos (2019-2026)

A evolução de LLMs foi exponencial em duas dimensões: tamanho e eficiência.

Paradoxo da eficiência: Em 2023, GPT-4 foi o estado da arte com ~1.8T parâmetros. Em 2026, Gemma 4 E4B (4B parâmetros) alcança desempenho comparable em muitos benchmarks. Modelos modernos são ~450x menores e igualmente capazes.

Como a eficiência aumentou

Alguns fatores que permitiram modelos menores e mais capazes:

Treino com mais dados - Mais tokens de treino compensam menos parâmetros
Distilação - Modelos pequenos aprendem com modelos grandes
Arquiteturas eficientes - MoE (Mixture of Experts), atenção eficiente
Pós-treino - Fine-tuning focado em tarefas específicas

A tabela abaixo mostra o progresso:

Modelo	Parâmetros	Tokens de Treino	Ano	Status
GPT-2	1.5B	~40B	2019	Histórico
GPT-3	175B	~300B	2020	Histórico
GPT-4	~1.8T	~13T	2023	Proprietário
Llama 3.1 405B	405B	~15T	2024	Open Weights
DeepSeek V3.2	671B MoE	~14.8T	2025	Open Weights
GLM-5	744B MoE (40B ativos)	~28.5T	2026	Open Weights (MIT)
GLM-5.1	754B MoE (40B ativos)	~28.5T	2026	Open Weights (MIT)
Qwen3.5 (série)	0.5B-397B MoE	~36T	2026	Open Weights (Apache 2.0)
Gemma 4 31B	31B denso	Não divulgado	2026	Open Weights (Apache 2.0)

Nota: Os parâmetros "ativos" em MoE indicam quantos parâmetros são usados por inferência. GLM-5.1 tem 754B totais, mas só 40B ativos por token. Modelos densos (Gemma 4 31B) usam todos os parâmetros. Google não divulgou os tokens de treino do Gemma 4 — prática comum em modelos proprietários. Os dados de treino do Qwen3.5 vêm do paper do Qwen3 (~36T tokens). GLM-5 e 5.1 compartilham o mesmo corpus de 28.5T tokens (fonte: Z.ai blog e arXiv). Os dados históricos (GPT-2, GPT-3, GPT-4) são estimativas de papers oficiais e reports de terceiros — GPT-4 não teve o valor confirmado pela OpenAI (~13T por Semafor/leaked info).

Gráfico: Explosão de parâmetros e a revolução da eficiência

Tendência: A escalada de parâmetros atingiu pico em 2023 (GPT-4). Depois, open weights e arquiteturas eficientes (MoE, distilação) permitiram modelos cada vez menores com performance similar ou superior.

Nota: DeepSeek V3.2 tem 671B parâmetros totais, mas só usa ~37B por inferência (MoE). Gemma 4 31B é denso — todos os parâmetros são usados.

Estado da Arte (Abril 2026)

Top modelos por benchmark (MMLU Pro):

Modelo	Tipo	MMLU Pro	Contexto	Preço/M tokens
DeepSeek V3.2	Open Weights	82.3%	128K	USD 0.30 (~BRL 1.65)
Kimi K2.5	Open Weights	~83%	128K	Local (grátis)
Qwen3.5-397B-A17B	Open Weights	81.5%	128K	Local (grátis)
MiniMax M2.5	Open Weights (MIT mod.)	80.1%	~200K	USD 0.15/1.20 (~BRL 0.83/6.60)
MiniMax M2.7	Open Weights (MIT mod.)	~84%	204K	USD 0.30 (~BRL 1.65)
Gemini 3 Flash	Proprietário	88.0%	1M tokens	USD 0.50/3.00 (~BRL 2.75/16.50)
Gemini 3.1 Flash-Lite	Proprietário	88.9%	256K tokens	Gratuito*
GLM-5	Open Weights (MIT)	~85%	128K	USD 2.10 (~BRL 11.55) / Local
GLM-5.1	Open Weights (MIT)	~86%	~200K	~USD 0.95/3.15 (~BRL 5.23/17.33) / Local
Qwen 3.6 Plus	Proprietário	88.5%	1M tokens	API only
GPT-5.4	Proprietário	~88%	1M tokens	USD 5.00 (~BRL 27.50)
Claude Opus 4.7	Proprietário	~90%	1M tokens	USD 5.00 (~BRL 27.50)
Qwen 3.6-35B-A3B	Open Weights (Apache 2.0)	85.2%	262K	Local (grátis)

Nota: Qwen 3.6 Plus NÃO é open weights (diferente da maioria dos Qwen), tem 1M de contexto e reasoning always-on. Qwen 3.6-35B-A3B é open weights (Apache 2.0), 35B/3B MoE, supera o Qwen3.5-27B em coding. GPT-4o foi aposentado em Fevereiro/2026. GPT-5.4 (março/2026) substituiu o GPT-5.2 com computer use nativo e 1M de contexto. Gemini 3.1 Flash-Lite tem tier gratuito na API (500 RPD). Gemini 3 Flash (SWE-bench 78%, τ²-bench 90.2%) é pago: USD 0.50/3.00 por M tokens. Não existe "Gemini 3.1 Flash" — os modelos de texto da série 3 são: 3 Flash (agentic, pago), 3.1 Flash-Lite (leve, gratuito), 3.1 Pro (top, pago). Gemini 2.5 Flash (gratuito, 1.500 RPD) ainda é a opção free mais generosa para Colab/API. GLM-5.1 (MIT License) é o modelo open weights mais forte em coding — SWE-bench Pro 58.4%, execução autônoma de até 8 horas. MiniMax M2.5 é mais barato que M2.7 (USD 0.15 vs USD 0.30/M input) e melhor pra batch processing; M2.7 tem self-evolution e é melhor pra coding interativo. Atenção: M2.7 tem licença MIT modificada que proíbe uso comercial. Câmbio: USD 1 = BRL 5.50.

Destaque: MiniMax M2.7 e Self-Evolution

MiniMax M2.7 é o primeiro modelo com auto-evolução real:

56.22% SWE-Bench Pro — entre os melhores open para coding
ELO 1495 GDPval-AA — topo entre open-source
97% skill adherence — consistência em tool calling
Self-optimization loop: analisa próprias falhas, modifica o harness, itera
Pesos NÃO mudam — o que evolui é o sistema ao redor (skills, memory, tools)

Self-evolution: M2.7 analisa falhas em tasks anteriores, gera código para melhorar seu próprio harness (tools, prompts, memória), e itera. Os pesos permanecem fixos — o que evolui é o sistema ao redor. É um passo em direção à auto-melhoria de agentes.

Destaque: MiniMax M2.5 — Irmão Mais Barato

MiniMax M2.5 é o modelo "prático" da família:

SWE-bench Verified 80.2% — próximo do Opus 4.6
MMLU Pro 80.1% — competitivo entre open
Preço: USD 0.15/M input — metade do M2.7
229B total / 10B ativos — MoE eficiente
~200K contexto

M2.5 vs M2.7: M2.5 é melhor para batch processing e tarefas onde custo importa mais que velocidade. M2.7 é melhor para coding interativo (self-evolution, mais estável em loops de agente). Atenção: ambos usam licença MIT modificada que proíbe uso comercial — diferente de GLM-5 (MIT puro) e Qwen (Apache 2.0).

Comparação: Modelos Flagship Recentes

Modelo	Open Weights	Treinamento	Destaque
GLM-5	Sim (MIT)	Standard	Agente open robusto
GLM-5.1	Sim (MIT)	Long-horizon	SWE-bench Pro 58.4%, 8h autônomo, 94.6% do Opus 4.6 em coding
MiniMax M2.7	Sim (MIT mod.)	Self-evolution	Primeiro com auto-otimização
MiniMax M2.5	Sim (MIT mod.)	Standard	USD 0.15/M input, melhor pra batch, SWE 80.2%
Qwen 3.6 Plus	Não	Standard	1M contexto, agentic coding, reasoning always-on
Qwen 3.6-35B-A3B	Sim (Apache 2.0)	Standard	3B ativos, supera Qwen3.5-27B em coding
Claude Opus 4.7	Não	Standard	SWE-bench Verified 87.6%, GPQA 94.2%

Tendência: A disputa entre modelos proprietários e open weights está cada vez mais acirrada. GLM-5.1 (MIT, 754B MoE) empata com GPT-5.4 e Opus 4.6 em SWE-bench Pro, custando uma fração do preço. Qwen 3.6-35B-A3B (3B ativos, Apache 2.0) roda em hardware modesto e supera modelos 10x maiores em coding.

Modelos de Acesso Restrito (Abril 2026)

Em abril/2026, Anthropic e OpenAI anunciaram modelos de acesso controlado para cybersecurity:

Modelo	Empresa	Acesso	Destaque
Claude Mythos	Anthropic	Governo EUA + empresas selecionadas	SWE-bench 93.9%, exploração autônoma de vulnerabilidades
GPT-5.4-Cyber	OpenAI	Programa Trusted Access for Cyber	Cybersecurity defensiva, 3000+ vulnerabilidades corrigidas

Por que acesso restrito? Esses modelos têm capacidade avançada de encontrar e explorar falhas de segurança em software. Por isso, não estão disponíveis publicamente. Mythos foi o primeiro a demonstrar exploração autônoma de sistemas com segurança robusta, gerando debate sobre a responsabilidade de liberar capacidades ofensivas. GPT-5.4-Cyber é a resposta da OpenAI, focada em defesa. O GPT-5.4-Cyber NÃO é equivalente ao Mythos — é defensivo, não ofensivo.

Para quem constrói agentes, o que importa: esses modelos não estão disponíveis via API pública e não impactam o dia a dia de desenvolvimento. Mas são um marco no debate sobre limites de capacidade de IA.

Modelos Pequenos (Edge/Local)

Para rodar localmente em CPU/GPU modesta:

Modelo	Parâmetros	Destaque	Licença
Gemma 4 E2B	~2B efetivos	Roda em celular, multimodal	Apache 2.0
Gemma 4 E4B	~4B efetivos	Vision + áudio nativo	Apache 2.0
Gemma 4 26B A4B	26B (4B ativos)	MoE eficiente, reasoning forte	Apache 2.0
Qwen3.5-4B	4B	Vision + thinking integrados	Apache 2.0
Qwen3.5-9B	9B	Melhor custo-benefício	Apache 2.0
Qwen 3.6-35B-A3B	35B (3B ativos)	Agentic coding, supera 27B densos, multimodal	Apache 2.0
Qwen3.5-27B	27B denso	Referência para agentes, estável	Apache 2.0
Gemma 4 31B	31B denso	#3 open model, coding (80% LiveCodeBench)	Apache 2.0

Dica: Para agentes locais, Gemma 4 31B e Qwen3.5-27B são as escolhas mais robustas. Ambos densos, ambos com tool calling estável. Gemma 4 vence em coding, Qwen3.5 vence em multilingual. Prefira modelos densos (não-MoE) para tool calling estável. Qwen 3.6-35B-A3B é exceção: sendo MoE de 3B ativos, roda em hardware modesto e ainda supera o 27B denso em coding — boa opção para quem tem GPU limitada.

Google AI Edge Gallery

Aplicativo Android (beta) para rodar modelos localmente:

Roda Gemma 4 E2B e E4B no celular
Funciona offline, sem API, sem custo
Suporta texto, imagem e áudio
Disponível na Google Play Store

Para iniciantes: O AI Edge Gallery é a forma mais fácil de experimentar IA local sem configurar nada. Instala e usa.

Referências

Vaswani, A. et al. (2017). "Attention Is All You Need". arXiv:1706.03762
Kaplan, J. et al. (2020). "Scaling Laws for Neural Language Models". arXiv:2001.08361
Brown, T. et al. (2020). "Language Models are Few-Shot Learners". arXiv:2005.14165

RAG (Retrieval Augmented Generation)

Definição formal

Retrieval Augmented Generation é uma arquitetura de sistema que combina recuperação de informação (retrieval) com geração de texto (generation), permitindo que LLMs acessem conhecimento externo não presente em seus parâmetros de treinamento.

Base teórica

Proposto por Lewis et al. (2020), o RAG endereça a limitação de LLMs de não conseguirem acessar informação privada ou atualizada após o cutoff de treinamento.

Arquitetura detalhada

Referências

Lewis, P. et al. (2020). "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks". arXiv:2005.11401
Gao, Y. et al. (2023). "Retrieval-Augmented Generation for Large Language Models: A Survey". arXiv:2312.10997

Agente (AI Agent)

Definição formal

Agente de IA é um sistema autônomo que utiliza um LLM como controlador central para perceber o ambiente, raciocinar sobre objetivos, e executar ações através de ferramentas externas, mantendo memória e estado ao longo de interações.

Framework ReAct (Reasoning + Acting)

Proposto por Yao et al. (2022), o framework ReAct intercala passos de raciocínio (Thought) com passos de ação (Action):

Thought: Preciso saber a população atual do Brasil
Action: Search[população Brasil 2024]
Observation: Brasil tem aproximadamente 215 milhões de habitantes
Thought: Agora tenho a informação necessária
Action: Finish[A população do Brasil em 2024 é de aproximadamente 215 milhões]

Referências

Yao, S. et al. (2022). "ReAct: Synergizing Reasoning and Acting in Language Models". arXiv:2210.03629

Fine-tuning (Ajuste Fino)

Definição formal

Fine-tuning é o processo de treinamento adicional de um modelo pré-treinado em um dataset específico para adaptar seu comportamento a uma tarefa ou domínio particular.

Tipos de Fine-tuning

Supervised Fine-Tuning (SFT)

Treina o modelo com pares prompt-resposta:

from trl import SFTTrainer

trainer = SFTTrainer(
    model="Qwen/Qwen2.5-0.5B",
    train_dataset=dataset,  # Prompt + resposta esperada
)
trainer.train()

Casos de uso:

Instruction tuning (seguir instruções)
Domain adaptation (adaptar para domínio específico)
Style transfer (estilo de escrita)

LoRA e QLoRA

LoRA (Low-Rank Adaptation) adiciona matrizes de baixa dimensão, mantendo pesos originais congelados:

Treina apenas ~1% dos parâmetros
Preserva conhecimento original
Permite múltiplos adapters para diferentes tarefas

QLoRA combina LoRA com quantização:

4-bit quantização do modelo base
Treina em GPUs pequenas (8GB+)
~50% menos memória que LoRA

Alinhamento com Preferências

Modelos pré-treinados aprendem a prever texto, não necessariamente a ser úteis ou seguros. Alinhamento adapta o modelo para seguir preferências humanas.

Por que alinhamento? Um modelo pode completar "Como fazer uma bomba…" de várias formas. Alinhamento ensina qual completão é preferível (recusar, redirecionar, etc.).

DPO (Direct Preference Optimization)

Método simples que não precisa de reward model:

from trl import DPOTrainer, DPOConfig

config = DPOConfig(output_dir="model-dpo", beta=0.1)
trainer = DPOTrainer(
    model=model,
    args=config,
    train_dataset=preference_dataset,  # pares chosen/rejected
)
trainer.train()

Dados necessários: Pares de preferência (prompt, chosen_response, rejected_response)

PPO (Proximal Policy Optimization)
Pipeline completo de RLHF:
1. Treina reward model com preferências humanas
2. Usa RL para maximizar reward sem driftar do modelo original
```
from trl import PPOTrainer

# Requer: policy model + reward model + reference model
trainer = PPOTrainer(
    model=policy_model,
    reward_model=reward_model,
    train_dataset=prompts,
)
trainer.train()
```
Vantagem: Controle fino sobre comportamento Desvantagem: Complexo, requer 3 modelos em memória

GRPO (Group Relative Policy Optimization)

Alternativa mais eficiente ao PPO:

Não precisa de reward model separado (usa reward function)
Mais estável que PPO
Usa menos memória

from trl import GRPOTrainer, GRPOConfig

config = GRPOConfig(output_dir="model-grpo", num_generations=4)
trainer = GRPOTrainer(
    model="Qwen/Qwen2-0.5B-Instruct",
    reward_funcs=reward_function,  # Função de recompensa customizada
    train_dataset=prompts,
)
trainer.train()

Comparação de Métodos

Método	Dados Necessários	Complexidade	Quando Usar
SFT	Prompt + resposta	Baixa	Instruction tuning, domain adaptation
LoRA/QLoRA	Prompt + resposta	Baixa	Quando memória é limitada
DPO	Preferências (chosen/rejected)	Média	Alinhamento simples
PPO	Reward model + prompts	Alta	Controle máximo, RLHF completo
GRPO	Reward function + prompts	Média	RL eficiente, sem reward model

Ferramentas Recomendadas

Unsloth (SFT + LoRA)

Melhor para fine-tuning supervisionado:

Site: https://unsloth.ai
Guias: Tutoriais para Llama, Qwen, Mistral
Vantagens: 2-5x mais rápido, 50-80% menos memória
Casos de uso: Instruction tuning, domain adaptation

TRL (RLHF + DPO + GRPO)

Biblioteca do HuggingFace para alinhamento:

pip install trl transformers datasets peft accelerate

Site: https://huggingface.co/docs/trl/
Métodos: SFT, DPO, PPO, GRPO, Reward Models
Integração: Funciona com modelos HuggingFace

Dica: Use Unsloth para SFT/LoRA (mais rápido). Use TRL para DPO/PPO/GRPO (alinhamento com preferências).

Referências

Hu, E. J. et al. (2021). "LoRA: Low-Rank Adaptation of Large Language Models". arXiv:2106.09685
Ouyang, L. et al. (2022). "Training language models to follow instructions with human feedback". arXiv:2203.02155
Rafailov, R. et al. (2023). "Direct Preference Optimization: Your Language Model is Secretly a Reward Model". arXiv:2305.18290

Arquiteturas de Modelo

Modelos Densos vs MoE (Mixture of Experts)

Modelos de linguagem podem ter diferentes arquiteturas:

Modelos Densos

Definição: Todos os parâmetros são ativados a cada token
Exemplos: Qwen3.5:27B, Llama 3.1 405B
Vantagens: Estáveis, previsíveis, bons para tool calling
Desvantagens: Mais custosos para rodar

MoE (Mixture of Experts)

Definição: Apenas um subconjunto de "experts" é ativado por token
Exemplos: DeepSeek V3.2 (671B total, ~37B ativos), Qwen3.5-397B-MoE, Qwen 3.6-35B-A3B (35B total, 3B ativos), GLM-5.1 (754B total, 40B ativos)
Vantagens: Mais eficientes, melhor custo-benefício
Desvantagens: Podem ser instáveis para agentes

Dica: Para agentes com tool calling, prefira modelos densos (Qwen3.5:27B). MoE pode ter comportamento inconsistente.

Recursos de Computação

Arquitetura	Parâmetros Totais	Parâmetros Ativos	VRAM
Denso 7B	7B	7B	~16GB
MoE 35B/3B	35B	3B	~8GB
Denso 27B	27B	27B	~48GB
MoE 671B	671B	~37B	~80GB

Parâmetros de Inferência

Configurando Modelos Locais

Ao rodar modelos localmente (Ollama, LM Studio, llama.cpp), você pode ajustar parâmetros que afetam a geração de texto.

Parâmetros Principais

Parâmetro	Descrição	Quando ajustar
temperature (0.0-2.0)	Controla criatividade. Baixa = mais determinístico	0.0 para código, 0.7 para chat
top_k (1-100)	Limita tokens às top-k mais prováveis	10 para conservador, 40 para variado
top_p (0.0-1.0)	Nucleus sampling - probabilidade cumulativa	0.9 para balanceado
min_p (0.0-1.0)	Probabilidade mínima relativa ao mais provável	0.05 para filtrar tokens ruins
num_ctx (int)	Tamanho da janela de contexto	Maior para documentos longos
num_predict (int)	Máximo de tokens a gerar	-1 para ilimitado
repeat_penalty (1.0-2.0)	Penaliza repetições	1.1 para evitar loops
seed (int)	Semente para reprodutibilidade	Fixo para resultados consistentes

Exemplo: Modelfile do Ollama

# Modelfile para criar modelo personalizado
FROM qwen3.5:27b

# Temperatura mais baixa para agentes
PARAMETER temperature 0.3

# Contexto maior para RAG
PARAMETER num_ctx 32768

# Evitar repetições
PARAMETER repeat_penalty 1.15

# System prompt
SYSTEM """Você é um assistente útil que responde em português."""

Comandos Úteis

# Ver modelfile de um modelo
ollama show --modelfile qwen3.5:27b

# Criar modelo personalizado
ollama create meu-modelo -f Modelfile

# Ver parâmetros atuais
ollama run qwen3.5:27b
/set parameter

Ferramenta Recomendada: Unsloth

Unsloth oferece guias para:

Fine-tuning de LLMs com LoRA/QLoRA
Deploy local de modelos
Otimização de parâmetros de inferência
Tutoriais para Qwen, Llama, Mistral

Embedding

Definição formal

Embedding é uma representação vetorial densa de um objeto (palavra, frase, documento, imagem) em um espaço contínuo de dimensão d, onde a proximidade vetorial indica similaridade semântica.

Base teórica

Embeddings word2vec (Mikolov et al., 2013) revolucionaram NLP ao mostrar que relações semânticas podem ser capturadas geometricamente:

rei - homem + mulher ≈ rainha
vetor("rei") - vetor("homem") + vetor("mulher") ≈ vetor("rainha")

Referência

Mikolov, T. et al. (2013). "Efficient Estimation of Word Representations in Vector Space". arXiv:1301.3781

Vector Database (Banco de Dados Vetorial)

Definição formal

Vector Database é um sistema de armazenamento otimizado para embeddings, fornecendo indexação e busca de similaridade eficiente (ANN - Approximate Nearest Neighbor) em escala.

Ferramentas Populares

Ferramenta	Tipo	Escala
FAISS	Biblioteca	Milhões
Pinecone	Serviço gerenciado	Bilhões
Weaviate	Open source	Milhões
Chroma	Open source	Milhões
Milvus	Open source	Bilhões
Qdrant	Open source	Milhões

Resumo Visual Completo

Confusões Comuns

Frase que ouvimos	O que a pessoa quer dizer	Termo correto
"Vou usar IA para responder"	Vai usar um chatbot	LLM ou Agente
"Meu RAG responde perguntas"	Sistema com busca + LLM	Agente com RAG
"O agente alucina"	O LLM dentro do agente errou	LLM alucina
"Preciso treinar minha IA"	Quer fazer fine-tune do LLM	LLM fine-tuning
"Vou criar um embedding"	Vai criar representação vetorial	Correto!
"Meu vector database aprende"	O banco armazena, não aprende	Vector DB só indexa

Leituras Sugeridas

Papers Fundamentais

"Attention Is All You Need" (Vaswani et al., 2017)
- Link: arXiv:1706.03762
- Por que ler: Arquitetura Transformer, base de todos os LLMs modernos
"Language Models are Few-Shot Learners" (Brown et al., 2020)
- Link: arXiv:2005.14165
- Por que ler: Introduz GPT-3 e demonstra capacidades emergentes
"Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" (Lewis et al., 2020)
- Link: arXiv:2005.11401
- Por que ler: Paper original do RAG
"ReAct: Synergizing Reasoning and Acting in Language Models" (Yao et al., 2022)
- Link: arXiv:2210.03629
- Por que ler: Framework fundamental para agentes

Sobre Eficiência de Modelos

"Scaling Laws for Neural Language Models" (Kaplan et al., 2020)
- Link: arXiv:2001.08361
- Por que ler: Mostra como performance escala com parâmetros e dados - a base teórica do "maior é melhor"
"Training Compute-Optimal Large Language Models" (Hoffmann et al., 2022)
- Link: arXiv:2203.15556
- Por que ler: Chinchilla scaling laws - modelos menores com mais dados podem superar modelos maiores
"Distilling the Knowledge in a Neural Network" (Hinton et al., 2015)
- Link: arXiv:1503.02531
- Por que ler: Base teórica da distilação - como modelos pequenos aprendem com grandes

Sobre História e Filosofia da IA

"Origins and Evolution of Enactive Cognitive Science" (Carvalho, Pereira & Coelho, 2015)
- Link: doi:10.1016/j.plrev.2015.08.001
- Por que ler: Genealogia das escolas de ciência cognitiva — da Cibernética ao Enativismo

Exercícios Práticos

Exercício 1: Identificação de Conceitos

Para cada cenário abaixo, identifique qual tecnologia está sendo usada (IA, LLM, RAG, Agente, Embedding, VectorDB, Fine-tuning):

Cenário A: Você faz uma pergunta sobre documentos internos da sua empresa. O sistema busca os documentos relevantes e passa para um modelo gerar a resposta.

Cenário B: Um sistema classifica automaticamente emails como spam ou não spam.

Cenário C: Você usa o ChatGPT para traduzir um texto do português para inglês.

Cenário D: Um assistente converte moedas em tempo real, faz buscas na web e lembra suas preferências.

Cenário E: Uma empresa treina um modelo para responder no tom específico da sua marca.

📝 Respostas

Cenário A: RAG - combina retrieval com generation
Cenário B: IA (modelo discriminativo, não LLM) - classificação tradicional
Cenário C: LLM - uso direto do modelo sem ferramentas
Cenário D: Agente - tem ferramentas, memória e ações
Cenário E: Fine-tuning - adaptação do modelo para estilo específico

Exercício 2: Análise de Arquitetura

Dado o seguinte sistema, desenhe a arquitetura e identifique os componentes:

"Sistema de atendimento ao cliente da empresa X:
1. Recebe pergunta do usuário via WhatsApp
2. Busca em 5000 PDFs de manuais técnicos
3. Usa um modelo para gerar resposta
4. Se não encontrar resposta, abre ticket no Zendesk
5. Mantém histórico das últimas 10 conversas por usuário"

Tarefas: a) Quais componentes de RAG estão presentes? b) Quais componentes de Agente estão presentes? c) Desenhe o fluxo de dados.

📝 Resposta

a) Componentes RAG:

Vector DB (para indexar 5000 PDFs)
Embedding Model (para vetorizar perguntas e documentos)
Retrieval (busca de documentos relevantes)
LLM (para gerar resposta)

b) Componentes de Agente:

Memória (histórico de 10 conversas)
Ferramenta externa (Zendesk)
Decisão (quando abrir ticket vs responder)

c) Fluxo:

Notas de Rodapé:

O material histórico desta seção acompanha Carvalho, Pereira & Coelho (2015), "Origins and Evolution of Enactive Cognitive Science", que traça a genealogia das escolas de ciência cognitiva — Cibernética, Cognitivismo, Conexionismo, Enativismo.

FOMO = "Fear Of Missing Out" (medo de ficar de fora). Termo usado em marketing para descrever a ansiedade de perder oportunidades, frequentemente explorado em campanhas de venda.

The Alchemist's Hideout

IA, LLM, RAG, Agentes: Entendendo as Nomenclaturas

O Problema

IA (Inteligência Artificial)

Definição formal

Base teórica

Alan Turing e os fundamentos

Classificação por capacidades (para construtores)

Sobre o termo "AGI"

LLM (Large Language Model)

Definição formal

Base teórica

Como funciona (detalhado)

Escala de Modelos (2019-2026)

Como a eficiência aumentou

Gráfico: Explosão de parâmetros e a revolução da eficiência

Estado da Arte (Abril 2026)

Destaque: MiniMax M2.7 e Self-Evolution

Destaque: MiniMax M2.5 — Irmão Mais Barato

Modelos de Acesso Restrito (Abril 2026)

Modelos Pequenos (Edge/Local)

Google AI Edge Gallery

Referências

RAG (Retrieval Augmented Generation)

Definição formal

Base teórica

Arquitetura detalhada

Referências

Agente (AI Agent)

Definição formal

Framework ReAct (Reasoning + Acting)

Referências

Fine-tuning (Ajuste Fino)

Definição formal

Tipos de Fine-tuning

Supervised Fine-Tuning (SFT)

LoRA e QLoRA

Alinhamento com Preferências

Comparação de Métodos

Ferramentas Recomendadas

Unsloth (SFT + LoRA)

TRL (RLHF + DPO + GRPO)

Referências

Arquiteturas de Modelo

Modelos Densos vs MoE (Mixture of Experts)

Modelos Densos

MoE (Mixture of Experts)

Recursos de Computação

Parâmetros de Inferência

Configurando Modelos Locais

Parâmetros Principais

Exemplo: Modelfile do Ollama

Comandos Úteis

Ferramenta Recomendada: Unsloth

Embedding

Definição formal

Base teórica

Referência

Vector Database (Banco de Dados Vetorial)

Definição formal

Ferramentas Populares

Resumo Visual Completo

Confusões Comuns

Leituras Sugeridas

Papers Fundamentais

Sobre Eficiência de Modelos

Sobre História e Filosofia da IA

Exercícios Práticos

Exercício 1: Identificação de Conceitos

Exercício 2: Análise de Arquitetura

Notas de Rodapé:

← Voltar para Guilda de IA