Por que busca vetorial precisa de avaliação antes de escala
Em setembro de 2024, busca vetorial e RAG viraram a resposta rápida para colocar contexto privado em aplicações com IA. O ponto mais interessante para a comunidade era entender o que mudava na prática, longe de promessa genérica e perto do trabalho diário de quem mantém produto em produção.
O que estava mudando
logo ficou claro que recuperar documentos não bastava, porque qualidade dependia de chunking, ranking, atualização e avaliação. Essa leitura ajuda porque tecnologia nova quase sempre mistura ganho real, ruído de mercado e custo operacional que só aparece depois.
Onde isso batia no trabalho real
o time precisava tratar o pipeline como produto de dados, com amostras, casos ruins e critérios de resposta aceitável. Quando a conversa entra nesse nível, fica mais fácil decidir se vale testar, esperar maturar ou simplesmente documentar melhor a decisão atual.
Como eu testaria
um bom teste começava com perguntas reais, respostas esperadas e comparação entre versões do índice antes de ampliar o escopo. O importante é começar pequeno, registrar o antes e o depois, e não chamar preferência pessoal de evidência.
Perguntas para a comunidade
1. Como você escolhe exemplos bons para avaliar RAG?
2. O que é pior no seu contexto, resposta incompleta ou resposta confiante demais?
3. Quando vale mexer no prompt e quando vale mexer no índice?
4. Que métrica ajuda a mostrar melhora sem virar vaidade?