Publicado em 4 de abr.

Como desenhar um pipeline para processar 100 mil PDFs por mês com embeddings?

Quando o volume de documento cresce, a conversa deixa de ser “qual modelo usar?” e vira arquitetura operacional. Receber dezenas de milhares de PDFs por mês, extrair texto, quebrar em chunks, embutir vetores e manter busca semântica estável muda totalmente a natureza do problema.

O gargalo costuma aparecer em pontos diferentes para times diferentes:

ingestão
OCR
chunking
fila
custo de embedding
reprocessamento incremental

O erro clássico

Muita arquitetura de primeira versão trata tudo como uma linha reta síncrona. Isso até funciona com lote pequeno, mas degrada rápido quando aparecem:

arquivos ruins
reprocessamento parcial
concorrência desigual entre etapas
necessidade de observabilidade por documento

O desenho que mais faz sentido para mim

Eu tenderia a separar esse fluxo por estágios bem explícitos:

captura e catalogação do arquivo
extração/OCR
chunking e metadados
embeddings
indexação e publicação

Cada etapa com fila, idempotência e visibilidade própria. Sem isso, o sistema até roda, mas ninguém consegue explicar com clareza onde um documento ficou parado ou por que o custo disparou.

Para quem já montou algo nessa escala: vocês preferem pipeline mais desacoplado desde o começo ou começam com algo mais linear e só quebram em estágios quando a dor aparece de verdade?

Discussão (5)

Entre ou cadastre-se para participar da discussão

Entrar Criar conta

Carregando comentários...