Chunking de Documentos

Insira um texto longo e veja como ele seria dividido em chunks para um sistema RAG.

📝

Texto de Entrada

0 caracteres
⚙️

Configuração do Chunk

📦

Resultado

O que é Chunking em RAG?

Conceitos fundamentais para dividir documentos em blocos processáveis.

📚

Por que dividir em chunks?

Modelos de linguagem possuem um context window limitado. Ao enviar um documento inteiro, pode-se extrapolar esse limite. O chunking divide o texto em blocos menores, permitindo que o sistema de recuperação (retriever) encontre apenas os trechos relevantes para responder uma pergunta.

⚙️

Estratégias de Chunking

1
Tamanho Fixo
Divide o texto em blocos de N caracteres com overlap entre eles. Simples e previsível.
2
Por Parágrafo
Respeita quebras de parágrafo. Mantém coerência semântica melhor que corte fixo.
3
Por Sentença
Usa pontuação final para dividir. Ideal para textos bem estruturados.
🔗

Overlap

O overlap (sobreposição) garante que informações no limite entre dois chunks não sejam perdidas. Um overlap de 10-20% do tamanho do chunk é uma boa prática inicial.