Chunking de Documentos
Insira um texto longo e veja como ele seria dividido em chunks para um sistema RAG.
Texto de Entrada
Configuração do Chunk
Resultado
O que é Chunking em RAG?
Conceitos fundamentais para dividir documentos em blocos processáveis.
Por que dividir em chunks?
Modelos de linguagem possuem um context window limitado. Ao enviar um documento inteiro, pode-se extrapolar esse limite. O chunking divide o texto em blocos menores, permitindo que o sistema de recuperação (retriever) encontre apenas os trechos relevantes para responder uma pergunta.
Estratégias de Chunking
1
Tamanho Fixo
Divide o texto em blocos de N caracteres com overlap entre eles. Simples e previsível.
2
Por Parágrafo
Respeita quebras de parágrafo. Mantém coerência semântica melhor que corte fixo.
3
Por Sentença
Usa pontuação final para dividir. Ideal para textos bem estruturados.
Overlap
O overlap (sobreposição) garante que informações no limite entre dois chunks não sejam perdidas. Um overlap de 10-20% do tamanho do chunk é uma boa prática inicial.