Chunking
Processen at opdele lange dokumenter i mindre stykker før de embeddes til en vector database.
Chunking handler om at finde den rigtige størrelse på de tekst-stumper du gemmer i din vector database. For små chunks (50 ord) → mister kontekst og semantik. For store chunks (5000 ord) → mister præcision i søgning og fylder prompten med irrelevant tekst.
Gode strategier inkluderer: respekter naturlige grænser (afsnit, sektioner) frem for hård word-cap; overlap mellem nabo-chunks (typisk 10-20%) så vigtige sammenhænge ikke skæres over; tilpas chunk-størrelse til indholdstype (kode = mindre, prosa = større).
Chunking-kvaliteten er ofte den vigtigste enkeltfaktor i hvorvidt et RAG-system virker. Det er værd at iterere og teste flere strategier på din konkrete data.