Embedding
Også kendt som: Vektor-repræsentation
En numerisk repræsentation af tekst som en model kan sammenligne for ligheder.
En embedding er en liste af tal (typisk 384-3072 dimensioner) der repræsenterer betydningen af et stykke tekst. Tekster med lignende betydning har lignende embeddings — selvom de bruger forskellige ord.
"Hund" og "vovse" har næsten identiske embeddings. "Bil" og "automobil" også. Det betyder du kan søge på betydning, ikke kun på keywords — fundamentet for moderne semantic search og RAG.
Embedding-modeller er en helt egen klasse af AI-modeller, separate fra LLM'er. OpenAI's text-embedding-3, Cohere's embed-v3, og open-source-alternativer som BGE og Nomic er udbredte. De er typisk meget billigere og hurtigere end LLM'er.