Token
Den mindste tekst-enhed en LLM arbejder med — typisk en del af et ord.
LLM'er læser ikke bogstaver eller hele ord — de læser tokens. Et token er en stump tekst der varierer i længde. På engelsk er et token typisk ~4 tegn (omkring 0.75 ord), på dansk lidt mindre fordi vores ord er længere og sammensatte.
Ordet "kundeservice" kan blive splittet i fx ["kunde", "service"] eller ["k", "unde", "service"] afhængigt af modellens tokenizer. Et almindeligt dansk afsnit på 100 ord svarer typisk til 130-160 tokens.
Tokens er vigtige fordi du betaler pr. token (både input og output) hos alle de store udbydere. Når du estimerer omkostninger eller designer prompts, skal du tænke i tokens, ikke i ord.