Co jsou tokeny
AI nečte slova jako my. Rozbije je na tokeny - někdy celé slovo, jindy jen kus, slabiku nebo znaménko.
Vlož libovolnou větu
AI nečte slova jako my. Než tvůj text začne zpracovávat, rozbije ho na nejmenší kousky, se kterými umí pracovat. Někdy je to celé slovo, jindy jen kus, slabika nebo znaménko. Těmto kouskům se říká tokeny.
Používá se reálný BPE tokenizér z GPT-4o (encoding o200k_base). Diakritika a unicode často spadají do více tokenů než byste čekali.
Proč ti tohle k něčemu je
Tokeny určují tři praktické věci. Za prvé cenu (pokud používáš AI přes API, platíš za každý token na vstupu i výstupu). Za druhé rychlost, protože model generuje text token po tokenu. A za třetí délku odpovědi, protože každý model má nějaký maximální počet tokenů, které dokáže najednou držet v hlavě (viz kontextové okno).
Pokud potřebuješ do vymezeného „prostoru“ vtěsnat co nejvíc informací, pomáhá psát anglicky (kratší tokenizace) a stručně. Pokud ti nejde o cenu, klidně si dovol detail.