Lekce 01 · 12 min čtení

Co je jazykový model?

Bigramy nad Švejkem, pravděpodobnost dalšího slova, první intuice.

Úvod

Jazykový model je program, který tipuje, jaké slovo přijde v textu jako další. To je celé. Není v tom (zatím) žádná magie, žádné porozumění, žádné vědomí — jen aplikace statistiky.

Máš někdy pocit, že autocomplete v telefonu ti čte myšlenky? Napíšeš dvě slova a ono ti to nabídne třetí. Pak čtvrté. Pak větu, kterou bys možná napsal. Žádná magie v tom není, jen statistika.

Moderní LLM — ten, co ti dopisuje maily, kód i výmluvy — je v jádru přesně to samé, co budeme stavět dnes. Jen má kontext mnohem delší než jedno slovo a tabulku pravděpodobností mnohem větší. Princip zůstává — mrknout na dosavadní text, spočítat, co je nejpravděpodobnější příští token, vybrat. Opakovat.

V téhle lekci si na tom postavíme intuici nad Osudy dobrého vojáka Švejka. Když nám náš model vygeneruje:

„Pan Švejk se vrátil do hospody U Kalicha."

…tak je to triumf. Když vygeneruje:

„Pan se Švejk hospody U vrátil."

…tak je to ehm taky zajímavé :-), ale ne úplně kvalitní...

Švejk sedí u laptopu, na kterém běží AI — Švejk se seznamuje s jazykovým modelem.

Hlavní koncept: bigram

Začneme s nejjednodušším možným modelem: bigram. To slovo znamená dvojici — „bi" jako dvě, „gram" jako jednotka. Bigramový model si pamatuje, jaká dvojice slov se v textu vyskytuje a jak často.

Bigram zní dost vědecky, ale je to jen tabulka. Když mu dáš slovo pan, koukne se do svojí tabulky, najde řádek pan a vidí: „po pan přijde nejčastěji Švejk, pak Lukáš, pak rytmistr..." Vybere si podle pravděpodobnosti a pokračuje dál.

NgramExplorer · Švejk (CZ, ukázková data)

Po slově pan přijde…

Švejk32%
Lukáš18%
rytmistr11%
doktor9%
farář6%
(jiné)24%

Pozn.: pravděpodobnosti jsou ilustrativní, ne spočtené nad celým korpusem.

Klikni si na různá slova nahoře a pozoruj, jak vypadají přechody. Všimni si dvou věcí:

poslušně má v podstatě jen jednoho následovníka. Pokud jsi někdy četl Švejka, víš proč. Pokud ne, tak si ho přečti :).
pan je velmi predikovatelné: pět nejčastějších slov pokrývá 76 % všech výskytů. Naproti tomu to je rozházenější — i pět top slov pokryje jen dvě třetiny.

To je důležitý insight: některá slova jsou prediktivnější než jiná. „poslušně" má entropii skoro nulovou. „to" je entropický chaos. Dobrý model si toho všímá. (O entropii víc později, zatím to ber jako „míru překvapení".)

Mini teaser · entropie

Čím víc je pravděpodobnost rozlitá mezi možnosti, tím víc se model potí při hádání.

Po slově poslušně...

nízké překvapení

hlásím84%
(jiné)16%

Model skoro nemusí hádat. Švejk už stojí v pozoru.

Po slově to...

větší chaos

je29%
byl18%
všechno8%
znamená6%
víte5%
(jiné)34%

Tady je pokračování rozházené mezi víc možností.

Matematika (easy)

Bigramový model je vlastně jen tabulka podmíněných pravděpodobností. Chceme spočítat:

P(\text{další slovo} \mid \text{předchozí slovo})

Čteme to jako „pravděpodobnost dalšího slova za podmínky, že předchozí slovo bylo nějaké konkrétní". Spočítáme to z dat takhle:

P(w_2 \mid w_1) = \frac{\text{count}(w_1, w_2)}{\text{count}(w_1)}

Slovy: spočítej, kolikrát se v korpusu objevila dvojice (w_1, w_2), a vyděl tím, kolikrát se objevilo samotné w_1. Hotovo.

Příklad. Řekněme, že v korpusu se pan objevilo 1000×, a z toho po pan následovalo Švejk 320×. Pak:

P(\text{Švejk} \mid \text{pan}) = \frac{320}{1000} = 0{,}32

Tedy 32% šance, že po pan přijde Švejk. (Což zhruba sedí s tím, co vidíš v exploreru nahoře.)

Drobná lež na úvod

Tady trochu lžeme: ve skutečnosti většina prakticky používaných „pravděpodobností" se vyhlazuje (smoothing), aby model dával nenulovou šanci i dvojicím, které v trénovacích datech vůbec neviděl. Jinak se ti totiž první neznámé slovo zachytí ve smyčce „pravděpodobnost 0 → konec světa". Smoothing si necháme na později.

V kódu

Pojďme tento jednoduchý koncept přepsat do kódu. Klikni Run — Pyodide se načítá ~10 sekund první spuštění, pak už to jde rychle.

python · pyodide

Tři věci, co se tu staly:

Tokenizace přes regex — \w+ posbírá všechno, co vypadá jako slovo (písmena + čísla, žádná interpunkce). Hrubě, ale stačí. V příští lekci uvidíš, proč je tokenizace celá samostatná věda.
Counter(zip(tokens, tokens[1:])) — zip posunutý o jedna vytvoří dvojice sousedních slov. Counter je spočítá. Tři řádky, kompletní bigramový statistický základ.
p_next dělí: počet dvojic / počet prvních slov. Přesně ten vzorec z předchozí sekce.

Všimni si drobnosti: v textu máme nadporučíku. s tečkou, ale tokenizér vidí jen nadporučíku. Stejně tak zahodí čárku za hlásím. To není chyba v kódu, to je naše zjednodušení.

Generování

Když máme pravděpodobnosti, můžeme i generovat text — vezmi startovní slovo, zvol další podle pravděpodobnosti, opakuj.

python · pyodide

Spusť to víckrát s jinými seedy (změň 42 na 0, 1, 7...) a koukni, co ti to vygeneruje. Bude to znít jako Švejk, jen s rapidně klesající soudržností po prvních pár slovech. Což dává smysl — model si pamatuje jen jedno slovo nazpátek. „Pan Švejk řekl poslušně hlásím" je super, ale jakmile začne odbočovat, ztratil nit.

Cvičení

Mrkni znovu na explorer nahoře. Čísla v těchto cvičeních jsou stejná ilustrativní data, která v něm vidíš.

Cvičení · lekce1-cv1

Z exploreru nahoře vidíš, že po slově pan přijde Švejk ve 32 % případů. Jaká je tedy P(Švejk | pan)? (Zadej jako desetinné číslo.)

Cvičení · lekce1-cv2

Spočti P(hlásím | poslušně). (Zase jako desetinné číslo.)

Cvičení · lekce1-cv3

Víme, že P(hlásím | poslušně) = 0,84. Jaká je pravděpodobnost, že po poslušně přijde cokoliv jiného než hlásím?

Cvičení · lekce1-cv4

Vezmi generátor výš, nahraď mini-korpus vlastním textem o 3–5 větách a pusť ho. Jakou nejlepší divnou větu ti vyplivl? Tohle nejde pokazit, pokud to aspoň jednou spustíš.

Shrnutí

Jazykový model = předpovídá další slovo. Žádné porozumění, jen pravděpodobnost.
Bigram je nejjednodušší varianta — kouká na předchozí slovo a vybírá podle tabulky.
Tu tabulku spočteš z dat: $P(w_2 \mid w_1) = \text{count}(w_1, w_2) / \text{count}(w_1)$ .
Generování je sampling z té tabulky, opakovaně.
Po pár slovech to ztratí soudržnost — protože model si pamatuje jen jedno slovo zpátky. To není bug, to je fundamentální limit bigramu.

Proč to ještě není GPT

Pokud sis říkal, že tohle není GPT, máš pravdu. Tohle je model, který kouká jen na jedno slovo dozadu a má ručně spočítanou tabulku. GPT dělá tři zásadní věci líp: tokenizuje text na chytřejší kousky, kouká na mnohem delší kontext a místo tabulky používá neuronovou síť, která se naučí jemnější vzorce.

Ale princip je stejný: vezmi kontext, odhadni pravděpodobnost dalšího tokenu, vyber pokračování, opakuj. Právě sis napsal úplně primitivní verzi té samé myšlenky. GPT-0.001, hospodská edice.

Co bude příště

Jak vidíš, regex tokenizace funguje, ale je hloupá. „Švejk", „Švejka", „Švejkovi" pro ni jsou tři úplně různá slova, mezi kterými nemá žádnou souvislost. A nepokrývá ani interpunkci.

V Lekci 2 — Tokenizace si ukážeme BPE (byte-pair encoding). To je důvod, proč moderní LLM ve skutečnosti často nepracují se slovy, ale s kousky slov — a proč na tom záleží víc, než by se zdálo. Švejkovi najednou nemusí být cizí ostrov. Může to být Švejk + kousek, který už model zná odjinud.