Seriál · 10+1 lekcí

Jak funguje LLM

Od nuly k mini-GPT v deseti lekcích.

Pro programátory co znají Python, ale neznají AI. Hodně vizualizací, lehká matika, spustitelný kód přímo v prohlížeči, na konci každé lekce cvičení. Trénujeme na Švejkovi a na Huckleberry Finnovi — protože proč ne.

Osnova

00ÚvodCo tady budeme dělat a proč. Spoiler: na konci si postavíš vlastní mini-GPT.
01Co je jazykový model?Bigramy nad Švejkem, pravděpodobnost dalšího slova, první intuice.
02TokenizaceProč model nevidí slova ani písmena, ale něco mezi. BPE krok za krokem nad Švejkem.
03EmbeddingsJak dát slovům souřadnice ve významovém prostoru. Vektory, kosinová podobnost, nejbližší sousedé.
04Neuronka (forward pass)Co se děje, když vektor projde jednou vrstvou. Lineární vrstva, softmax, předpověď dalšího tokenu.
05Učení (gradient descent)Jak si síť najde svoje váhy sama. Loss, gradient, learning rate a sjíždění z kopce.
06Bigram neural modelPrvní opravdu trénovaný model. Forward pass, cross-entropy a gradient descent slepené v trénovací smyčce.
07Self-attentionJak nechat každé slovo podívat se na ostatní a vzít si od nich, co potřebuje. Query, Key, Value a scaled dot-product attention.
08Multi-head + poziční kódováníVíc hlav pozornosti naráz a jak modelu vůbec říct, v jakém pořadí slova jdou.
09Celý transformer blokPoskládáme attention, feed-forward, reziduální spojení a normalizaci do jednoho bloku, ze kterého se stohováním stane transformer.
10Mini-GPT (finální projekt)Slepíme všechno z kurzu do jednoho funkčního GPT, natrénujeme ho na Švejkovi a necháme ho psát.
11Co dělá GPT-4 jinéBonus na čtení. Cesta od našeho mini-GPT k opravdovému chatbotovi: měřítko, data, instruction tuning a RLHF.