LLM / Transformer Guide

小さな LLM を育てながら、Transformer の中身を理解する。

Tokenizer、Attention、Dataset、次 token 予測を、最小の Transformer 実験と 結びつけて読むための解説サイトです。完成品のチャット AI ではなく、base language model の土台から順番に見ていきます。

Dataset
Tokenizer
Attention
Logits
Next token

Concept map

LLM の動きを、部品ごとの影響として見る

何を変えると何が変わるのかを先に押さえると、モデル作成や agent 開発で prompt、tool、dataset、validation を混同しにくくなります。

01

Tokenizer

同じ文章やコードでも、token の切り方で系列長、語彙数、未知語の扱いが変わります。

Token の章へ
02

Attention

現在の token が過去のどこを見るかを決め、構文、照応、文脈の扱いに効きます。

Attention の章へ
03

Dataset

モデルが見る世界そのものです。文体、知識、癖、バイアス、暗記リスクに直結します。

Dataset の章へ

Hands-on path

読むだけで終わらせず、小さな実験で確かめる

自然言語とコードの小さな dataset を使い、tokenizer、次元数、層数、文脈長、 生成パラメータの違いを同じモデルで比較します。

1. Text becomes tokens 2. Predict the next token 3. Change dimensions and layers 4. Compare natural language and code 5. Connect the model to agent design