Tokenizer
同じ文章やコードでも、token の切り方で系列長、語彙数、未知語の扱いが変わります。
Token の章へLLM / Transformer Guide
Tokenizer、Attention、Dataset、次 token 予測を、最小の Transformer 実験と 結びつけて読むための解説サイトです。完成品のチャット AI ではなく、base language model の土台から順番に見ていきます。
Concept map
何を変えると何が変わるのかを先に押さえると、モデル作成や agent 開発で prompt、tool、dataset、validation を混同しにくくなります。
同じ文章やコードでも、token の切り方で系列長、語彙数、未知語の扱いが変わります。
Token の章へ現在の token が過去のどこを見るかを決め、構文、照応、文脈の扱いに効きます。
Attention の章へモデルが見る世界そのものです。文体、知識、癖、バイアス、暗記リスクに直結します。
Dataset の章へhidden scratchpad、reasoning effort、verifier を推論時の設計要素として分けて見ます。
Reasoning 応用編へ 対応するハンズオンへHands-on path
自然言語とコードの小さな dataset を使い、tokenizer、次元数、層数、文脈長、 生成パラメータの違いを同じモデルで比較します。