Tokenizer
同じ文章やコードでも、token の切り方で系列長、語彙数、未知語の扱いが変わります。
Token の章へLLM / Transformer Guide
Tokenizer、Attention、Dataset、次 token 予測を、最小の Transformer 実験と 結びつけて読むための解説サイトです。完成品のチャット AI ではなく、base language model の土台から順番に見ていきます。
Concept map
何を変えると何が変わるのかを先に押さえると、モデル作成や agent 開発で prompt、tool、dataset、validation を混同しにくくなります。
同じ文章やコードでも、token の切り方で系列長、語彙数、未知語の扱いが変わります。
Token の章へ現在の token が過去のどこを見るかを決め、構文、照応、文脈の扱いに効きます。
Attention の章へモデルが見る世界そのものです。文体、知識、癖、バイアス、暗記リスクに直結します。
Dataset の章へHands-on path
自然言語とコードの小さな dataset を使い、tokenizer、次元数、層数、文脈長、 生成パラメータの違いを同じモデルで比較します。