LLM101
2026年03月18日
例: The best thing about AI is its ability to …
| 次のトークン候補 | 確率 |
|---|---|
| learn | 0.42 |
| generate | 0.25 |
| process | 0.15 |
| understand | 0.10 |
| adapt | 0.05 |
| … | 0.03 |
トークンとは?
"learning" → ["learn", "ing"]温度パラメター(Temperature)
Key Takeaways
課題: 組合せ爆発
解決策: 確率のモデル化
プロンプトから応答生成までの流れとUnknown Knowns
プロンプト → トークン予測 → 応答生成
Unknown Knowns問題の具体例
モデルは知っているのに引き出せない
プロンプト設計の問題
出力形式の暗黙の期待
Known-Unknownsフレームワークで整理するLLMとの付き合い方
LLMが知っていることを知っている状態
自分が知らないと自覚していること
知っていることを知らない状態
知らないことすら気づいていない領域
Appendix
課題: One-hot表現の限界
解決策: 密ベクトル表現
Skip-gramモデルの学習手順
\[p(w_{t+j} \mid w_t) = \frac{\exp(\mathbf{u}_{w_{t+j}}^\top \mathbf{v}_{w_t})}{\sum_{w=1}^{V} \exp(\mathbf{u}_w^\top \mathbf{v}_{w_t})}\]
学習されたベクトルの性質
コンテキストウィンドウサイズの影響
Word2Vec → GPT: Embeddingの進化
| Word2Vec | GPT | |
|---|---|---|
| ベクトル | 単語ごとに固定 | 文脈に応じて動的 |
| 「bank」の表現 | 常に同じベクトル | 「river bank」と「bank account」で異なる |
| 学習タスク | 周囲の単語を予測 | 次のトークンを予測 |
| 構造 | 浅いネットワーク | Transformer(多層Self-Attention) |
GPTの処理フロー
\[\mathbf{h}_i^{(0)} = \mathbf{e}_i + \mathbf{p}_i\]
Regmonkey Presentation. ©Ryo Nakagami. All rights reserved.