探索と利用のジレンマ(Exploration-Exploitation Dilemma)/トレードオフ(Tradeoff)とは?:AI・機械学習の用語辞典
「未知の選択肢を試す(探索)」か、「既知の選択肢を使い続ける(利用)」か。一方を重視すれば他方がおろそかになる難しさがあり、うまくバランスを取ることが求められる。このジレンマは、さまざまな意思決定に共通する課題であり、特に強化学習ではそのバランスの調整がモデルの性能に大きく影響する。
用語解説
探索と利用のジレンマ(Exploration-Exploitation dilemma)とは、さまざまな分野において意思決定の際に、「未知の選択肢を試す(=探索)」か、「既知の最善と思われる選択肢を使う(=利用)」かのバランスを取る問題である。いわば「“探索”対“利用”(Exploration vs. Exploitation)のシーソーゲーム」のようなもので、一方を重視すれば、他方がおろそかになるという難しさがある(図1)。このジレンマは「探索と利用のトレードオフ(Exploration-Exploitation tradeoff)」とも呼ばれ、アルゴリズム設計や意思決定戦略の重要なテーマとなっている。
特に機械学習の強化学習では、このジレンマは避けて通れない重要な課題の一つである。強化学習のエージェントは報酬を最大化するために、
- 「未知の行動を試して環境について学ぶ(探索)」か
- 「高い報酬が得られる既知の行動を繰り返す(利用)」か
を選び続ける必要がある。こうしたジレンマをシンプルな形で表現した代表的な課題として、多腕バンディット問題(Multi-armed Bandit Problem)がある。これは、「幾つかの選択肢(スロットマシンの腕)からどれを選ぶと最も多くの報酬が得られるか」を、試行錯誤しながら見つける問題である。
このジレンマは、強化学習以外にもさまざまな意思決定の場面で現れる。例えば、
レコメンデーションシステムでは
- 「新しい商品を提示する(探索)」か
- 「過去に人気だった商品を推薦する(利用)」か
広告配信では
- 「新しい広告を試す(探索)」か
- 「高いクリック率の広告を繰り返す(利用)」か
製造プロセスの最適化では
- 「新しい条件や手順を導入して改善を図る(探索)」か
- 「安定した品質が得られる従来の方法を維持する(利用)」か
といった場面が典型例として挙げられる。
こういった場面で現れるジレンマに対して、実際のシステムでは「基本的には過去の成果に基づいて“利用”を優先しつつ、時にはランダムに別の選択肢を試してみる」といった工夫が取り入れられることが多い。このようにして、“柔軟な意思決定”を通じて、成果を出しながらも新しい可能性を探り続けるバランスが取られている。このジレンマをどう乗り越えるかは、私たちの意思決定の質にも関わる普遍的な課題といえるだろう。
Copyright© Digital Advantage Corp. All Rights Reserved.