ディシジョンツリー

 ディシジョンツリーとは、意思決定や命題の判定、ものごとの分類などを多段階で繰り返し行う場合、その分岐の繰り返しを階層化して樹形図を描くという構造モデルである。データマイニングで用いる場合には、予測モデル、意思決定分析、最適化、分類問題の解決、概念・知識の記述、ルールの抽出や生成などに利用される。
 このツリーの原型は、ゲーム理論の「ゲームの木」と似ている。例えば、[晴天、雨天]と[傘を持つ、傘を持たない]という利得表で考えた場合、ゲームの木そのものである。ただし、ディシジョンツリーでは、ゲームの相手がプレーヤーではなく、自然現象の発生する確率であるため、その確率に合わせ利得が算出されることになる。
 データマイニングでは、与えられたサンプルデータをその属性変数の値から分類し、その繰り返しによってデータ全体を樹形モデルで表現する。ディシジョンツリーでは、意思決定者が取り得る選択と不確実性の発生確率の分岐点が多段にわたる際、これらの分岐点を階層化して描くことになるため、時として複雑な形になってしまうこともある。
 この分岐点には決定ノード、確率ノード、結果ノードが描かれる。決定ノードは、意思決定者がコントロールできる変数や行動を示す(四角)。確率ノードは、意思決定者がコントロールできず他者や自然などによって決まる事象を示す(丸)。結果ノードは、結果価値を示す最終点で開いたリンクまたは三角で描かれることが多い。
 ディシジョンツリーは、全ての結果を漏れなく書き出すので、正しい事例を包含されているとみなすことができる。利用範囲は意思決定、行動選択、人工知能の分野では、知識表現の方法として用いられる。その人工知能分野では、演繹推論を行うエキスパートシステムの知識を各分野の専門家の知識を人手によって入力しなければならない。
 データマイニングにおけるディシジョンツリー分析は、一定の規則によって自動的にデータを分類していくものである。具体的には、対象データ全体を最もよく分類できる属性変数を探索し、それに従って分類されたデータ群にもそれぞれ最も分類効率の高い属性変数を探索するという作業を繰り返し、分類できなくなるまで分岐を繰り返し行う。