データマイニング

 データマイニングとは、種々の解析手法を用いて大量のデータを分析し、その背後に隠されている関係性や意味を見つけ出す手法またはそのプロセスのことであると言われる。「マイニング」とは「採掘」という意味で、データウェアハウスなどに蓄積された膨大なデータを「鉱山」と見立て、そこから未知の関係性(鉱石)を発掘するという意味である。
 データマイニングの定義は、諸説あるが共通しているのは、大量のデータからビジネスに有効なパターンを発見するという意味といえるようである。そこでは、「大量データ」と「発見」というキーワードが定番の要素として位置づけられていることから、仮説と検証を目的として、パラメーター推定や推論・予測を目的とした統計解析などを強く意識している。
 これまで多く用いられてきた統計解析とはどのような位置関係にあるのかといえば、データマイニングとは一口に言って補完関係にあると言っても差支えないようにも思える。実務的な解釈では、統計が仮説検証のための手法であるのに対して、データマイニングは仮説構築の手法とされているからである。これが「発見型」といわれるゆえんである。
 例えば、「高学歴の人は低学歴の人より給与ガ高い」という仮説を立て、それが本当かどうか検証するのが統計的アプローチで、給与の額を決定づける重要な要因をみつけだすのがデータマイニングであると言われる。そう言われてみれば、「ビールと紙オムツ」など確かにそうであるが、実際にはあまり意識する必要はないように思われる。
 例えば、ガン患者の生活習慣を追跡することにより、ガンになる食習慣との因果関係を調べ、ガンを発症する確率を導き出すといった仮説思考による分析により、統計データを解析するという場合、判別分析などが用いられるが、これをデータマイニングと呼ぶか、それとも統計解析と呼ぶかは主観的なもので、これに拘る意味は殆どない。
 また、顧客の購買履歴を解析することで、その顧客のライフスタイルや所得層、家族構成、などを推定することで、より提案力のある商品・サービスパッケージを開発するなどという場合でも、これまでの統計解析で知り得た知識を元に仮説を立てることになるから、データマイニングと統計解析は正に補完関係にあるというべきである。