データの特性

　データツリーが出来上がると、分析に必要なデータをどのようにして収集するか、どのようなスケジュールで行うかを決めることになるが、その前に、基本的なデータの性質を踏まえ、収集のステップを決めなければならない。データは大きく、「定量的データ」と「定性的データ」、「既存のデータ」と「新たにつくられるデータ」という分類の仕方がある。

　既存のデータは、セカンダリーデータであり、新たにつくられるデータは、プライマリーデータという。プライマリーデータは、特別な目的を持って集める独自のデータなので、収集するには時間や費用もかかるため、まずは、セカンダリーデータから集めるというのがポイントである。その場合、データの素性を明確に押さえておくことも大事な点である。

　それからデータの収集で、結構苦労するのは対になったデータを集めることの難しさである。中長期間のトレンドを見る場合であれば、「暦年」と「年度」が混在していたとしても、態勢には影響ないこともあるが、前年度と今年度の売り上げの伸び率を分析しようとしているのに、対応するデータが存在しなかったり、違った素性であっては分析できない。

　対になったデータという意味では、プライマリーデータの場合は、分析の意図に基づいて収集が計画されるので、問題はないと思われるが、セカンダリーデータは、目的や視点が異なっていると使い勝手が悪いことがある。ただし、データは、定量的な数値データに限ったものではないから、定性的な文字データなどで補完できる余地も十分に考えられる。

　以上のことをもう一度整理すると、セカンダリーデータには、官公庁や業界団体などの各種統計データ、新聞記事、インターネット上の情報などで、その中には定量的なもの、定性的なデータも当然含まれている。一方のプライマリーデータは、独自に企画したアンケートや実験データ、財務データやサイトのアクセスログなどが同様に含まれている。

　正確なデータ分析を求めるのであれば、オリジナルなデータであるプライマリーデータを収集するのが望ましいわけであるが、前述のようにこれには時間と費用がかさむ。こうした場合は、まず、セカンダリーデータを参考にして、これを最大限に活用できるプライマリーデータのイメージ掴むようにすれば、精度は粗くなるが、分析目的は損なわれない。