既存のデータは、セカンダリーデータであり、新たにつくられるデータは、プライマリーデータという。プライマリーデータは、特別な目的を持って集める独自のデータなので、収集するには時間や費用もかかるため、まずは、セカンダリーデータから集めるというのがポイントである。その場合、データの素性を明確に押さえておくことも大事な点である。
それからデータの収集で、結構苦労するのは対になったデータを集めることの難しさである。中長期間のトレンドを見る場合であれば、「暦年」と「年度」が混在していたとしても、態勢には影響ないこともあるが、前年度と今年度の売り上げの伸び率を分析しようとしているのに、対応するデータが存在しなかったり、違った素性であっては分析できない。
対になったデータという意味では、プライマリーデータの場合は、分析の意図に基づいて収集が計画されるので、問題はないと思われるが、セカンダリーデータは、目的や視点が異なっていると使い勝手が悪いことがある。ただし、データは、定量的な数値データに限ったものではないから、定性的な文字データなどで補完できる余地も十分に考えられる。
以上のことをもう一度整理すると、セカンダリーデータには、官公庁や業界団体などの各種統計データ、新聞記事、インターネット上の情報などで、その中には定量的なもの、定性的なデータも当然含まれている。一方のプライマリーデータは、独自に企画したアンケートや実験データ、財務データやサイトのアクセスログなどが同様に含まれている。
正確なデータ分析を求めるのであれば、オリジナルなデータであるプライマリーデータを収集するのが望ましいわけであるが、前述のようにこれには時間と費用がかさむ。こうした場合は、まず、セカンダリーデータを参考にして、これを最大限に活用できるプライマリーデータのイメージ掴むようにすれば、精度は粗くなるが、分析目的は損なわれない。