データ軸とは、何を基準にしてデータを分析するかを決める場合に着目するデータの事である。通常よく使われるのは、「時間」「場所」「商品」「年齢」「顧客の属性」などである。例えば、販売額の長期トレンド、昨年と今年の販売額、特定月の販売額などが時間軸であり、国や地域、担当エリア、店舗などが場所軸である。また顧客軸は年齢、性別等である。
データの軸が決まれば、目的に合わせてデータの範囲を選択しなければならない。例えば、売上高の推移を時系列で比較したいという場合は、数年のデータでは景気の変動を織り込んで分析しなければならないから、5年程度では不十分であることもある。しかし一方では、単純に長期のトレンドを捉えても、変化の激しい市場を読み切れない場合もある。
また、このような点に配慮しながらデータの範囲を選択したとしても、長期トレンドの場合はもちろん、特定期間を比較する場合でも、突出したデータ(外れ値)があるため、:傾向や変化の要因が把握できないこともある。こうした場合の外れ値をどのように取り扱うかによって、仮説の検証(及び更なる仮説の構築)にも大きな影響を及ぼす虞が生じてしまう。
時系列変動を見る場合、傾向変動、循環変動、季節変動、不規則変動などが複雑に絡み合っているため、循環変動と季節変動を取除き、傾向変動と不規則変動によりトレンドを捉える場合もあるが、不規則変動が仮需などによる場合は、これを外れ値として除外することもある。また、回帰分析による場合も同様の措置をすれば、回帰係数は大きく高まる。
いずれの場合も、外れ値が生じた理由を考えて処理しなければならないので、解釈次第では新たな仮説の精度にかかわることになる。ただ、データ分析にはこうした外れ値が生じるのは珍しいことではなく、むしろ当然と考えるべきである。問題は、散布図などにより、外れ値の存在を明確にし、正しく解釈をすることで新たな仮説を構築することである。
あるデータ軸を設定して分析を始めると、どうしても欲しいデータが入手できない(あるいは社内にはない)という状況に突き当たることがある。こうした場合には、ネットなどでデータを補充しなければならないが、当然、要件に合うデータが見つからない。こういうときは、定性的データを加工することで、定量的データに作り替える工夫が必要になる。