• データマーケティング
  • 2015-03-10

Monthly pageview: 4


データの形式を把握する

アンケート調査を実施して得られたデータや自社内で日々蓄積するデータを分析する際には、目的に沿ったデータの収集や分析手法の選択が重要となる。目的が明確であったとしても、そのためのデータが揃っていなければそもそも分析できないし、データが揃っていたとしても、間違った統計手法を適用しては有益な知見を得ることはできない。どのような形式のデータが必要であるかを把握すれば、データベースからのデータの読み込みやデータの加工がスムーズにいく。また、分析チーム内でデータ形式のイメージを共有しておけば、どのような分析手法を適用するかについて議論することもできる。
ここでは、マーケティング分野で頻繁に利用されるデータ形式について説明を行う。データ形式を理解する上で重要な概念が、「相(mode)」と「元(way)」である。

データの整理と「相と元」

データ収集の例として、アンケート調査を取り上げる。図1に示した4項目からなるアンケート調査に5人の回答者が答えた場合を想定する。回答者1は、項目1に「男性」、項目2に「やや満足」、項目3に「30分」、項目4に「まったく行かない」と回答した(注1)。5人の回答結果をまとめたデータを図2にまとめる。

150310_1

図2に示すように、得られたアンケート結果は、縦方向(行)に回答者を、横方向(列)に項目を配した表形式で表される。他の例として、N人の消費者がM個のブランドの好き嫌いを5段階で評定した場合を考えよう。その場合には、図3に示すような消費者とブランドの組合せに関するデータが得られる。データを構成する「回答者」や「項目」、「消費者」や「ブランド」のことを相と呼ぶ。データは相の組合せによって構成され、図2は「回答者×項目」のデータ、図3は「消費者×ブランド」のデータと表現される。なお、図3において第i行の第j列の値x_ijは、消費者iのブランドjへの評価を表す。

今度は、ある回答者に5つ飲食店の類似度を尋ねる調査を実施した場面を想定しよう。5つの飲食店から2つを取り出してペアを作り、そのペアが似ているかどうかを10段階で評定する。例えば、飲食店1と飲食店2が全く似てないと思ったら1と回答する(注2)。このようにして得られたデータを図4に示す。

150310_2

先ほどとは異なり、第j行の第k列の値x_jkは飲食店jと飲食店kの類似度を表す。このような形式のデータは、ブランドスイッチの分析を行う際にも得られ、図5にはブランドjからブランドkへのブランドスイッチの頻度x_jkをまとめたデータを示す。
図4と図5に示したデータは、「飲食店」または「ブランド」のように1つの相により構成される。また、これらのデータは「飲食店×飲食店」や「ブランド×ブランド」のように1つの相の組み合わせによって表される。この相の組合せ回数を元と呼ぶ。縦一列に並んでいるデータは1元データ、図4や図5のように「縦×横」の形式に並んでいるデータは2元データとなる。また、後述するように、「縦×横×高さ」という形式にデータが配置されている場合には、3元データと呼ばれる。

データ形式の分類

以上で説明したように、データの形式を把握するためには、相と元の理解が重要となる。ここでは、相と元によってデータ形式を分類する。
図4や図5のように、1つの相が2回組み合わさって構成されるデータは、単相2元データと呼ばれる。「ブランド×ブランド」や「対象×対象」などのデータであり、クラスター分析や多次元尺度構成法(MDS)などにおいて利用される。
図2や図3は、2つの相が組み合わされて「縦×横」のデータ形式となるため、2相2元データと呼ばれる。「回答者×項目」や「ブランド×特性」などのデータであり、統計解析ではこの形式のデータが多く利用されている。

図4では、一人の回答者が飲食店間の類似度を評定していたが、N人の回答者が5つの飲食店の類似度を評価した場合を考えてみる。N人の回答者から「飲食店×飲食店」のデータが得られるため、図6に示すように、「飲食店×飲食店」のデータをN人分の積み重ねることでデータがまとめられる。この形式のデータは、「回答者」と「飲食店」の2つの相で構成され、「縦×横×高さ」という3次元構造になっているため、2相3元データと呼ばれる。

150310_3

また、消費者が複数のブランドを複数の観点から評価した場合には、図7に示すようなデータが得られる。図7には、「消費者」と「ブランド」と「観点」という3つの相があり、「縦×横×高さ」というデータ構造となっているため、3相3元データと呼ばれる。

相と元を理解することで、必要なデータや分析での注意点が見えてくる。「ブランド×ブランド」のデータから消費者の特徴を把握することはできないし、「ブランド×観点」のデータからブランドスイッチの分析をすることもできない。データ解析場面では、以上で説明したデータ形式を的確に把握し、問題の解決に向けた適切な手法を選択することが重要となる。

(注1)各項目は、以下のようなコード化を行った。項目1は「男性(1)」「女性(0)」、項目2は「とても不満(1)」「やや不満(2)」「どちらともいえない(3)」「やや満足(4)」「とても満足(5)」、項目4は「まったく行かない(1)」「たまに行く(2)」「よく行く(3)」とした。

(注2)「非常に似ている(10)」から「非常に似ていない(1)」までの10段階で評定してもらい、同じ飲食店どうしの類似度には10を代入する。


ベンチマークと分析の考え方 全員無料プレゼント

このE-Bookは、製品のデータマーケティングにおける大局観と具体化(1)から(3)の各セクションについて、オリジナルの図解で解説したものです。自社の事業特性に合わせてご活用ください。
ダウンロードはこちら(無料)

このコラムバックナンバー ─コラム記事─

あわせて読みたい ―関連記事―