• データマーケティング
  • 2015-04-07

Monthly pageview: 209


クロス集計表と連関係数

クロス集計表は,2つの変数間の関係性を調べる分析手法であり,ビジネス場面において頻繁に利用されている。表形式にまとめられるため,統計にそれほど詳しくない人にでも結果を分かりやすく伝えられるという利点がある。基本的には質的変数間の関係性を把握する際に用いられるが,量的変数に関しても,データを区間(階級)によりカテゴライズすることでクロス集計表を作成することができる。表形式にまとめるだけでなく,2つの質的な変数間の関連の強さの程度を表す指標も提案されている。本記事では,クロス集計表と関連の度合いを表す連関係数について解説する。

クロス集計表

例として,男女500人にある商品Aを購入したかどうかについて尋ねたとする。ここでは,性別(男性・女性)と購買行動(購入する・購入しない)の2つの質的な変数に注目し,変数のカテゴリの組合せに関して,人数が何人いるかを集計して表1にまとめる。表1より,男性で商品Aを購入した人数は200人いることが分かる。

表1では,カテゴリの組合せに関する人数(度数)だけでなく,表の右端および最下段の「計」において,表の横方向の合計と縦方向の合計がまとめられている。これらは周辺度数と呼ばれ,周辺度数を見ることで,各変数におけるカテゴリごとの人数を把握することができる。例えば,性別に注目すると,男性は260人,女性は240人いることが分かる。また,全回答者数のことを総度数と呼び,表1における総度数は500人である。このように集計結果を表形式にまとめたものがクロス集計表と呼ばれる。特に,性別は2つのカテゴリに,購買行動も2つのカテゴリに分かれるため,表1は2×2のクロス集計表と呼ばれる。

表1より,男性は260人中200人(約77%)が商品Aを購入しているのに対し,女性は240人中90人(約38%)しか購入していない。つまり,男性の方が購入率が高くなる傾向にあり,性別と商品Aの購買行動には関連があると考えられる。

Cross1

別の例として,年代とある商品Bの購入回数に関するクロス集計表を表2に示す。年代は20代,30代,40代の3カテゴリに,購入回数は5カテゴリ(0~5,6~10,11~15,16~20,21~)に分類されるため,表2は3×5のクロス集計表と呼ばれる。20代の購入回数は0~5回が多いのに対し,30代では6~10回,40代では16~20回が最も多いことが分かる。よって,商品Bは年齢が高いほど購入回数が多くなる傾向にあり,年齢と購入回数の関係性が示唆される。このように,量的変数に関してもカテゴリ分けすることでクロス集計表を作成することができる。

Cross2

連関係数

クロス集計表における2つの変数間の関連性の程度を表す指標として,連関係数が提案されている。ここでは,2×2のクロス集計表において計算されるファイ係数と,m×nのクロス集計表において算出されるクラメールの連関係数を紹介する。
先ほどの性別と購買行動に関する2×2のクロス集計表を例に,ファイ係数を計算する。ファイ係数(ϕ係数)は,2×2のクロス集計表のカテゴリの組合せに関する度数と周辺度数を利用して次式で計算される。

ϕ係数=(a×d-b×c)÷√(w×x×y×z)

上式の8つのアルファベットは,表3の各セルに割り当てたアルファベットと対応している。表1に関してファイ係数を計算すると,以下のように求められる。
ϕ係数=(200×150-60×90)÷√(260×240×290×210)=0.399
ファイ係数は―1から1までの値をとり,絶対値が大きいほど連関が強いと解釈する。

Cross3

クラメールの連関係数Vは,クロス集計表から計算されるχ^2値を利用して,

Cross4

によって算出される(注1)。表2に関してχ^2値を計算すると,χ^2値=188.73であり,クラメールの連関係数は以下のように計算される。

Cross5

クラメールの連関係数Vは,0から1までの値をとり,1に近いほど関連性が強いと解釈する。
クラメールの連関係数Vの値の解釈は適用場面によって異なるため,いくつ以上であれば関連が強いというような明確な基準はない(注2)。しかし,値が大きいほど2つの変数間の関連性は強いため,異なるクロス集計表の間で変数間の関連性の強さを比較する際には便利である(鄭・金,2011)。クロス集計表や連関係数は比較的簡単な分析手法ではあるが,具体的な課題を見つけたり,現状を把握したりする際に,非常に有用な方法である。

(注1) χ^2値の計算方法については,南風原(2002)などが詳しい。
(注2)高橋(2005)では,クラメールの連関係数の値の目安として,0.25未満は「非常に弱く関連している」,0.25~0.5は「やや弱く関連している」,0.5~0.8は「やや強く関連している」,0.8~1.0は「非常に強く関連している」を挙げている。

参考文献
高橋 信 (2005) Excelで学ぶコレスポンデンス分析 オーム社
鄭 躍軍・金 明哲 (2011) 社会調査データ解析 共立出版
南風原朝和 (2002) 心理統計学の基礎―総合的理解のために― 有斐閣アルマ


BIツールの導入から運用の考え方 全員無料プレゼント

このE-Bookは、攻めのマーケティングでのBIツールの使い方、BIツールの可視化仕様の一提案の記事について、オリジナルの図解で解説したものです。自社の事業特性に合わせてご活用ください。
ダウンロードはこちら(無料)

このコラムバックナンバー ─コラム記事─

あわせて読みたい ―関連記事―