• データマーケティング
  • 2015-04-27

Monthly pageview: 209


クロス集計表の残差分析

クロス集計表や連関係数を利用することで,性別と購買行動の関係や居住地域とアクセス回数の関係のように,2つの変数間の関係性を把握することができる。関連性の強い変数の組み合わせが明らかになったら,続いて,どのカテゴリの組み合わせに連関があるかを調べることで,有益な知見が得られるだろう。そこで,本記事では,クロス集計表のどのセルが変数間の関係性に大きな影響を与えているかを調べる方法である残差分析について解説する。

観測度数と期待度数

変数Aと変数Bがそれぞれ3つのカテゴリをもち,2変数に関するクロス集計表が表1のようにまとめられているとする。変数Aのカテゴリiと変数Bのカテゴリjの組合せに関する度数はn_ij,変数Aの周辺度数はn_(i∙),変数Bの周辺度数はn_(∙j),総度数はnで表される。実際に観測される度数n_ijは観測度数と呼ばれる。具体例として,年代(20代,30代,40代)と商品Aへの購買意思(買いたい,どちらともいえない,買いたくない)に関する3×3のクロス集計表を表2に示す。

 

150427_1

まず,2変数間のクラメールの連関係数を求めると,V=0.259であり,年代と購買意思には連関があると考えられる。ここで,2つの変数間に連関がない場合に,各セル(i,j)において期待される度数e_ijを考える。このような度数を期待度数と言い,周辺度数と総度数を利用して,次式で計算される。

150427_2

表2に関して,「20代で買いたい」というセルの期待度数を求めると,
e_11=(n_(1∙)×n_(∙1))/n=(250×245)/740=82.77
となる。連関がなければ,「20代で買いたい」というセルの度数は82.77であることが予想されるが,実際に観測された度数は130であり,この差をみることで,変数間の関係性に大きな影響を与えているセルであるかどうかを検討することができる。

残差と調整済み標準化残差

観測度数と期待度数の差のことを残差と言い,この値を検討する手法が残差分析である。ただし,残差は複数のセル間で比較することができないため,基準化を行う必要がある。相互に比較ができるように変換を行った残差を調整済み標準化残差と言い,この値の絶対値が1.96以上であれば,カテゴリの組合せには連関があると解釈する(注1)。表2に関して,調整済み標準化残差を計算した結果を表3にまとめる。

150427_3

表3より,1行1列の調整済み標準化残差の値は8.449であり,絶対値が1.96以上であることが分かる。これにより,20代の人は商品Aを買いたいと回答する傾向にあることが分かる。一方,3行1列の調整済み標準化残差の値は-4.907であり,こちらも絶対値は1.96を上回っている。値がマイナスであることから,40代の人は商品Aを買いたいと回答しない傾向にあることが示唆される。以上のように,残差分析を行うことで,変数間の関係性の強さだけでなく,どのカテゴリの組合せが連関に影響を与えているかを検討することが可能となる(注2)。

(注1)調整済み残差の計算方法については,鄭・金(2011)などが詳しい。
(注2)残差分析は,χ^2検定と組み合わせて利用されることが多い。χ^2検定や残差分析に関する検定については,鄭・金(2011)や渡部(1996)が詳しい。

鄭 躍軍・金 明哲 (2011) 社会調査データ解析 共立出版
渡部 洋 (1996) 心理・教育のための統計学入門 金子書房


BIツールの導入から運用の考え方 全員無料プレゼント

このE-Bookは、攻めのマーケティングでのBIツールの使い方、BIツールの可視化仕様の一提案の記事について、オリジナルの図解で解説したものです。自社の事業特性に合わせてご活用ください。
ダウンロードはこちら(無料)

このコラムバックナンバー ─コラム記事─

あわせて読みたい ―関連記事―