1. ホーム
  2. 統計解析・品質管理
  3. 会員広場
  4. 六一学者の千字一話(連載)

第40話 グラフでみるジニ係数相関比(六一学者の千字一話)

吉澤正先生御逝去に寄せて

六一学者の千字一話  六一学者 (吉澤 正氏)
六一学者 - 吉澤 正氏
(第10回JUSEパッケージ活用事例シンポジウムにて)


このところ,ジニ係数にこだわっているようだが,ジニ係数ならぬジジ係数?が上がってきたせいと,もう一回だけご容赦いただきたい.

前回は,層(グループ)のあるデータについて,データの変動(平方和)を層間変動と層内変動にわけるように,ジニ係数についてその元となるデータ(分け前)をグループへの分け前(グループ平均)とグループ内の分け前にわけてそれぞれのジニ係数を計算できると述べ,わかりやすいデータ例を次回に説明すると約束した.

表1. 層別データの例
番号層番号分け前
111
212
313
414
515
623
724
825
926
1027
1128
1229
1336
1438
15310

そこで,筆者の著書で『統計処理』(岩波書店発行,品切れ中)の中から,表1のデータを取上げ,これより層間変動の大きいときと小さいときのデータを作って,層間ジニ係数と層内ジニ係数の変化の様子を調べた.

データは,3つの層に分かれ,それぞれのデータ数は5,7,3で,全体では15個のデータになっている.表1では,第1列にデータの一連番号,第2列に層の番号,第3列にデータを示し,これを分け前とする.

このデータをStatWorksの回帰分析で解析すると,表2の結果が得られる.偏回帰係数の欄をみると,横の見出しの定数項に対応する“3”は,第1の層の平均,その下の第2の層の偏回帰係数3に定数項の3を加えると第2の層の平均が6,同じように,その下の5に3を加えて第3の層の平均が8であることがわかる.総平均は,表2にはないが,回帰分析の最初の画面で5.4であることがわかる.

また,表2からは,目的変数「データ」に対する残差平方和46が層内変動であり,全体の変動は,説明変数の“層番号”を回帰モデルに入れないときの残差平方として97.6,層間変動は変数“層番号”を除くときの変化量51.6であることがわかる.この層間変動と層内変動を足すと全変動になる.重相関係数の0.727は,相関比ともいわれる量である.相関比は,あとで説明する表3での,データ(分け前)と層内平均を入れたデータの相関係数になっている.


表2. 層別データの回帰分析結果
目的変数名残差平方和重相関係数寄与率R^2R*^2
分け前460.7270.5290.45
R**^2残差自由度残差標準偏差
0.381121.958
vNo説明変数名残差平方和 変化量 分散比偏回帰係数
0定数項914511.73913
2層番号97.651.66.7304
c1 0
c2 3
c3 5

そこで,この分け前データを使って分け前の累積(第4列)を,層内平均(第5列)を並べてその累積(第6列)に求め,さらに分け前データを大きさの順に並べ替え(第9列),その累積(第10列)を求める.そこで,第3列の下のデータは,全体としては大きさの順になっていないが層の順番で層の中で大きさの順に並んでいること,第9列のデータは大きさに順になっているが,層の番号は入り組んでいることなどを見てほしい.

次に,それらの3種類の累積をローレンツ曲線として,ジニ係数を計算する.そのローレンツ曲線は図1のようになり,第5列が赤の線で,これが層内では平等に分けられていて,層間の不平等さを表す.そのジニ係数は,0.183である.

第4列は黄色の線に対応し,各層の赤の線(各層では直線)の下にぶら下がるように層ごとのローレンツ曲線を示している.各層のジニ係数は,0.267,0.190,0.111となり,これを層のデータ数で重みを付けて,平均すると0.200となる.これを層内ジニ係数とよぼう. 第10列の累積は,層を無視してデータを全体として扱ったもので,図1の青の線に対応している.このときのジニ係数は0.270となる.

表3. ローレンツ曲線のためのデータ処理
番号層番号分け前左の累積1層内平均左の累積2番号層番号並べ替えデータ左の累積3
000
1111331111
2123362123
3136393136
414103126239
5151531541413
6231862172417
7242262751522
8252763382527
9263363992633
102740645133639
112848651102746
122957657112854
133663865143862
143871873122971
15310818811531081


図1. 表3のデータのローレンツ曲線
(赤線が層間,黄線が層内,青線が全体に対応)

次に,分け前データを,データの集合としては変えずに(全体変動は一定にして),層への所属を入れ替えて,層間変動の大きくなる(層内変動は小さい)場合と層間変動が小さくなる場合とのデータを構成してみた.そのデータは,表4のようになる.

このデータの層間,層内,及び全体データのローレンツ曲線を,図1と同じように描いたのが図2と図3である.図2では,層間変動が全体変動に近いので,3種のローレンツ曲線が大変近寄っている.これに対して,図3では,層間変動が小さいので,層ごとのローレンツ曲線(黄)がはっきりとみえる.赤の折れ線の直線部分が一つの層に対応し,その下の黄色の線が層内のローレンツ曲線を示していることになる.


図2. 層間を大きく拡大表示


図3. 層間を小さく拡大表示

表4. 層間変動を大きくしたデータと小さくしたデータ
番号層番号もと
データ
層間
変動大
層間
変動小
11111
21223
31335
41437
51549
62342
72453
82554
92665
102766
112878
122988
133684
143896
153101010

以上の場合のジニ係数などをまとめて,表5に示す.また,表4のデータに対する箱ひげ図を図4に示しておく.

表5では,まず,総ジニ係数,層間ジニ係数,層内ジニ係数をまとめたが,層内ジニ係数は,3つの層についてのそれぞれのローレンツ曲線にたいするジニ係数を重みつき(データ数による)平均である.データの箱ひげ図は図4にあるが,総変動,層間変動,層内変動,重相関係数(相関比)をまとめ,最後にジニ係数として層間ジニ係数を総ジニ係数で割ったものをジニ係数比として計算した.ジニ係数比は相関比と近いことがわかる.

表5. 3とおりの分け方に対するジニ係数の違い
データ総ジニ係数層間ジニ係数層内ジニ係数ローレンツ曲線箱ひげ図総変動(総平方和)層間変動総内変動重相関係数(相間比)ジニ係数比
岩波統計処理から0.2700.1830.200図1図4上段97.651.646.00.730.677
層間を大きく0.2700.2270.137図2図4中段97.679.518.10.900.841
層間を小さく0.2700.0510.258図3図4下段97.66.191.50.250.189


図4. 表4のデータに対する箱ひげ図 拡大表示

ジニ係数は,総平方和の分解のように,層間変動と層内変動の和とのようには,分解できないが,ジニ係数比などは同じように利用できる.

図3を見てわかるように,全体のジニ係数に対応する領域(B, ローレンツ曲線の下の三角領域をA,ジニ係数はB/A)は,層間と層内の変動に対応する領域以外に,並べ替えによる効果による領域拡大の部分を含んでいる.そこで,Bを層間による部分領域Bbetween,層内による部分領域,そして残りの領域Br( = B - Bbetween - Bwithin)に分けて考えることもできる.

しかし,層内ジニ係数は,Bwithin /Aで計算するのでなく,この稿で計算したようにそれぞれの層の中でのジニ係数を計算して,重みつき平均をしたほうがよいであろう.ジニ係数比は,Bbetween/Bに等しく,相関比のように利用することができる.


イベント案内や製品などの最新情報をお届けします

メールマガジン
最新の製品アップデート情報やセミナー・イベントなどのお知らせを,eメールでお送りします