六一学者 - 吉澤 正氏
(第10回JUSEパッケージ活用事例シンポジウムにて)
このところ,ジニ係数にこだわっているようだが,ジニ係数ならぬジジ係数?が上がってきたせいと,もう一回だけご容赦いただきたい.
前回は,層(グループ)のあるデータについて,データの変動(平方和)を層間変動と層内変動にわけるように,ジニ係数についてその元となるデータ(分け前)をグループへの分け前(グループ平均)とグループ内の分け前にわけてそれぞれのジニ係数を計算できると述べ,わかりやすいデータ例を次回に説明すると約束した.
番号 | 層番号 | 分け前 |
---|---|---|
1 | 1 | 1 |
2 | 1 | 2 |
3 | 1 | 3 |
4 | 1 | 4 |
5 | 1 | 5 |
6 | 2 | 3 |
7 | 2 | 4 |
8 | 2 | 5 |
9 | 2 | 6 |
10 | 2 | 7 |
11 | 2 | 8 |
12 | 2 | 9 |
13 | 3 | 6 |
14 | 3 | 8 |
15 | 3 | 10 |
そこで,筆者の著書で『統計処理』(岩波書店発行,品切れ中)の中から,表1のデータを取上げ,これより層間変動の大きいときと小さいときのデータを作って,層間ジニ係数と層内ジニ係数の変化の様子を調べた.
データは,3つの層に分かれ,それぞれのデータ数は5,7,3で,全体では15個のデータになっている.表1では,第1列にデータの一連番号,第2列に層の番号,第3列にデータを示し,これを分け前とする.
このデータをStatWorksの回帰分析で解析すると,表2の結果が得られる.偏回帰係数の欄をみると,横の見出しの定数項に対応する“3”は,第1の層の平均,その下の第2の層の偏回帰係数3に定数項の3を加えると第2の層の平均が6,同じように,その下の5に3を加えて第3の層の平均が8であることがわかる.総平均は,表2にはないが,回帰分析の最初の画面で5.4であることがわかる.
また,表2からは,目的変数「データ」に対する残差平方和46が層内変動であり,全体の変動は,説明変数の“層番号”を回帰モデルに入れないときの残差平方として97.6,層間変動は変数“層番号”を除くときの変化量51.6であることがわかる.この層間変動と層内変動を足すと全変動になる.重相関係数の0.727は,相関比ともいわれる量である.相関比は,あとで説明する表3での,データ(分け前)と層内平均を入れたデータの相関係数になっている.
目的変数名 | 残差平方和 | 重相関係数 | 寄与率R^2 | R*^2 | |
---|---|---|---|---|---|
分け前 | 46 | 0.727 | 0.529 | 0.45 | |
R**^2 | 残差自由度 | 残差標準偏差 | |||
0.381 | 12 | 1.958 | |||
vNo | 説明変数名 | 残差平方和 | 変化量 | 分散比 | 偏回帰係数 |
0 | 定数項 | 91 | 45 | 11.7391 | 3 |
2 | 層番号 | 97.6 | 51.6 | 6.7304 | |
c1 | 0 | ||||
c2 | 3 | ||||
c3 | 5 |
そこで,この分け前データを使って分け前の累積(第4列)を,層内平均(第5列)を並べてその累積(第6列)に求め,さらに分け前データを大きさの順に並べ替え(第9列),その累積(第10列)を求める.そこで,第3列の下のデータは,全体としては大きさの順になっていないが層の順番で層の中で大きさの順に並んでいること,第9列のデータは大きさに順になっているが,層の番号は入り組んでいることなどを見てほしい.
次に,それらの3種類の累積をローレンツ曲線として,ジニ係数を計算する.そのローレンツ曲線は図1のようになり,第5列が赤の線で,これが層内では平等に分けられていて,層間の不平等さを表す.そのジニ係数は,0.183である.
第4列は黄色の線に対応し,各層の赤の線(各層では直線)の下にぶら下がるように層ごとのローレンツ曲線を示している.各層のジニ係数は,0.267,0.190,0.111となり,これを層のデータ数で重みを付けて,平均すると0.200となる.これを層内ジニ係数とよぼう. 第10列の累積は,層を無視してデータを全体として扱ったもので,図1の青の線に対応している.このときのジニ係数は0.270となる.
番号 | 層番号 | 分け前 | 左の累積1 | 層内平均 | 左の累積2 | 番号 | 層番号 | 並べ替えデータ | 左の累積3 |
---|---|---|---|---|---|---|---|---|---|
0 | 0 | 0 | |||||||
1 | 1 | 1 | 1 | 3 | 3 | 1 | 1 | 1 | 1 |
2 | 1 | 2 | 3 | 3 | 6 | 2 | 1 | 2 | 3 |
3 | 1 | 3 | 6 | 3 | 9 | 3 | 1 | 3 | 6 |
4 | 1 | 4 | 10 | 3 | 12 | 6 | 2 | 3 | 9 |
5 | 1 | 5 | 15 | 3 | 15 | 4 | 1 | 4 | 13 |
6 | 2 | 3 | 18 | 6 | 21 | 7 | 2 | 4 | 17 |
7 | 2 | 4 | 22 | 6 | 27 | 5 | 1 | 5 | 22 |
8 | 2 | 5 | 27 | 6 | 33 | 8 | 2 | 5 | 27 |
9 | 2 | 6 | 33 | 6 | 39 | 9 | 2 | 6 | 33 |
10 | 2 | 7 | 40 | 6 | 45 | 13 | 3 | 6 | 39 |
11 | 2 | 8 | 48 | 6 | 51 | 10 | 2 | 7 | 46 |
12 | 2 | 9 | 57 | 6 | 57 | 11 | 2 | 8 | 54 |
13 | 3 | 6 | 63 | 8 | 65 | 14 | 3 | 8 | 62 |
14 | 3 | 8 | 71 | 8 | 73 | 12 | 2 | 9 | 71 |
15 | 3 | 10 | 81 | 8 | 81 | 15 | 3 | 10 | 81 |
次に,分け前データを,データの集合としては変えずに(全体変動は一定にして),層への所属を入れ替えて,層間変動の大きくなる(層内変動は小さい)場合と層間変動が小さくなる場合とのデータを構成してみた.そのデータは,表4のようになる.
このデータの層間,層内,及び全体データのローレンツ曲線を,図1と同じように描いたのが図2と図3である.図2では,層間変動が全体変動に近いので,3種のローレンツ曲線が大変近寄っている.これに対して,図3では,層間変動が小さいので,層ごとのローレンツ曲線(黄)がはっきりとみえる.赤の折れ線の直線部分が一つの層に対応し,その下の黄色の線が層内のローレンツ曲線を示していることになる.
番号 | 層番号 | もと データ | 層間 変動大 | 層間 変動小 |
---|---|---|---|---|
1 | 1 | 1 | 1 | 1 |
2 | 1 | 2 | 2 | 3 |
3 | 1 | 3 | 3 | 5 |
4 | 1 | 4 | 3 | 7 |
5 | 1 | 5 | 4 | 9 |
6 | 2 | 3 | 4 | 2 |
7 | 2 | 4 | 5 | 3 |
8 | 2 | 5 | 5 | 4 |
9 | 2 | 6 | 6 | 5 |
10 | 2 | 7 | 6 | 6 |
11 | 2 | 8 | 7 | 8 |
12 | 2 | 9 | 8 | 8 |
13 | 3 | 6 | 8 | 4 |
14 | 3 | 8 | 9 | 6 |
15 | 3 | 10 | 10 | 10 |
以上の場合のジニ係数などをまとめて,表5に示す.また,表4のデータに対する箱ひげ図を図4に示しておく.
表5では,まず,総ジニ係数,層間ジニ係数,層内ジニ係数をまとめたが,層内ジニ係数は,3つの層についてのそれぞれのローレンツ曲線にたいするジニ係数を重みつき(データ数による)平均である.データの箱ひげ図は図4にあるが,総変動,層間変動,層内変動,重相関係数(相関比)をまとめ,最後にジニ係数として層間ジニ係数を総ジニ係数で割ったものをジニ係数比として計算した.ジニ係数比は相関比と近いことがわかる.
データ | 総ジニ係数 | 層間ジニ係数 | 層内ジニ係数 | ローレンツ曲線 | 箱ひげ図 | 総変動(総平方和) | 層間変動 | 総内変動 | 重相関係数(相間比) | ジニ係数比 |
---|---|---|---|---|---|---|---|---|---|---|
岩波統計処理から | 0.270 | 0.183 | 0.200 | 図1 | 図4上段 | 97.6 | 51.6 | 46.0 | 0.73 | 0.677 |
層間を大きく | 0.270 | 0.227 | 0.137 | 図2 | 図4中段 | 97.6 | 79.5 | 18.1 | 0.90 | 0.841 |
層間を小さく | 0.270 | 0.051 | 0.258 | 図3 | 図4下段 | 97.6 | 6.1 | 91.5 | 0.25 | 0.189 |
ジニ係数は,総平方和の分解のように,層間変動と層内変動の和とのようには,分解できないが,ジニ係数比などは同じように利用できる.
図3を見てわかるように,全体のジニ係数に対応する領域(B, ローレンツ曲線の下の三角領域をA,ジニ係数はB/A)は,層間と層内の変動に対応する領域以外に,並べ替えによる効果による領域拡大の部分を含んでいる.そこで,Bを層間による部分領域Bbetween,層内による部分領域,そして残りの領域Br( = B - Bbetween - Bwithin)に分けて考えることもできる.
しかし,層内ジニ係数は,Bwithin /Aで計算するのでなく,この稿で計算したようにそれぞれの層の中でのジニ係数を計算して,重みつき平均をしたほうがよいであろう.ジニ係数比は,Bbetween/Bに等しく,相関比のように利用することができる.
イベント案内や製品などの最新情報をお届けします