六一学者 - 吉澤 正氏
(第10回JUSEパッケージ活用事例シンポジウムにて)
前回は,都道府県別の人口,公民館数,及び図書館数をとりあげて,ローレンツ曲線とジニ係数について説明した.
ローレンツ曲線は,分け前の不平等さを見るものなので,東京のように極端に人口の大きいものがあってもよいが,公民館数のようなデータは,その分布状況をもう少しよく見ないと危ない.
そこで,人口と公民館数の散布図を見てみた(図1).普通の県が高々500とか600の公民館を持っているのに対し,長野県が約2000館と異常に多数の公民館を持っている.一方で東京都100足らずと異常に少ない.
そもそも公民館とは何かも問題であるが,ちょっと調べてみると,公民館には本館と支館があって,長野県は支館がものすごく多い.東京がなぜ公民館を作らないかはよくわからないが,区や市が地区会館などをたくさん作っている. 図書館についても散布図を見てみたが(図2),これは,東京が多いが人口に大体比例していることがわかる.
上の図のような外れ値のある場合や裾の重い分布になっている場合は,データを順位(ランク)に変換して,順位データの対を散布図にしてみるとよい.その結果が図3と図4であるが,公民館数についてはまったく人口との相関はなく,図書館の方は,相関が高いことがわかる.
ちなみに,順位相関係数は,図3の人口と公民館数では約0.2,図4の人口と図書館数では約0.8である.
なお,前々回は経験表現関数あるいは経験分位関数に触れたが,そこで,分位関数をQ関数とよぶのもよいのではないかと書いた.その理由の一つは,データ解析のツールにQ-Qプロットといわれるものがあることを思い出したからである.
Q-Qプロットとは,同一の母集団から異なる二つの標本があるとき,あるいは一方が理論分布であってもよいが,両者のデータについて,Q(クォンタイル)を対応するデータとして,散布図のようにプロットしたものである.
図5と図6に,例を示すが,Q-Qプロットは,打点された点が直線上に乗っていれば,両者は同一の母集団からの標本とみなし,そうでなければ,分布が違うであろうと見る.図6の方は,外れているデータはあっても直線性が高いが,図5の方は,直線的とはいいがたい.
もっとも,この例は,都道府県別のデータであるから,都道府県という母集団からの標本とはみなせないので,Q-Qプロットの例としてはまずいが,第31話から取り上げてきたデータなので,形式的にQ-Qプロットとして書いてみた.
なお,一方を理論分布としてQ-Qプロットを書くには,理論分布でデータ数と同じサイズの乱数を発生させ,並べ替えてからクォータイルをとり,そのことを数回繰り返してクォータイルごとの平均を理論分布のクォータイルの期待値とし,それとデータのクォータイルを対応させてプロットするとよいであろう.
イベント案内や製品などの最新情報をお届けします