六一学者 - 吉澤 正氏
(第10回JUSEパッケージ活用事例シンポジウムにて)
この夏の旅行で,ノーベル文学賞も受けたアイルランドの詩人W. B. イェーツ(Yeats,1865-1939)のお墓をお参りした.
その地は,アイルランド西部のスライゴー郡ドラムクリフという村にある.そのお墓には,イェーツの最後の詩「Under Ben Bulben(ブルベン山の麓で)」の最後の節が刻まれている.その墓碑銘のことはあとにして,まずは,そのお墓でベン・ブルベンの姿を見て発想したことをお話したい.
その日は,アイルランドとしては悪くない天気であったが,薄い雲が広がり,遠くはやや霞んでいるような日であった.それでも,どうやら写真1のようなベン・ブルベンを写すことができた.
その山の全景は写真2の絵葉書の方がわかりやすいが,はっきりした台地(table-topped)をもつユニークが姿をしている.富士山のような形状とは対照的である.
六一学者は,富士山などの山の姿を確率分布の密度関数としてみなして,その平均や標準偏差などの特性値やモーメントを計算することに興味を持っていたので(その話は次回の42話でとりあげたい),一様分布から三角分布の間に台地の形状をした分布をもつ仲間を台地分布とよぶとよいというアイデアが浮かんだ.図1に,その分布族(family)を示そう.
台地分布族という名称は,数学的には台形分布族といったほうがよいかもしれないが,正規分布をガウス分布とか,似たような分布を釣鐘型(ベル型)分布というように,やや文学的に台地分布といいたい気がする.
そこで,この台地分布族について,平均,標準偏差,とがり,ひずみなどの特性値を計算してみよう.まず,変数をxとして,その密度関数をf(x)とし,台地分布を,図2のように,xがゼロからaの点まで直線的に上がり,その高さをhとし,xが1-aのところまでは一様で,そこからx=1まで下るように考える.
x=aのところで台地になり,台形の高さをhとすると,台形が確率密度関数であるには,その面積が1であることから,
ah / 2 + ( 1 - 2a ) h + ah / 2 = ( 1 - a ) h = 1
として,
(1) h = 1 / ( 1 - a )
となる.
したがって,台地分布族は,一つのパラメーターaで決まる分布と考えられる. また,台形の左の勾配をbとすると,
(2) b = h / a = 1 / ( a ( 1 - a ) )
とかける.
aが0から0.5の間で,勾配は,2より大きい.さらに,式を簡潔に表現するために,
(3) A = a ( 1 - a ) = 1 / b
としておく.
これより,台地分布の 確率密度関数f(x) は次のように表せる.これについて,∫f(x) dx = 1 となることを積分により確認することは容易である.
(4) | f ( x ) = | bx, | 0 ≦ x < a |
h, | a ≦ x < 1 - a | ||
b( 1 - x ), | 1 - a ≦ x ≦ 1 |
次に,台地分布について,原点周りのモーメント,すなわち,X,X2,X3,X4の期待値を求める.その結果は以下のとおり(表1).計算は,長く面倒だが,難しいものではない.数式処理ソフトを使うとよいだろうが,六一学者はボケ防止のために手で処理したので,丸一日かかってしまった.
平均µ = | E[ X ] | = 1/2 |
X2の期待値 | E[ X2 ] | = 1/3 - A/6 |
X3の期待値 | E[ X3 ] | = 1/4 - A/4 |
X4の期待値 | E[ X4 ] | = 1/5 - 3A/10 - A2/15 |
区間[0,1]での対称な分布であることから,平均は1/2であること,また,ひずみがゼロであることは明らかであり,上の公式からも確かめられる.次に,台地分布の分散ととがりを求めると,表2のようになる.ここのとがりの定義では,正規分布のときのとがりをゼロとするように,3を引いてある.数値的に計算したものを表3に示しておく.
平均 | = 1/2 |
分散V[X] | = 1/12 -A/6 (標準偏差は分散の平方根) |
ひずみ | = 0 |
とがり | = E[ (X - µ)4 ] / V[ X ] 2 - 3 = -1.2 + 0.6 ( 2A / ( 1 - 2A ) ) 2 |
a | h(高さ) | A=a(1-a) | 平均 | 分散 | 標準偏差 | とがり | シグマ幅 |
---|---|---|---|---|---|---|---|
0 | 1.000 | 0.000 | 0.5 | 1/12=0.0833 | 0.289 | -1.2 | 3.46 |
0.05 | 1.053 | 0.048 | 0.5 | 0.0754 | 0.275 | -1.193 | 3.64 |
0.1 | 1.111 | 0.090 | 0.5 | 0.0683 | 9.261 | -1.171 | 3.83 |
0.15 | 1.176 | 0.128 | 0.5 | 0.0621 | 0.249 | -1.130 | 4.01 |
0.2 | 1.250 | 0.160 | 0.5 | 0.0567 | 0.238 | -1.076 | 4.20 |
0.25 | 1.333 | 0.188 | 0.5 | 0.0521 | 0.228 | -0.984 | 4.38 |
0.3 | 1.429 | 0.210 | 0.5 | 0.0483 | 0.220 | -0.885 | 4.55 |
0.35 | 1.538 | 0.228 | 0.5 | 0.0454 | 0.213 | -0.782 | 4.69 |
0.4 | 1.667 | 0.240 | 0.5 | 0.0433 | 0.208 | -0.689 | 4.80 |
0.45 | 1.818 | 0.248 | 0.5 | 0.0421 | 0.205 | -0.624 | 4.87 |
0.5 | 2.000 | 0.250 | 0.5 | 0.0417 | 0.204 | -0.6 | 4.90 |
一様分布の分散が12分の1であるの対し,三角分布では24分の1と半分になる.また,一様分布(a=A=0)のとがりが,-1.2であることはよく知られているが,三角分布(a=0.5,A=1/4)のときのとがりが-0.6と負の値になって,三角分布は正規分布よりとがっていないというのがおもしろい.
これは,とがりが分布のすその形に強く依存するので,三角分布はとがっているといっても“すそ”が切れている形であることを反映している.正規分布を2シグマぐらいですそを切り取って(トリムして)比較するとよいであろう(このことは次回に説明するが,標準の正規分布を2シグマでトリムした図を図3に示しておこう).
英語で,とがりはkurtosisであるが,kurtosisの本来の意味は,曲がり具合ということで,とがりという訳は誤解を招きやすい.とがりは,標準正規分布と分散が同じで対称な分布の形状の分布を比較して,中心の密度が高く,中間で下がり,そのぶん“すそ”のところで密度が大きいときにとがりが大きくなる.
なお,表3では,最後の欄にシグマ幅として,分布の区間幅(台地分布では1)が標準偏差の何倍になっているかを計算しておいた.有限な区間で分布する変数について,その標準偏差の大きさを比較するときに役に立つ.品質管理では,規格幅の標準偏差(通常は6倍のシグマ)に対する大きさを工程能力(場合によって厳密な定義が必要であるが)といい,不良品(不適合品)の出にくさを示す指標として使われる.
ところで,イェーツの墓碑銘の話をしておこう.写真3に示すが,拡大するとよく読める.それは以下のようなものである.
Cast a cold Eye On Life, on Death.Horseman, pass by! W. B. Yeats June 13th 1865January 28th 1939
イェーツの最後の詩「ブルベン山の麓で(Under Ben Bulben)」の最後の部分で,旅行中で日本語訳が入手できなかったので,自己流に訳してみた.
「冷やかな視線を投げかけん 生に,死に. 馬の背に乗る者,過ぎゆかん!」
という訳でよいであろうか.筆者は,もちろん文学者でもないので,下手な講釈はできないが,イェーツの死生観が表現されているのかもしれない.
帰国してから,イェーツの詩を朗読したCDを知り,購入して聞いてみたが,詩の意味はよくはわからない.統計に関わる者として,次のように変えてみると,やや通じるところがあるかもしれないと思う.
「冷やかな視線を投げかけん 統計に,グラフに. 時の背に乗る者,過ぎゆかん!」
公的な統計の見方として,ひとときひとときの統計のわずかな変動に踊らされたり,時流にのって軽率に解釈したりするのでなく,時の流れをしっかりと見て,冷静な目をもって統計やグラフの背景を読みたいと思う.(なお,統計にはYatesの算法といわれるものが知られているが,詩人Yeatsと統計家Frank Yates(1902-1994)ではつづりが違うことがおもしろい.アイルランドでは,whiskeyであってwhiskyではなかった.)
イベント案内や製品などの最新情報をお届けします