1. ホーム
  2. 統計解析・品質管理
  3. 会員広場
  4. 六一学者の千字一話(連載)

第14話  統計的抵抗と抵抗勢力—小泉・真紀子は外れ値?−(六一学者の千字一話)

吉澤正先生御逝去に寄せて

六一学者の千字一話  六一学者 (吉澤 正氏)
六一学者 - 吉澤 正氏
(第10回JUSEパッケージ活用事例シンポジウムにて)


小泉内閣の構造改革が抵抗勢力の抵抗にてこずっている.統計的データ解析の世界にも“抵抗”という概念がある.この“抵抗”は,外れ値に対して中央値は平均値より抵抗力があるとか,偏差平方和から計算される標本分散は外れ値に対して抵抗力がないなどと使われる.人間の体についても外敵である細菌やウイルスに対して抵抗力がある,あるいは抵抗力がないとか弱いという.フランスなどがナチスに対して抵抗したレジスタンス運動も,外敵に対する抵抗である.

本来,小泉首相や田中真紀子さんは,自民党の中では外れ値であって,自民党本体を構成する勢力が抵抗力を持っているようにも見える.統計的抵抗の見地では,自民党本体が抵抗勢力であるという表現には違和感を覚えるのであるが,今のところは小泉さんが正義派らしい.皆さんはいかがですか.それにしても,日本の再生に役立つ構造改革とは何であろうか.

ところで,中央値は,与えられたデータを大きさの順に並べたとき,その中央の値として定義される(脚注).例えば,
 データが1,2,3,4,5のとき,その中央値は3,
 データが1,2,3,4,5,6のとき,その中央値は3.5
である.そのように,データ数が奇数なら真中の値は1個であるが,偶数なら真中に2つの値がありその平均をとる.

データの一つが飛びはなれて大きくなっても,中央値は変わらないが,平均値は大きく変化してしまう.例えば,データが1,2,3,4,5について,最大のデータが変化して50になると,
 1,2,3,4,50 の中央値は3で変わらないが,
平均値は12になってしまう.

このように,データの一部が大多数のデータから大きく外れたときに,そのデータから計算される量が大きく変化してしまうときは抵抗力がないという.このようなことは,相関係数についてもおこる.探索的データ解析では,単回帰分析で直線を当てはめるときの“抵抗直線”という方法や2元データの列効果や行効果を推定するときのメディアンポリッシュ法なども外れ値に対して抵抗力を持つように考えられている.次回は相関係数の抵抗性を検討しよう.

注 データ数をnとすると,中央値は(n+1)/2番目の値とも定義される.nが奇数なら(n+1)/2は整数であるが,nが偶数のとき,例えば,nが6だと(n+1)/2は3.5のように0.5の端数がつくので,そのときは3番目と4番目の平均をとるというように考える.一般に,(n+1)/2が整数でないなら,その整数部をkとすると,k番目とk+1番目のデータの平均をとる.


2002年2月15日掲載

イベント案内や製品などの最新情報をお届けします

メールマガジン
最新の製品アップデート情報やセミナー・イベントなどのお知らせを,eメールでお送りします