1. ホーム
  2. 統計解析・品質管理
  3. 会員広場
  4. 六一学者の千字一話(連載)

第15話  相関係数の抵抗力(六一学者の千字一話)

吉澤正先生御逝去に寄せて

六一学者の千字一話  六一学者 (吉澤 正氏)
六一学者 - 吉澤 正氏
(第10回JUSEパッケージ活用事例シンポジウムにて)


前回は,政治的抵抗性と統計的抵抗性を考えたが,政界では,外れ値の真紀子さんが外されたら,新たにムネオさんという外れ値が検出され,しばらく離島ならぬ離党で避難するらしい.統計データの解析でも,一つの外れ値を外すと別のデータが外れ値として検出されることがあり,どこまで外れ値探しを続けるかが問題になる.外れ値には,それはそれなりの存在意義もあるので,なんでもかんでも切り捨てていては面白くなくなるだろう.

さて,今回は,相関係数の抵抗性を検討しよう.今年は桜の開花が早く,これも例年に比べて外れ値なのかという感じがするが,例年のようにプロ野球の開幕が近づき,朝日新聞3月22日号に各球団の登録選手の身長や体重のデータが出ていた.たまたま目に付いた横浜の投手34人について,図1のように,身長と体重の散布図を書いてみた.

相関係数は0.724.一般の成人男性の場合は,0.5から0.6程度の相関であることに比べるとプロの場合の相関が高い.平均身長が184.7cm,平均体重が82.5kgと大きいのもさすがである.投手と捕手や野手とでは体型に違いがあるか調べてみると面白そう.計算してみてください.

チーム位置選手名年齢身長体重
横浜投手斎藤3218887
横浜投手131817871
横浜投手142717580
横浜投手153017980
横浜投手162918280
横浜投手172517882
横浜投手182818384
横浜投手192818687
横浜投手202418285
横浜投手21

32

18183
横浜投手222318886
横浜投手242818385
横浜投手281818373
横浜投手302718581
横浜投手パワーズ30196100
横浜投手342818785
横浜投手362017974
横浜投手372518276
横浜投手382317768
横浜投手402918690
横浜投手412618283
横浜投手ターマン2620895
横浜投手432419097
横浜投手462218374
横浜投手472318687
横浜投手481918172
横浜投手グスマン2618782
横浜投手522519292
横浜投手543018678
横浜投手582218573
横浜投手621918273
横浜投手631819290
横浜投手671918480
横浜投手682018378
横浜投手外れ126208110
横浜投手外れ22620870

ところで,散布図を見ると,右上に一つの外れ値がある.ターマンという外国人の選手で,身長が206cm,体重が95kgである.

この選手を除くと相関係数は0.753になり,もとの0.724より少し大きくなる.この選手の体重は身長の割には少ないが,その体重が全体の傾向線(回帰線)上に近い110kgに太った場合と,70kgにやせた場合について,相関係数の変化を調べてみよう.第1のケース(図2)では0.831,第2のケース(図3)では0.358となる.

このように,データ数が30くらいとすくないときは,相関係数は一つの外れ値の影響を強く受ける.

実際のデータ解析でも,散布図をよく観察して,外れ値の影響を調べておく必要がある.多変量解析では,2変数の間の相関係数が分析の基本となるので,外れ値の検出とその影響を調べておくことが大切である.外れ値の影響を緩和する方法としては,データを変数ごとに順位(ランク)に変換し,順位相関係数(順位をデータとして通常の相関係数の計算式で計算したもの)を使うこともある.

参考までに,この分析に使ったデータを記載しておく.


2002年3月22日掲載

イベント案内や製品などの最新情報をお届けします

メールマガジン
最新の製品アップデート情報やセミナー・イベントなどのお知らせを,eメールでお送りします