Syleir’s note

2020.4.1より統計検定やE資格の勉強の進捗を報告しています。統計検定準1級、E資格、G検定取得しました!当ブログへのリンクはご自由にどうぞ。

MENU

スピアマンの順位相関係数の導出

 

統計学入門 (基礎統計学Ⅰ) を勉強していてスピアマンの順位相関係数というものに出会った。どうやら順位を相関係数で表したもののようだが行間が読めない。統計検定準1級出題範囲表の中の、「ノンパラメトリック法」のうち、「順位相関係数」に含まれるようだが、軽くブログやサイトを調べるも導出と証明がない。困った。ということで証明してみたらできたのが以下です。

運良く(?)LaTeXを勉強する機会があったのと、はてなブログLaTeXが書けるということを知ったので練習がてら書いていこうと思います。

 

スピアマンの順位相関係数(Spearman's rank correlation coefficient)を導出する。

 \displaystyle x_{1},...,x_{n}, \displaystyle y_{1},...,y_{n}はそれぞれ順位 1,...,n の並べ替えとする。この時、スピアマンの順位相関係数: r_{s}

  \displaystyle r_{s}= \frac {\frac{1}{n} \sum ^{n}_{i=1}\left( x _ {i}-\overline {x}\right) \left( y _ {i}-\overline {y}\right)}{\sqrt{ \frac{1}{n}\sum ^{n}_{i=1} \left(x _ {i} - \overline {x} \right)^{2}} \sqrt{\frac{1}{n}\sum ^{n}_{i=1} \left(y _ {i} - \overline {y} \right)^{2}}}

 = \frac { \sum ^{n}_{i=1}\left( x _ {i}-\overline {x}\right) \left( y _ {i}-\overline {y}\right)}{\sqrt{ \sum ^{n}_{i=1} \left(x _ {i} - \overline {x} \right)^{2}} \sqrt{\sum ^{n}_{i=1} \left(y _ {i} - \overline {y} \right)^{2}}}

 

で定義すると、この時に \displaystyle r_{s} = 1-\frac{6}{n^{3}-n} \sum ^{n}_{i=1}\left(x_{i}-y_{i}\right) ^{2} が成り立つというもので、これにより、質的基準による順位に対して相関を議論することが可能になる。

 

この導出に利用する前提知識は以下。

1.離散一様分布の期待値は \displaystyle E(X)= \overline {X} =\frac{n+1}{2}

2.離散一様分布の分散は \displaystyle V(X)= \sigma ^{2}_{X} = \frac{n^{2}-1}{12}

3. \displaystyle\sum ^{n}_{i=1} x _ {i}= \sum ^{n}_{i=1} y _ {i}=\frac{n \left( n+1 \right)}{2}

4.前提知識1から \displaystyle \overline {x} = \overline {y}= \frac{n+1}{2}

5.前提知識2から \displaystyle \sigma ^{2} _ {x} = \sigma ^{2} _ {y} = \frac{1}{n}\sum ^{n} _ {i=1} \left(x _ {i} - \overline {x} \right)^{2}= \frac{1}{n}\sum ^{n} _ {i=1} \left(y _ {i} - \overline {y} \right)^{2} =\frac{n^{2}-1}{12}

 

1,2についてわからない方は全人類がわかる統計学

https://to-kei.net/distribution/discrete-uniform-distribution/d-parameter-derivation/

を参考に計算されるとよいと思います。 

 


方針: \displaystyle \sum ^{n} _ {i=1}\left( x _ {i}-\overline {x}\right) \left( y _ {i}-\overline {y}\right) \displaystyle \sum ^{n} _ {i=1}\left(x _ {i}-y _ {i}\right) ^{2}で表す。 

 \displaystyle \sum ^{n} _ {i=1}\left(x _ {i}-y _ {i}\right) ^{2}

 \displaystyle =\sum ^{n} _ {i=1}\bigl\{(x _ {i}-y _ {i})-(\overline {x} - \overline {y}) \bigr\} ^{2}

 \displaystyle =\sum ^{n} _ {i=1}\bigl\{(x _ {i}-\overline {x})-(y _ {i} - \overline {y}) \bigr\} ^{2}

 \displaystyle =\sum ^{n} _ {i=1}(x _ {i}-\overline {x})^{2} + \sum ^{n} _ {i=1}(x _ {i}-\overline {x})(y _ {i} - \overline {y}) + \sum ^{n} _ {i=1}(y _ {i} - \overline {y}) ^{2}

 \displaystyle = n \sigma ^{2} _ {x} -2 \sum ^{n} _ {i=1}(x _ {i}-\overline {x})(y _ {i} - \overline {y}) + n \sigma ^{2} _ {y}

 \displaystyle = \frac{n(n^{2}-1)}{12} -2 \sum ^{n}_{i=1}(x _ {i}-\overline {x})(y _ {i} - \overline {y}) + \frac{n(n^{2}-1)}{12}

 \displaystyle = \frac{n^{3}-n}{6} -2 \sum ^{n}_{i=1}(x _ {i}-\overline {x})(y _ {i} - \overline {y}) より、

 

 \displaystyle r _ {s}  = \frac { \sum ^{n} _ {i=1}\left( x _ {i}-\overline {x}\right) \left( y _ {i}-\overline {y}\right)}{\sqrt{ \sum ^{n} _ {i=1} \left(x _ {i} - \overline {x} \right)^{2}} \sqrt{\sum ^{n} _ {i=1} \left(y _ {i} - \overline {y} \right)^{2}}}

 \displaystyle =\frac{ \frac{n^{3}-n}{12} -\frac{1}{2}\sum ^{n}_{i=1}\left(x _ {i}-y _ {i}\right) ^{2}}{\frac{n^{3}-n}{12}}

 \displaystyle = 1-\frac{6}{n^{3}-n} \sum ^{n} _ {i=1}\left(x _ {i}-y _ {i}\right) ^{2}

 

将来同じ悩みを持った人に向けて。 ありえん疲れました。