先週,『オネーギン』論文の統計的検定をやった。今日少し考えていたら誤りに気づいた。前回は色彩語の数値に有意差があることを分散分析検定で試みたわけだが,分散分析はそもそも母集団の存在と,分布の正規性がその前提にあることを抜かしていた。
文学作品の章毎のデータでは,テーマ論の影響を考えると,色彩語が正規分布すると仮定することは難しいし,単一作品における単語の出現頻度の調査が目指す母集団の概念も怪しいものとなる。
そこで,今回ノンパラメトリックな検定手法である Kruskal-Wallis の検定でやり直してみた。結論は分散分析と変わらず,数値の差は 1% 有意水準で有意となった。再度 R による実行結果を示しておく。
> clrdst <- read.table("color-dst.txt", header=T) > attach(clrdst) The following object(s) are masked _by_ .GlobalEnv : COLOR > COLOR <- factor(COLOR) > kruskal.test(DATA ~ COLOR) Kruskal-Wallis rank sum test data: DATA by COLOR Kruskal-Wallis chi-squared = 37.3134, df = 6, p-value = 1.530e-06 > pairwise.t.test(DATA, COLOR, p.adj="holm") Pairwise comparisons using t tests with pooled SD data: DATA and COLOR 他 白 緑 赤 金 青 白 0.00023 - - - - - 緑 1.00000 2.7e-05 - - - - 赤 0.00031 1.00000 3.8e-05 - - - 金 1.00000 3.9e-05 1.00000 5.3e-05 - - 青 1.00000 5.3e-05 1.00000 6.9e-05 1.00000 - 黒 1.00000 5.3e-05 1.00000 6.9e-05 1.00000 1.00000 P value adjustment method: holm >
[ 付記 ]
統計解析ソフトウェア R に関する書籍はかなりの点数が刊行されているが,私のお勧め(というか,手元において参考にしている本)をあげておく。中澤港の著書は 170 頁余りの薄い本ながら,R を用いて一元配置分散分析・多重比較を行う方法について,たいへん参考になった。クラスカル=ウォリス検定,ポンフェローニ,ホルムの方法などノンパラメトリック方法についても例がある。