統計解析ソフト R による『オネーギン』色彩分析の検定

このお休みに,『オネーギン』の色彩分析について,以前から懸案であった統計的検定をやってみた。

昨年二月に書いた論文「『エヴゲーニイ・オネーギン』のパラレリズムの一考察」では,色彩語(色彩をイメージする単語)を抽出し,その分析を通して作品構造の特色を検討した。しかし色彩語の出現度数について統計的に有意かどうかの検定を行っておらず,例えば「赤が黒の要素よりも偶然ではなく多い」ということを客観的に示すには至らなかった。そのため,論文の主張の根拠となるべき色彩語の出現度数の差異が有意なものかを,統計的に検定しておく必要を感じていたのである。

作品における色彩語の抽出は,昨年十月にプログラムを書いて済ませていた。もちろん,何を色彩語とするかは異論があり,論文のなかでその要件を検討し,それに従った抽出を行った。その後,この抽出結果を前にして,どのような検定を行うべきかずっと悩んでいたのである。二パターンの検定を行えばよさそうとの結論に至った。ひとつは一元配置分散分析であり,章毎の色彩語出現分布の差が偶然の産物かどうかの検証。もうひとつはホルムの補正による多重比較であり,これは赤,白などの要素の相互の差異が有意かどうかの検証である。今回は統計解析ソフトウェア R を用いて計算してみた。

R の実行結果を以下に示す。ここで読み込ませているデータは,『エヴゲーニイ・オネーギン』の章(一章から八章及び「オネーギンの旅」)ごとの色彩要素(COLOR = 赤,白,青,黒,緑,金,その他)の出現回数(DATA)である。オペレーションの内容についてコメントを付けてある。一元配置分散分析,ホルム補正多重比較分析の結果として,「差がない」という帰無仮説は 1% 有意水準で棄却され,色彩語の出現度数の差異は明らかに等価でないこと,赤と白が主要な作品色彩要素であることが明確になった。この結果は論文にも反映するつもりでいる。

R : Copyright 2006, The R Foundation for Statistical 
Computing
Version 2.3.1 (2006-06-01)
ISBN 3-900051-07-0
...
> # clrdt オブジェクトに各章ごとの色彩要素と出現度数のテーブルデータを格納。
> clrdt <- read.table("~/src/onegin_ronbun/R/color.txt", 
header=T)
> # clrdt 格納データの内容を表示する。
> clrdt
   COLOR DATA
1     赤    9
2     赤   12
3     赤   25
4     赤   11
5     赤   20
6     赤   14
7     赤   12
8     赤   13
9     赤    5
10    白    5
11    白    7
12    白   17
13    白   14
14    白   36
15    白    8
16    白   23
17    白   13
18    白    3
19    青    2
20    青    0
21    青    0
22    青    0
23    青    0
24    青    0
25    青    3
26    青    1
27    青    5
28    黒    0
29    黒    2
30    黒    2
31    黒    1
32    黒    5
33    黒    2
34    黒    5
35    黒    1
36    黒    0
37    緑    2
38    緑    0
39    緑    1
40    緑    1
41    緑    1
42    緑    0
43    緑    3
44    緑    0
45    緑    2
46    金    2
47    金    3
48    金    0
49    金    1
50    金    1
51    金    1
52    金    2
53    金    0
54    金    2
55    他    2
56    他    2
57    他    2
58    他    3
59    他    1
60    他    2
61    他    2
62    他    2
63    他    5
> attach(clrdt)
> COLOR <- factor(COLOR)
> # 一元配置分散分析を行う。
> fm <- aov(DATA ~ COLOR)
> summary(fm)
            Df  Sum Sq Mean Sq F value    Pr(>F)    
COLOR        6 1901.08  316.85  14.536 6.434e-10 ***
Residuals   56 1220.67   21.80                      
---
Signif. codes:  0 ‘***’ 0.001 `**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 
‘ ’ 1 
> # F値: 14.536; グループ内変動: 21.80; グループ間変動: 316.85;
> # 群自由度: 6(7群-1); 残差自由度: 56(7群*(9章-1))
> # 検定結果は6.434e-10となり1%有意水準で有意。
>
> # 多重比較(ホルムの補正によるt検定)
> pairwise.t.test(DATA, COLOR, p.adj="holm")
 
	Pairwise comparisons using t tests with pooled SD
data:  DATA and COLOR 
 
   他      白      緑      赤      金  青
白 2.8e-05 -       -       -       -   - 
緑 1       5.5e-06 -       -       -   - 
赤 6.0e-05 1       1.2e-05 -       -   - 
金 1       7.2e-06 1       1.5e-05 -   - 
青 1       6.3e-06 1       1.4e-05 1   - 
黒 1       1.7e-05 1       3.8e-05 1   1 
 
P value adjustment method: holm 
> # 白,赤とそれら以外の組み合わせで有意確率が1%を下回り有意。
>
* * * 2012.12.8 付記 * * *

その後,本論文は改訂して東京大学大学院スラヴ語スラヴ文学研究室年報 SLAVISTIKA XXIV, 2008 に掲載した。R による統計分析の部分は投稿規定のページ数の関係で割愛せざるを得なかった。

統計解析ソフトウェア R に関する書籍はかなりの点数が刊行されているが,私のお勧め(というか,手元において参考にしている本)をあげておく。中澤港の著書は 170 頁余りの薄い本ながら,R を用いて一元配置分散分析・多重比較を行う方法について,たいへん参考になった。クラスカル=ウォリス検定,ポンフェローニ,ホルムの方法などノンパラメトリック方法についても例がある。

Rの基礎とプログラミング技法
U.リゲス 著,石田基広 訳
シュプリンガー・ジャパン(株)
Rクックブック
Paul Teetor
オライリージャパン

文科系学徒にとって統計学は敷居が高い。それでも探せばわかりやすい参考書が見つかるものである。たいへん参考になった統計学関連書籍を以下にあげておく。林周二の書いた中公新書『数学再入門』二巻は,文系ビジネスマン向けに書かれた高等数学+αの書籍であるが,確率・統計の項目では一元配置分散分析の具体的解説があり,とくにお勧めである。ホーエルの数理統計学の教科書は,数式の扱い・証明においてレベルの高いものである。『文章の計量』,『計量言語学入門』はそもそも文科系学生のために書かれたもので,数学的観点においてたいへん易しい参考書である。