Next: 概要 Up: スラヴ学研究者のコンピュータ・リテラシーのために Previous: translit のインストール

単語統計

文学・言語学の研究課題は文学テキストや言語活動において認められる現象をいかに客観的に認識し整理／記述するかにあります。このとき、研究対象の形式的特徴の計量に立脚しようとする方法論は新奇なものではなく、20世紀初頭のロシア・フォルマリストの活動は有名です。

しかしながら、単純だが骨の折れる、また正確さを要求される形式的テキスト分析作業は、相当量のマテリアルに対し一貫した原則に従う必要があり、研究者自らの手作業で整理していては、テマはかかるし時間はかかります。ミスはどうしてもまぬかれません。もしも -- テマヒマがかかる以上 -- 整理の方法そのものに学問的な誤りを見い出したとき、研究者のショックは計りしれないものがあるのではないでしょうか。

こういった作業は何も研究者自らが行う必要はなく、 -- 方法論は熟知していなければなりませんが -- 計算機の出番ということになります。研究者はもっと高度な洞察に時間を割くべきです。

${\tencyr\cyracc B.V.}$ トマシェフスキイはかつて論文集 ${\tencyr\cyracc<O sti{kh}e>}$ において、プーシキンのオネーギン詩行 ( ${\tencyr\cyracc oneginski{\u i} chetre{kh}stopny{\u i} yamb}$ ) と五韻脚ヤンブ ( ${\tencyr\cyracc pyatistopny{\u i} yamb}$ ) 一般について、力点配置とその出現頻度に基づく詳細な分析を行い、いまでは古典的ともいえる ${\tencyr\cyracc metr}$ と ${\tencyr\cyracc ritm}$ の問題論を展開しました。ここには、文学研究における統計的手法の優れた例を見い出すばかりではなく、あれほどの大学者が一所懸命力点を数えたり、あるパターンにあてはまる詩行を探し回ったりで膨大な -- 貴重な -- 時間を消費しなければならなかったことを考えさせられます。

いまやアカデミー版プーシキン全集の CD-ROM が出版され電子化されたプーシキンテキストが完全な姿で入手できる時代となりました。かつてトマシェフスキイがコツコツ行っていたような作業が計算機で一瞬のうちに行える可能性が出てきたわけです。

staslova はテキストに出現する単語の統計を取得したり、指定パターンにマッチする単語の出現状況を表示するツールです。文学・言語学テキスト・マテリアルの用語解析・頻度分析やコンコーダンスの作成を支援する目的で私が書いたソフトウェアです。

| ホームに戻る | もくじに戻る |