Usconcord ロシア語テクスト・コンコーダンス・パッケージの説明ページを改訂した。これまでは,単語条件式の説明が少し不親切だった。例を入れて詳しくしたのである。
Usconcord は主にロシア語テクストの KWIC(keyword in context)を自動生成するための Web サーバ・ツール・キットである。解析したいコーパス(文学テクストの電子ファイル)をサーバにアップロードし,単語条件式を入力し,解析を指示すると,条件に適合する単語のコーパスにおける出現度数・前後コンテキストからなる KWIC を表示する。コンコーダンス・サイトを運用したいひとはダウンロードサービスから usconcord-1.6.tar.gz アーカイブを取得してインストールできる。コンコーダンス解析オペレーションは Windows で稼働するブラウザから可能であるが,Usconcord サーバ運用は UNIX 環境(FreeBSD,Linux 等のオペレーティングシステムとその周辺ソフトウェア)が必要である(FreeBSD で開発したが,Linux gcc 4 でもコンパイルが通るようにしてある)。Windows ではサーバ・ソフトウェアが動作しない。
もっぱらスラヴ研究者向けに 2001 年にこのプログラムを書いた。とはいえ,対象テクスト処理の内部エンコーディング前提を X11 CTEXT(X Window System Compound Text)多言語形式としている関係で,X11 CTEXT,UTF-8 でコード化されたファイルであれば,フランス語,ドイツ語,スペイン語,ポーランド語,スウェーデン語などなど,だいたいの西欧・東欧・北欧語も処理可能である。正確には国際標準文字集合 ISO 8859-1, ISO 8859-2, ISO 8859-5 で記述できる言語を取り扱うことができる。日本文の解析は未対応である(日本語形態素解析ツール「茶筌」などを用いて予め分かち書きした日本語テクストであれば,処理できないことはない)。
コンコーダンスはある作家,作品群においてことばの用例,単語,フレーズの使われ方を総覧するのに絶大な威力を発揮する。昔からシェークスピア,聖書のコンコーダンスが出版されており,近年,ロシア文学研究文献についてもプーシキン『大尉の娘』,ドストエフスキイ『罪と罰』等のインデックスが刊行されている。しかしながら,手作業で KWIC インデックスを作るのは膨大な労力が必要であり,そのような古典,大作家以外のコンコーダンスはまず入手不可能である。自分の研究する文学作品のコンコーダンス生成,しかも論理条件指定に基づく必要語彙に特化した KWIC 生成を,個人で手軽に実行できる,というのが Usconcord の目的である。
私もプーシキン『エヴゲーニイ・オネーギン』論を書いたとき,Usconcord の元になったツール(弊サイト『プーシキン作品コンコーダンス・サービス』)を用いて,単語の用例・頻度調査を行い,悩ましい論証でブレークスルーを得た。ことばは複数の語義を有することが多いが,作家の用例をつぶさに見ると,単語を使う傾向がわかり,テクスト解釈が争われる論点においてその語義を特定するための根拠にできることがある。私の場合,語の色彩的印影の特定のため共起分析の際に,コンコーダンスを活用した。
文学研究者には Usconcord をぜひ活用いただきたいと願っている。Usconcord はユーザーが自分の Web サーバにインストールして運用するキットである。でもそんな面倒を抜きにして使いたい方は,弊サイトの『ロシア語電子コンコーダンス・サービス』を利用することができる。