プーシキン作品コンコーダンス・サービス
since Jul. 9 2001
日本語 (Японский язык) |  ロシア語 (Русский язык)
 

概要

本サービスはプーシキン作品のコンコーダンスを自動的に作成する。単語条件を指示することによりコンコーダンスを生成する。条件式には不定文字と論理演算子を組み合わせて複雑な単語条件を指定できる。条件式にマッチする単語の出現回数とコンテキストが KWIC 形式で取得できる。プーシキン研究にご活用いただければ幸いである。

テキストは F-BIT 社から出ている CD-ROM 版プーシキン全集に基づいている。

コンコーダンスの対象とするジャンルの範囲は以下のとおりである。:

  -
  - 物語詩
  - 演劇
  - 散文
  - スカースカ
  - 歴史
  - 評論
  - 書簡

«Евгений Онегин. Роман в Стихах» 単独のコーパスも選択できる。コーパスの各ジャンルは未発表草稿,断片,メモ類も含まれている。ヴァリアントは含まれていない。全てのジャンルを選択できるが,処理時間を要するので注意いただきたい。

プーシキンの個々の作品はジャンル毎に一つの電子テキストにまとめて処理している。このためプログラムが吐き出すコンコーダンスのテーブルにおける行番号はこのテキストファイルにおける位置を示している。わたし自身これは,利用者がオリジナルテキストの該当部分を参照するのに不便であると思うし,今後より改善したいと考えている。さしあたり「巧遅は拙速に如かず」との言にならって,まずは公開するものである。プーシキン・テキスト(コーパス)の準備については,「プーシキン語彙統計処理」で述べている方法と同じである。

コンコーダンス作成処理において主要な役割を担っているのは,わたしの書いた語彙統計プログラムである Staslova である。これをドライブするための CGI や シェルスクリプトをコンコーダンス処理のために準備した。確認は Microsoft Internet Explorer 5.5 (Windows 2000 及び Me) にて行っている。Staslova については,「スラブ学研究者のコンピュータ・リテラシーのために : 単語統計」を参照。

本ページで提供する内容は無保証である。

ご意見,ご感想はメールでいただけるとありがたい。

 


フォーム入力について

コンコーダンス作成に際して利用者が検索したい単語条件をフォームにて指定できる。この条件を条件式 (выражение) という。フォームが画面下部に表示されていない場合は再度 index.html をロードいただきたい。

式の記述において以下の文字が指定できる。:

  • 通常の文字 : 指定した文字そのものにマッチする。
  • "*" : 0 個以上の任意の文字にマッチする特殊文字(不定文字)
  • "." : 1 個の任意の文字にマッチする特殊文字(不定文字)
  • "*" "+" "#" : 論理演算子。通常文字と上記2つの不定文字からなる単項式間の論理条件を定義できる。"*" は AND(論理積),"+" OR(論理和),"#" は NOT(論理差)である。
    演算の優先順位は次のとおり。 : "*" > "+" = "#"
  • "(", ")" [丸括弧]: 論理演算の優先順位を算術的に変更できる。対で指定する必要がある。
  • "*" のような特殊文字は "\"(バックスラッシュ:日本語キーボードの¥記号の文字)を前置すると特殊文字の機能を失い,その文字そのものにマッチする。"\" もまたそれ自身にマッチさせたい時は "\" を前置する。

式の例 :

式 выражениеマッチする単語
крас*крас красавица красавец красивый ...
крас.краса красе ... (красой は一致しない)
краса* * *иц.красавица красавицу ... (красавицами は一致しない)
кр* * (*сав* # (*а + *ы))красавицу красавец... (красавица は一致しない)
а*(語頭が "а" の単語)
*(任意の単語 : 時間がかかる ...)
....(4 文字の任意の単語)
Г*\**Графиня**** ...


式のロシア文字の入力はいわゆる半角文字で行う必要がある。OS のキリル文字インプットメソッドがセットアップされているとフォームに直接入力できる。日本語 Windows でも多言語サポートをセットアップすればロシア語が入力できる。本フォームは UTF-8 でコーディングしており,Windows では送信コードも UTF-8 にしてくれるようである。Mac OS X でも動作確認をしている。

インプットメソッドの導入は面倒でもあり,本サービスではキリル文字が入力できるようになっていない利用者のために疑似ロシア語キーボードを用意している。フォームの "Русская клавиатура" ボタンをクリックすると疑似キーボード・ウィンドウがオープンし,マウスでキリル文字ボタンをクリックすると当該文字が条件式のエリアに入力できるのでご活用いただきたい。キーボード配列は "Яшерты"(Phonetic 配列) と "Йцукен"(ロシアで一般的な配列) との 2 種類が選択できる。

計算処理において単語分割を指示する区切り文字を定義できる。区切り文字は 3 種類ある。:

  • 一般区切り文字:かならず語を区切るもの。
  • 連続区切り文字:2個以上連続して出現したとき区切りとなるもの。例 :
     
    定義テキスト切り出される単語
    -Римский-КорсаковРимский-Корсаков (分割されない)
     Я--студент.Я студент (連続しているので分割)
     
  • セット区切り文字:通常は区切り文字ではないが区切り文字と隣接して出現したとき区切り文字となるもの。この場合の区切り文字はセット区切り文字も含まれ 再帰的にチェックを行う。例 :
     
    定義テキスト切り出される単語
    'sister'ssister's (分割されない)
     Я говорил 'Sister'.Я говорил Sister ('Sister'ではない)

区切り文字の定義は面倒ならフォームの初期設定をそのまま使ってもよいと思う。

"ignore case." のボックスにチェックをつけると,条件のマッチングに際して大文字・小文字を無視する。区別したい場合はチェックを外す。

"context length" は,KWIC 表においてマッチした単語の前後に現れるコンテキストの文字長を指定する。あらかじめ 30 文字が設定されている。最大 200 文字まで指定できる。

コンコーダンス処理で利用している WWW サーバ環境を参考までに簡単に以下に記す。

項目環境
システムIBM ThinkPad X20 (ノート PC)
CPUPentium III 600MHz
メモリ320MB
OSFreeBSD 6.2-RELEASE
WWW サーバApache 2.2.3
言語Staslova: C (GNU C compiler 3.4.6)
CGI: Perl5 (5.8.8)

 

counter