プーシキン語彙統計について since Dec.24 1999 (since July 21 2001, русская версия) |
||||
|
||||
|
はじめに | |
プーシキン文芸作品の語彙統計表をまとめてみた。集計結果はここから参照いただきたい。研究者には、以下に示す前提条件を確認の上、ご活用いただければ幸いである。 統計処理は計算機により機械的に行っており、入力としたデータ (コーパス) は、ロシアの F-BIT 社から発行された CD-ROM 版プーシキン全集に拠った。これは、1937 年から 1949 年にわたって刊行された、かの有名なソヴィエト科学アカデミー版大全集に基づいている。 本ドキュメント並びに語彙統計結果は無保証である。 |
|
戻る |
処理対象範囲 | |
本語彙統計は文芸作品を対象としており、全集編集者が準拠した以下のジャンルに処理範囲を限定している。(対象作品一覧は、ジャンルから参照できる) - 詩 つまり日記や歴史、批評文などはここから外れている。ある意味で作家の語彙統計としては不十分かも知れないが、芸術作品としてのプーシキン作品の一概観として意味があるものと考える。処理方法の詳細も後述しているので、関心のある方は、対象外としたテキストも同様の方法により統計処理が可能と考える。 プーシキン作品のなかで統計対象とする文書構造は以下のとおりとする。 - 作品表題、章名、節名 プーシキン・テキスト中のフランス語等に対して、全集編集者が付加した翻訳文は対象としない。作品の表題が章の度に重複して記述されている場合も処理対象に含まれている。 |
|
戻る |
編集方法 | |
CD-ROM 電子テキストは閲覧に適するように、HTML にてオーサリングされている。しかしながら、作品の単語を切り出して統計処理をするという目的に対しては、HTML のタグや出版社によるコメントその他の付随情報はノイズであり、まずこれらを除去する必要がある。本処理では、プーシキン作品には本質的でないと考えられるテキストを、以下の基準で除去した。
CD-ROM 電子テキストには明白な誤植がある。キリル文字、ラテン文字で字母形状が似たものを、取り違えて入力している場合が多数ある。"a" "e" "o" についてキリル文字とラテン文字を混在させていたり、キリル文字の "З" を数字の "3" で誤入力している例がある。これらは、エディタの検索機能を使ってわたしが見つけた範囲で修正した。チェックを行った文字は以下のとおり。 A a, B, E e, K, M, H, O o, P p, C c, T, y, X x, 3 ただし、テキスト原文において、キリル母音にアクセントを明示したいために、アクセント付きラテン文字を利用している場合があり、これについては修正は行わず、この形態で統計処理を行った。例えば、атàнде は ат(cyrillic)-à(latin1)-нде(cyrillic) と混在しているがそのままとした。 |
|
戻る |
語彙統計基準 | |
語彙統計処理は、わたしの書いたソフトウェアである staslova にて行った。これは、外部定義に従って単語を切り出し、統計分類を行う。今回設定の統計仕様は以下のとおり。
単語を切り出すために、単語の区切りの判断を区切り文字という考え方に基づいて実施している。その仕様は以下のとおり。
単語統計処理プログラム staslova 詳細については以下の URL を参照されたい。
http://yasuda.homeip.net/russify/ 語彙統計はジャンルごとに整理した。 |
|
戻る |
処理方法詳細 | |
処理の手順詳細は以下のとおりである。計算機システムのプラットフォームは UNIX である。
|
|
戻る |
作業計算機環境 | |||||||||||||||||||||||||||||||||||
本語彙統計を実行した計算機環境に関し、そのハードウェアスペック、ソフトウェアバージョンを参考までに以下にあげておく。ソフトウェアはいずれもフリーである。
|
|||||||||||||||||||||||||||||||||||
戻る |
プーシキン語彙統計 | |
|
|
戻る |
最後に | |
プーシキン生誕 200 年にあたる 1999 年のうちになんとか仕上げたい、とのこだわりから、休日 2 日間の突貫工事でまとめあげたものである。コーパスのチェックも本格的に研究に利用するには不十分かも知れない。首尾を欠いた部分も多数あると思うので、不明点、ご指摘があれば電子メールでご教示いただきたい。わたしは本業で多忙ではあるが、可能な限りお答えしたいと考えている。 |
|
戻る |