% translit -i MASTER.KOI -o master.8859 -t koi8-gos.rus
% uso2022 -e5 < master.8859 > master_i_margarita
テキストの状態をよく確かめます。 の研究者ならタイプミスなどの不備がないか ひととおりチェックすべきでしょう。
検索条件(seコマンド)の例は次のとおりとしておきます。
se
+
+
+
+
意味する所は直観的に理解できるのではないでしょうか。
図9.4は準備した定義ファイルです。
図 9.5に実行の様子を示します。 図中の ``[3]'' のところです。 実行時間は対象テキストの容量や検索条件及び区切り文字条件に依存します。
単語統計は文字コード順なのでだいたい辞書順ですが、 小文字のセットが文字コード上大文字の後方に定義されているので、 小文字変換を行わない条件で実行した場合、 先頭が小文字の単語は大文字の単語のあとに出力されます。
``***** 112624 total statistics of 23868 words.'' とは、ロシア語に分類された単語が 23,868 語でのべ出現回数が 112,624 回だったことを示しています。 平均的に同じ言葉を概ね 4 回ずつ使っている勘定です。 明細行を見ればわかりますが、 当然名詞や動詞などの変化形は別個に扱われますので これをさらに整理したい場合、 手作業で編集するか別途プログラムで支援するかが必要となります。