コンコーダンス・プログラム改訂

北大の西洋史専攻の方から,コンコーダンス・ソフトについて問い合わせがあった。データがないとのエラーになるというもの。調べた結果,お使いのコーパスに長大な行があり,一行の最大サイズを超過してしまったためであった。いろいろ私自身でも試験してみた過程でバグも見つけた。

以下の改訂を行った。

  1. 行サイズの最大値その他の拡張

    コーパステキストの行サイズの最大値を 4,096 バイトから 102,400 バイトに拡張した。

  2. DOS (Windows) / Mac テキスト形式のサポート

    これまで UNIX 行末形式 (LF) のみのサポートだったが,Windows (CR/LF),Mac (CR) の改行コードテキストも取り扱い可能とした。

  3. 同一行ヒット単語の出力の改善

    コーパステキストの同一行に同一ヒット語が複数含まれる場合の出力において,ヒットした固有の位置でハイライト表示するようにした。つまらないバグも訂正した。

  4. 大文字・小文字区別オプションのサポート

    キーワードのマッチングにおいて大文字・小文字を無視する/しないを選択できるようにした。

  5. KWIC コンテキスト長指定のサポート

    KWIC 形式でコンテキストを表示する際に,キーワードの前後のテキスト長はこれまで 40 文字固定だった。これをユーザが指定できるようにした。

  6. 語の出現位置情報出力の追加

    マッチワードの出現するテキスト行数だけでなく,当該マッチワードがコーパス先頭から何語目に位置するかの情報を追加した。

  7. UTF-8 ベースへの変更

    UTF-8 または X11-Ctext によるコーパスである場合,コンコーダンス条件に多言語指定が可能になった。コーパスや条件指定にドイツ語,フランス語がロシア語と同時に含まれていても処理できる。

ロシア語電子コンコーダンス・サービス』から利用できる。またこのサービスを構築するためのプログラムを纏めたアーカイブ usconcord-1.5.tar.gz もダウンロードできる。

今後の拡張予定としては,KWIC 表を TeX のテーブル形式でダウンロードできるようにすること。ただし,今回改訂内容をプーシキン・テクスト・コンコーダンスにも反映しなければならず,そのあとということになる。