スラヴ学研究者のためのソフトウェア・ツール
since Mar. 7 1998
困難が克服されれば常に満足がわれわれにもたらされる
— プーシキン

 

  1. はじめに
  2. Compound Text 文書変換支援プログラム Uso2022
  3. 文書単語統計・検索支援プログラム Staslova
  4. BABEL パッケージ日本語化ほかスタイル (pLaTeX2e用)
  5. ダウンロード

 

bullet はじめに

このページはスラヴ学研究者や人文科学研究者一般の方々のために、安田が趣味で公開しているものです。まちがいやろくでもないことが含まれているかもしれませんが大目にみてください。 会社はまったく無関係です。

ご意見、ご感想は励みになります。E-mail掲示版でお寄せください。

戻る

 

bullet Compound Text 文書変換支援プログラム Uso2022

Uso2022 は、ロシア語やフランス語、ドイツ語で書かれたテキストを Compound Text とよばれるマルチリンガル・テキスト形式に変換したりするツールです。Compound Text は UNIX X Window System (X11R5 以降) で定義されている、ISO 2022 規格に準拠した多言語混在の可能な文書のしくみです。

Uso2022 には次の機能があります。

  • ISO 8859-5 (キリル文字)、 ISO 8859-1 (ラテン1)、ISO 8859-2 (ラテン2)及び ISO 8859-7 (ギリシア語) で書かれたテキストにエスケープ・シーケンスを挿入し、Compound Text に整形する。これにより Mule で閲覧・編集できるようになります。

    ※これには Mule の Coco を利用する、file-coding-system*ctext* に設定変更する、などの別の方法もあります。

  • Compound Text 形式のテキスト中のキリル文字、ラテン特殊文字・アクセント記号・diacritical mark を文書整形システム LaTeX のトランスクリプションに変換する。テキストには漢字が混入していてもよい。キリル文字は BABEL スタイル・ワシントン大学キリル・エンコーディング、ラテン文字は T1 エンコーディングのシンボルで変換する。これにより、Mule の多言語編集機能で直接キリル文字で LaTeX 文書を記述できるようになります。実際のタイプセットのまえにこのプログラムで LaTeX のトランスクリプションに変換してください。
  • LaTeX 文字トランスクリプション機能をエスケープ・シーケンスのない ISO 8859-5 (キリル文字)、 ISO 8859-1 (ラテン1)、 ISO 8859-2 (ラテン2) のテキストに対し行う。インターネットから入手したロシア語テキストその他を LaTeX 文書に取り込むとき利用してください。

仕様・利用方法詳細はスラヴ学研究者のためのコンピュータ・リテラシーのためにをご覧ください。

バグ・ご指摘はメールで教えてください。

本プログラムはフリーソフトウェアです。営利目的でなければご自由にご利用ください。ただし、"absolutely no warranty" なのであしからず。

FreeBSD 2.2.5 の C コンパイラ (Gcc) で開発しております。

インストールはパッケージ添付のドキュメントをご覧ください。

戻る

 

bullet 文書単語統計・検索支援プログラム Staslova

Staslova はテキストに出現する単語の統計を取得したり、指定検索条件式 (パターン) にマッチする単語の出現状況を表示するツールで、文学・言語学テキスト・マテリアルの用語解析・頻度分析や、コンコーダンスの作成を支援する目的で書いたソフトウェアです。

  1. 多言語対応の統計・検索機能

    Compound Textで書かれたテキストを前提とし、 ロシア語 (ISO 8859-5)、 英語のほか日本語 (JIS X 0208)、ISO 8859-1 及び ISO 8859-2 で記述できる言語が同時に扱えます。

    また ISO 8859-x コードであればその他 1 種類だけゲスト・コードとして、上記コードと同時に利用できます (たとえばギリシア語、ヘブライ語もしくはアラビア語)。

    ISO 8859 シリーズで取り扱える言語は以下のとおりです。 (『マルチリンガル環境の実現』プレンティスホール社刊より)

    • ISO 8859-1 (Latin-1):

      アイスランド語、アイルランド語、イタリア語、英語、オランダ語、スウェーデン語、デンマーク語、ドイツ語、ノルウェー語、ポルトガル語、フィンランド語、フェロー語、フランス語で利用される文字を含む。

    • ISO 8859-2 (Latin-2):

      アルバニア語、スロバキア語、スロベニア語、英語、セルビア・クロアチア語 (1992 年のユーゴ解体でこの名称は消滅)、チェコ語、ドイツ語、ハンガリー語、ポーランド語、ルーマニア語で利用される文字を含む。

    • ISO 8859-5 (Latin/Cyrillic):

      ウクライナ語、英語、セルビア語、ブルガリア語、白ロシア語、マケドニア語、ロシア語で利用される文字を含む。

    • その他:

      ISO 8859-6 (アラビア語)、 ISO 8859-7 (ギリシア語)、ISO 8859-8 (ヘブライ語)など。

    言語別・文字コード順に統計結果を報告します。

    出力結果は同様に Compound Text なので Mule で確認・編集が可能です。

  2. ユーザ定義のサポート

    本ソフトウェアでは「単語」は所定の区切り文字で切り出されたもの、という基本的考え方に基づいていますが、何を区切り文字とするかはユーザが独自に指定できるようにしました。

  3. 不定文字のサポート

    検索機能において、検索条件式の指定で不定文字という概念を導入しました。

    • "*" : 0個以上の任意の文字にパターンマッチする不定文字
    • "." : 1個の任意の文字にパターンマッチする不定文字

    これらにより、前方一致/中間一致/後方一致などの単項演算ができるようになっています。

  4. 論理演算機能

    検索機能においてパターン単項式を、"*"(AND演算)、"+"(OR演算)、"#"(NOT演算) の 2 項論理演算子及び「かっこ」で結合することにより、より複雑な条件設定ができます。

  5. 出力方法の選択

    統計件数、 パターンマッチ件数とマッチした単語、マッチ単語出現テキスト断片・出現位置情報の選択出力が可能となっています。
     

仕様・利用方法詳細はスラヴ学研究者のためのコンピュータ・リテラシーのためにをご覧ください。

バグ・ご指摘はメールで教えてください。

本プログラムはフリーソフトウェアです。営利目的でなければご自由にご利用ください。ただし、"absolutely no warranty" なのであしからず。

FreeBSD 2.2.5 の C コンパイラ (Gcc) で開発しております。

インストールはパッケージ添付のドキュメントをご覧ください。

戻る

 

bullet BABEL パッケージ日本語化ほかスタイル (pLaTeX2e用)

私が既存の LaTeX スタイルに修正を加えたものです。私は FreeBSD pLaTeX2e (p2.1.5 1997/7/2版 Web2c 7.0 及び p2.1.8 1998/9/1版 Web2c 7.2) で確認しています。ゴミのような修正ですがご参考までに。

  • BABEL 3.6g 日本語対応パッチ及び japanese.dtx ファイル
  • BABEL 3.6v 日本語対応パッチ (99/4/16 対応版)
  • WSUIPA (ワシントン州立大学 IPA パッケージ)スタイル NFSS2 対応フォント定義

ここでの原スタイルの改変は原作者のなんのオーソライズもえていません。私が自分のために行ったものを、関心のある方にもおすそわけする程度のものです。

問題が発生した場合は、オリジナルの問題か私の作り込みか切り分けもできないかもしれませんので、すべてにおいてお使いになる方の責任でお願いします。

インストールなどは添付の README をご覧ください。

戻る

 

bullet ダウンロード

 

"〜.tar.gz"ファイルは、Tar でアーカイブしたものを Gzip で圧縮したものです。以下のようにして展開してください。宛先ディレクトリは適当に割り当てを行ってください。

% tar zxvf 〜.tar.gz -C 宛先ディレクトリ名
	

戻る