Next: 統計機能
Up: 単語統計
Previous: 単語統計
- 多言語対応
Compound Text で書かれたテキストを前提とし、
ロシア語 (ISO 8859-5)、
英語のほか日本語 (JIS X 0208)、 ISO 8859-1 及び
ISO 8859-2 で記述できる言語が同時に扱えます。
また ISO 8859-X コードであればその他に1種類だけゲスト・コードとして
上記コードと同時に利用できます(たとえばギリシア語、ヘブライ語もしくは
アラビア語)。
言語別・文字コード順に統計結果を報告します。
出力結果は同様に Compound Text なので Mule
で確認・編集が可能です。
- ユーザ定義のサポート
本ソフトウェアでは「単語」は
所定の区切り文字で切り出されたもの
という基本的考え方に基づいていますが、
何を区切り文字とするかはユーザが独自に指定できるようにしました。
- 不定文字のサポート
検索機能において、パターンマッチングの指定で不定文字という概念を
導入しました:
- 0 個以上の任意の文字列にパターンマッチする ``*''
- 任意の 1 文字にパターンマッチする ``.''
これらを条件に記述することで前方一致/中間一致/後方一致などより
柔軟な単項演算ができるようになっています。
- 論理演算機能
検索機能においてパターン単項式を 2 項論理演算子及び
``かっこ'' で結合することにより、より複雑な条件設定ができます:
- 論理積(AND)演算子 ``*''
- 論理和(OR)演算子 ``+''
- 論理差(NOT)演算子 ``#''
- 出力方法の選択
統計件数、パターンマッチ件数とマッチした単語、
マッチ単語出現テキスト断片
・出現位置情報の選択出力が可能となっています。
| ホームに戻る | もくじに戻る |