next up previous
Next: 検索(パターン適合試験)機能 Up: 単語統計 Previous: 統計機能

staslova における「単語」

「単語」とは何でしょうか。

「単語」を切り出すため何を区切りとするかはユーザ(研究者)が行えるようになって います。 staslova では統計・検索全般に区切り文字の定義が影響します。 staslova での単語の定義や可能な指定について述べます。



この定義の種別で足りない、気に入らないときや別の原理を導入したい場合は プログラムを修正しなければなりません。 たとえば、欧米語のようにもともと単語を空白で区切って記述する言語は 比較的扱いやすいのですが、日本語などの膠着語はこのような区切り文字ではなく もっと高度な原理 -- たとえば助詞などの文法規則やパターン辞書 -- を導入する 必要があるかもしれません。

奈良先端科学技術大学院大学 松本研究室によって開発された日本語形態素解析システムである 《茶筌》を利用することにより、 文法と辞書に基づいて日本語の単語の切り出しを行い、 その結果を staslova で処理させることが可能です。 以下は、日本語テキストの EUC コード変換、《茶筌》見出し語抽出、 Compound Text 変換、及び staslova 単語統計実行を、パイプで連結して実行し見出し語の統計結果を取得する例です。


% nkf -e < 日本語テキスト | \
  chasen -j -F '%M ' | \
  coco -v '*euc-japan*' '*ctext*' | \
  staslova -s > 統計結果



| ホームに戻る | もくじに戻る |