レポートの出力は文字コード順です。
ほぼ辞書順といってよいのですが、
ひらがなの方がかたかなよりもコードが小なので
「プーシキン」よりも「ぷーたろう」の方が先に分類されるなど文字コードの
大小の特性に直接影響されますので、注意が必要です。
統計処理を行う際、単語をすべて小文字変換 (lower case conversion) するか、出現したそのままの形態とするか選択ができます。 大文字と小文字のコード上の位置関係はコード体系に依存する関係で、 ゲスト・コードは小文字変換されません。 (-c オプション)
「言語」は3種類しかありません。日本語 (Japanese)、キリル文字諸語 (Cyrillic) 及びラテン文字諸語 (Latin) です。
``Japanese > Cyrillic > Latin'' を指定した場合
-- こんなことが実際あるかは別として --
たとえば ``non-
作品'' という
「単語」 (あくまで以下に示す定義上の概念です)
は日本語として分類され、
日本語の統計結果のアイテムに顔を出すことになります。
数字など ASCII コードで定義されている文字は万国共通でしょうが、
他の言語と複合していない場合、ASCII(Latin) に分類されます。
101- など複合すると指定の言語優先順位にしたがって
(``Cyrillic > Latin''ならキリル文字諸語に) 分類します。
このオプションは統計上重要で、
``-'' などの単語は
``-'' が ASCII コードなので言語優先順位を
``Cyrillic > Latin'' としておかないと
ASCII(Latin) に分類されてしまいます。
ただし、1 文字も日本語がないにもかかわらず
Japanese 優先で日本語に分類されることはありません。
変化形のパターンにしたがって語尾変化・
派生をひとまとめにするのは今後の課題です。
しかしながら、これは実装するにはあまりにも複雑であるのに対し、
例外の存在で一貫性が保証できないなど労多くしてうるところが疑問です。