misima Servlet, Utf82TeX 訂正

misima 辞書,Servlet フォーム,Utf82TeX テーブルの訂正をした。

misima の旧字辞書から,奇,却,脚の3文字に対応する旧字エントリを削除した。要するに,従来は異体字に変換していたのをしないようにしたわけである。ある方から指摘をいただき,再考した結果である。

misima Servlet 版では,サーバ側 Servlet / JSP コンテナ Tomcat の POST テキスト最大長を 8,000 バイトに制限している。不用意なユーザから長大なテキスト変換を要求され,サーバがその処理で占有されたら堪ったものではないからだ。従来,これを越える入力を行うとプログラムに渡ったとき 8,000 バイトで切り落とされるため UTF-8 符号化において欠落が生じて文字化けしてしまっていた。今回,ユーザ入力段階で JavaScript でチェックして,上限値を越えた場合はエラーを出力するように改善した。

Utf82TeX については,ロシア語変換における合字抑止命令挿入のバグを訂正した。例えば,"становится" というような "тс" という綴りがあるロシア語文字列では,"stanovit\-sya" のように "t" に続く "s" の前に "\-" (合字抑止命令) を挿入して変換してやらないと,LaTeX OT2 キリルフォントエンコーディングで組版した時に "ts" の合字が拾われて "становиця" となってしまう。"тс" が "ц" に化けてしまうのである。昨年ドイツ語・BibTeX オプションをサポートした時,この処理にデグレードを作り込んでしまい,"\-s" のあとに空白文字を挿入するようになってしまっていたのだった。プログラムを直してもよかったのだが,テーブルエントリを "\-s\empty" に訂正することによって,空白を命令の区切りとして機能させるようにして,ごまかした。utf82tex-0902 としてアーカイブを改訂して公開した。misima の TeX 変換にも同じ処理があるので,こちらも訂正した。