misima 2.6 release - 簡体字・繁体字変換追加

misima 旧字・旧仮名遣い変換支援ツールについて,Servlet 版ユーザ認証を弄る程度で,ここのところその内容についてはまったく触ることがなかった。そもそも私自身まったく使わないのだ。とはいえ,漢詩作成支援で漢詩を捻りつつ,日中辞典を引き引き詩の文言を探していると,misima が中国語簡体字を繁体字に変換できれば便利だと思った。で,今回久しぶりに機能改善を行い,Ver. 2.6 としてリリースした。コマンドライン・オプション -l で個別に簡体字を繁体字に変換できるようにした。旧字変換その他のオプションを指定していると,繁体字変換後のテキストにそれら変換オペレーションが施されるようになっている。

2009 年以来,三年ぶりの改造。Perl や Java,JavaScript,HTML コードを眺めながら,どこをどう修正するのか思い出すのに苦労した。インターネットの至るところに転がっている簡体字—繁体字のペアデータをダウンロードして来て,Perl で misima 辞書データベースに加工した。辞書を Berkeley DB に変換するプログラムやら,CGI やら,新しいオプション追加は方々に少しずつ当たりが出て面倒だったが,修正そのものは至って簡単だったので,昨夜と今日の夕食後で Web 公開まで漕ぎ着けることができた。

実行イメージは以下のとおり。ここには現われていないが,一つの簡体字に複数の繁体字が対応する場合があり,こうしたケースでは別候補を <> とで囲んで出力するようにしているので,利用者で選択する必要がある。また,変換対象簡体字は,一部例外を除き,JIS X 0208 外の文字に限定したので,「丑」(繁体字「醜」に対応)のような JIS に含まれる文字は変換されないことに注意いただきたい。

20121019-misima26.png簡体字ー繁体字変換機能

この機能は CGI 版Servlet 版のいずれからも利用可能である。簡体字—繁体字変換のチェックボックスをオンにして実行すればよい(デフォルトは「しない」になっている)。漢詩作成支援 - 平仄音韻分析・詩語検索・漢字平仄検索では,「旧字体」ボタンを押下すると旧字体変換と簡体字—繁体字変換が同時に実行されるようになっている。

ただし,プログラムそのものは,友人たちのための限定公開なので,一般の方は利用できない。