README -*- coding: utf-8 -*- misima-2.3 インストール/利用の手引き since Aug. 17 2006 $Id: README,v 1.5 2006/08/26 09:42:14 isao Exp $ Copyright(c) 2006, isao yasuda, All Rights Reserved. 人間の精神には,今ここに流通する言 葉から抜け出したいという欲求がある. — 水村美苗 1.概要 misima 旧仮名遣い・旧字変換支援 Ver.2.3 は,現代仮名遣い・新字による UTF-8 テキストを旧仮名遣い・旧字テキストに変換するプログラムである.多言 語文字を TeX 形式に変換する機能も有している.本パッケージは misima 関連 のソフトウェア一式である.本文書はパッケージのインストール,利用方法につ いて示す. なお,本パッケージは UNIX ユーザを対象としている. misima は変換機能を実行する (1) Perl プログラム本体及び辞書と,これをコー ルして Web ブラウザからのアクセスを処理する (2) CGI プログラム,SOAP WebService のフレームワーク上で misima を制御する (3) SOAP サーバ,(4) WebService アクセス・クライアントからなる.その他,辞書を管理したり TeX コンパイルを支援したりするためのいくつかのユーティリティ,Emacs Lisp を 含んでいる. 最新版は http://yasuda.homeip.net/dl/dl.html からダウンロードできる. また作者のサイト http://yasuda.homeip.net/ に本ドキュメント,パッケージ に関する最新情報を掲載する場合がある.その場合は本文書の記述よりもこちら を優先としていただきたい. パッケージ提供リソース概略は以下のとおり. リソース 内容概略 ------------+------------------------------------------------ README README(インストール手順など) Makefile インストール用 Makefile module/ プログラム本体,CGI モジュール,管理ツール dic/ misima 辞書,茶筌用ユーザ辞書 env/ 環境管理ファイル html/ Web フォーム(プロトタイプ) doc/ 機能説明ドキュメント elisp/ Emacs 用 Elisp soap/ SOAP WebService 用リソース(サーバ/クライアント Java ソース,実行用スクリプトなど) 2.機能概要 misima がサポートする機能,仕様,注意事項については,添付 html/ misimadoc.html, html/misima.html を参照のこと. 3.コマンドライン書式 misima は標準入力から UTF-8 テキストを読み込み,標準出力に変換後の UTF-8 テキストを,標準エラー出力にエラー情報を書き出す.リダイレクトの使用を想 定している.そのコマンドラインの指定書式を以下に示す. - [ ] 内は省略可能である. - | で区切られたパラメータは同時指定が可能である. - { } 内は前置オプションが指定されたとき,いずれかを必ず指定する. misima [-k|-y|-i|-t|-n|-q|-s {chuam}|-x {kuiaf}|-m {ht}|-r "rcfile"] -k 旧仮名変換を行う. -y 用語・用字変換を行う. -i 繰り返し文字変換を行う. -t 単純変換を行う. -n 仮名反転変換を行う. -s オプションにより旧字変換を行う. c UTF-8 コード h HTML 数値参照 u TeX OTF package UTF-8 数値参照 a TeX OTF package CID 参照 m TeX 今昔文字鏡 package 大漢和文字番号参照 -x オプションにより TeX 変換を行う. k 漢文訓点変換 u Cyrillic, Latin, Greek f 強制変換 x 拡張変換表使用 r Cyrillic T2A 変換 t タイ語単語境界マーキング,TIS-620 十六進数変換 T タイ語単語境界マーキング,UTF-8 出力 h UTF-8 十六進数変換 i 繰り返し表現くの字点変換 a kui に同じ -c JIS \UTFx 変換 K \UTFK(韓国語) C \UTFC(中文簡体字) T \UTFT(中文繁体字) -m マーキング h HTML tags t TeX control sequence -q 致命的エラー以外抑止 -d デバッグ(形態素解析結果トレース) -r "rcfile" RC ファイル指定 (default: $HOME/.misimarc) 4.動作環境 misima をインストール,実行するための前提動作環境を以下に示す. 1. Perl 5.8.0 以上 (Unicode サポート版) が必要である. Mac OS X Tiger 10.4, FreeBSD 5.4-RELEASE にて動作確認を行っている. Windows での動作 は保証されない. Linux では動作すると考えられるが,確認していない. 2. 日本語形態素解析ソフトウェア『茶筌』 Chasen 2.3.3, 同辞書 Ipadic 2.7.0 以降が事前にインストールされていなければならない. 3. Chasen perl モジュールが使用可能でなければならない.『茶筌』のインス トールについてはパッケージ添付のドキュメントを参照. 4. 茶筌辞書 (ipadic) は UTF-8 エンコーディングで作成されていなければな らない.辞書ファイル一式を EUC-JP から UTF-8 にコード変換し, makemat -i w, makeda -i w で UTF-8 辞書を作成すればよい.Ipadic UTF-8 辞書の 作成方法は http://chasen.naist.jp/hiki/ChaSen/?FAQ を参照のこと. 5. Emacs から利用するための Elisp を利用する場合,Emacs 21.3 以降 (+ Mule-UCS) もしくは Emacs 22.0.5 を予めインストールしている必要があ る. Unicode フォントも利用可能にしておく. 6. ブラウザからの指示で実行できる Web CGI モジュールを添付している.こ れを利用するためには HTTP 1.1 をサポートした HTTPD が必要である.作 者は Apache-2 で確認している. 7. -x t(T) オプション(タイ語 TeX 変換)を使用する場合,タイ語単語境界 マーキングプログラム swath 及びコード変換ユーティリティ iconv が予め インストールされていなければならない. swath については「CJK,Unicode パッケージ,ロシア語多書体の利用: タイ語単語分割」を参照. 8. SOAP WebService 関連モジュールをコンパイル,実行するためには JDK 1.4.2 以降の Java 開発・実行環境,さらに,SOAP フレームワークのクラ スライブラリ,コンテナ (JSP/Servlet エンジン Jakarta-Tocat 4.1 以降, 及び Axis 1.2.1 以降) が必要である.CLASSPATH も適切に設定されてい なければならない. 9. インストールのために make が必要である. 5.インストール (本体, Web) misima 本体及び Web CGI 環境の導入について述べる. %, # はそれぞれ Tcsh の一般ユーザ,スーパーユーザのコマンドプロンプトを示す. 1. 添付 Makefile の修正 以下のパラメータを修正する.URL[8], 茶筌 UTF-8 辞書[13] を除き,でき るだけ変更しないことが望ましい. PREFIX = /usr/local [1] WEBDIR = $(PREFIX)/www/data/misima [2] CGIDIR = $(PREFIX)/www/cgi-bin [3] ETCDIR = $(PREFIX)/etc [4] MISIMADIR = $(ETCDIR)/misima [5] MISIMATMP = /tmp/misima [6] MISIMALOG = /var/log/misima.log [7] HOST = http://url.of.your.site [8] FORM = /misima/misima.html [9] EMACS = $(PREFIX)/bin/emacs [10] ELISPPATH = $(PREFIX)/share/emacs/site-lisp [11] MAKEDA = $(PREFIX)/libexec/chasen/makeda [12] CHADICDIR = $(PREFIX)/lib/chasen/dic/ipadicutf8 [13] [2] Web フォームを置くディレクトリ [3] CGI プログラムを置くディレクトリ [5] misima 管理ファイルディレクトリ [6] misima Web CGI 用一時ディレクトリ [7] misima Web CGI ログファイル [8] Web メイン URL [9] Web フォーム HTML [11] Emacs site-lisp ディレクトリ [12] chasen makeda ユーティリティ絶対パス [13] ipadic UTF-8 辞書ディレクトリ 2. 管理ファイルの作成 env/misimarc, env/misima.conf.sample, env/chasenutfrc を修正する. (1) misimarc: ユーザ辞書を使う場合は UDIC パラメータに辞書の絶対パスを指定する.本 ファイルは make によって $HOME/.misimarc にインストールされる. (2) misima.conf.sample: Web CGI を利用する場合のみ.また Makefile で [8,9] を指定していれば パスは自動で設定される. # Site URL $mysite = "___URL__"; # 上記[8]に合わせる # Form html file $myform = "___FRM___"; # 上記[9]に合わせる # Additional Auth sites $authsites = "___URL___"; # 上記[8]に合わせる $authsites はリファラーのチェック時に参照する値である. misima CGI は, $authsites にマッチしないリファラーからの要求に対する処理を行わ ない仕様になっている.$authsites に $mysite と異なる URL を指定する と,$mysite と $authsites とが実行許可対象とされるフォーム・サイトと なる. 本ファイルは make によって /usr/local/etc/misima/misima.conf に インストールされる. (3) chasenutfrc: 以下の /usr/local/... を ipadic UTF-8 辞書インストール・ディレクトリ ([13]) に修正する. Ipadic オリジナルの EUC-JP 辞書とは別に UTF-8 辞 書用ディレクトリを作成することをお勧めする. (GRAMMAR /usr/local/lib/chasen/dic/ipadicutf8) 本ファイルは make によって /usr/local/etc/chasenutfrc にインストール される. 3. インストールの実行 スーパユーザ権限で以下を実行するとフルインストールを行う.「動作環境」 に記述した諸事項がすでに完了していなければならない. # make install あるいは以下のようにしてもよい. # make misima-install : misima 本体・辞書 # make misima-web-install : misima CGI Emacs 用 Elisp のインストールは以下のとおり. # make misima-elisp-install 4. Web フォームのカスタマイズ Web CGI を運用する場合,html/misima.html, html/misima-header, html/misima-footer をカスタマイズする. misima.html は CGI サブミ ット用フォームのプロトタイプである. misima-header, misima-footer は CGI 出力結果の前後に付加される HTML コードである. 提供リソースは弊サイトのコードそのものであり,画像や JavaScript 等 のパスは弊サイト環境に依存している.利用者の環境に応じてカスタマイズ ・修正が必要である. HTML ソース修正は容易であると考え,変更個所等の 具体的な説明は割愛する. CGI フォーム・パラメータ指定は misima.html のソースコードを参考にし ていただきたい.パラメータ仕様概略を下表に示す.指定値 1|0 は機能の オン|オフを示す. text は UTF-8 テキスト文字列, {urtT...} は複数選択 可能指定, C|T|K|0 はいずれか選択で 0 の場合はオフを示す.それぞれの 変換機能の意味は html/misimadoc.html 機能仕様書を参照のこと. パラメータ 指定値 内容 --------------+--------------+----------------------------------- itext text 変換対象テキスト k_opt 1|0 旧仮名変換 t_opt 1|0 単純変換 s_opt c|h|u|a|0 旧字変換 y_opt 1|0 用語・用字変換 i_opt 1|0 繰り返し文字変換 n_opt 1|0 仮名反転変換 x_opt {urtTxfki} TeX 変換 c_opt C|T|K|0 TeX JIS 中韓変換 d_opt 1|0 デバッグ(解析結果出力) m_opt h|t|0 マーキング用指定 (html|TeX|無) m_opt_htds text html 辞書マーキング開始用テキスト m_opt_htde text html 辞書マーキング終了用テキスト m_opt_htss text html 本則マーキング開始用テキスト m_opt_htse text html 本則マーキング終了用テキスト m_opt_txds text TeX 辞書マーキング開始用テキスト m_opt_txde text TeX 辞書マーキング終了用テキスト m_opt_txss text TeX 本則マーキング開始用テキスト m_opt_txse text TeX 本則マーキング終了用テキスト s_mojikyo text 今昔文字鏡番号指定 TeX シーケンス utext text ユーザ辞書テキスト 5. 環境変数の登録 環境変数に chasenutfrc ファイルパスを登録する.なおパスは本パッケー ジ・インストールの標準時のものである. - tcsh の場合: % setenv CHASENRC /usr/local/etc/chasenutfrc - bash の場合: $ export CHASENRC=/usr/local/etc/chasenutfrc 6. .emacs の修正 Emacs Lisp を利用する場合,.emacs に以下の記述を追加する. ;; misima.elc の指定 (require 'misima) ;; misima プログラムの絶対パス指定 (setq misima-path "/usr/local/bin/misima") ;; misimarc の絶対パス指定($HOME/.misimarc) (setq misima-rc "/home/xxxx/.misimarc") 7. Emacs コマンド M-x misima-コマンド RET とする.-region 名のものは,リージョン(対象 テキスト範囲)を設定して実行するコマンドである. misima-region := -ykitq (*1) misima-ucs-region := -ykitq -s c misima-tex-region := -ykitq -s a -x a misima-seiji-ucs-region := -q -s c misima-seiji-tex-region := -q -s a -x u misima-invert-kana-region := -nq misima-kantaiji-tex-region := -q -x u -c C misima-hantaiji-tex-region := -q -x u -c T misima-buffer := -ykitq -s c (*2) misima-seiji-buffer := -qs c (*2) misima-create-buffer := -ykitq -s c (*3) *1 -s オプション問い合わせ *2 当該バッファ *3 新規バッファ 8. mlatex コマンド mlatex は UTF-8 で準備した TeX 原稿を対象に misima 変換, pLaTeX コン パイル, dvipdfmx PDF 生成を実行するユーティリティである.Makefile で はインストールされない. module/mlatex をカスタマイズして,実行パスの 通った場所に格納して利用する. pTeX 一式, dvipdfmx, iconv 外部プログ ラムが必要である. JPCODE=EUC-JP [1] TEXRC=/usr/local/etc/misima/texrc [2] OPT="-qtkyi -s a -x kifxt -r $TEXRC" [3] PLATEX=$PREFIX/teTeX/bin/platex [4] DVIPDFMX=$PREFIX/teTeX/bin/dvipdfmx [5] [1] pLaTeX 日本語文字コード [2] mlatex 用 RC. .misimarc コピーでも可. [3] misima コマンドライン・オプション. $TEXRC 不要|無の場合 -r $TEXRC は削除する. [4] platex 絶対パス [5] dvipdfmx 絶対パス 実行は mlatex [dvipdfmx option] tex-file と入力する.dvipdfmx option は省略可能である. tex-file は拡張子 .tex を省略できる. mlatex はログ メッセージをチェックして,TeX 原稿にある \ref が解決するまで platex コンパイルを自動実行するようになっている. 6.SOAP WebService SOAP は Web サービス・オブジェクトを送受信するためのメッセージ規約であ る. Web CGI とは異なり, リモート PC 上のコマンドラインや Emacs から misima を呼び出して変換サービスを実現することができる. 本 misima パッケージは misima 本体を SOAP WebService 通信経由でリモート PC から利用するためのサーバ misimaSoapConnector 及びクライアント misimaSoapClient を同梱している.以下,インストール方法について示す. 1. 前提環境の準備 Java, Tomcat, Axis, 及びその前提となるクラスライブラリなどの導入・環 境設定を事前に実施しておく.本説明ではこれらがすでに完了しているもの とする. Tomcat, Axis についてはそれぞれ, http://tomcat.apache.org/ tomcat-4.1-doc/index.html, http://ws.apache.org/axis/ja/index.html を参照のこと. 2. インストール Makefile の修正 以下のパラメータをサーバの設定に従い修正する. JDKBINDIR = /usr/local/jdk1.4.2/bin [s1] DEPLOYDIR = /usr/local/jakarta-tomcat4.1/→ webapps/axis/WEB-INF/classes [s2] SOAPURL = http://url.of.your.site/axis/→ services/misimaSoapConnector [s3] SVCPORT = 80 [s4] SOAPLOG = /var/log/misima_soap.log [s5] MISIMAJARDIR = $(MISIMADIR) [s6] [s1] java, javac など JDK の実行バイナリのディレクトリを指定する. [s2] WebService を配備(デプロイ)するディレクトリを指定する. [s3] misima SOAP WebService の URI を指定する. [s4] misima SOAP WebService のポート番号を指定する. [s5] ログファイルの絶対パスを指定する. [s6] SOAP クライアント jar ファイルの格納ディレクトリを指定する. 3. サーバのコンパイル % make misima-soap-server 4. クライアントのコンパイル % make misima-soap-client 5. ドキュメントの生成 Javadoc によってJava プログラム・ドキュメントを生成する. % make misima-soap-docs 6. クラスのインストール/サーバ環境設定(デプロイ) # make misima-soap-install Java プログラム・ドキュメントは $(WEBDIR)[2] に指定したディレクトリ にインストールされる. Axis の AdminClient によって配備(デプロイ)が実行される. 7. Emacs Lisp のインストール # make misima-soap-elisp-install 8. クライアントからのアクセス(コマンドライン) サーバとは異なる PC でクライアントを実行する場合,$(MISIMAJARDIR)/ misima.jar 及び $(PREFIX)/bin/misima.sh (UNIX の場合) を当該ク ライアント PC に同じパスで格納すればよい.当該 PC にも Java 環境, Axis, javax.xml クラスライブラリが必要である.クライアントのセット アップについては「Emacs から『misima 旧仮名遣い・旧字変換』を使う」 を参考にしていただきたい.ただし misimaSoapService-0.1 のクライア ントは弊サイトアクセス用であり,アクセス URI が異なるため, misimaSoapClient.class を本パッケージ提供/コンパイルによる生成物 に入れ替える必要がある. クライアントからのサービスの呼び出しは以下の 2 通りある.いずれも標 準入力から変換対象の UTF-8 テキストを読み,標準出力に変換結果を書き 出す. % misima.sh -kyit -s c < utf8-file > output-file [方法1] % java misimaSoapClient -kyit -s c < utf8-file \ > output-file [方法2] 方法1 は提供シェルスクリプトによる. 方法2 の場合環境変数 CLASSPATH は $MISIMAJARDIR/misima.jar へのパス を含む指定でなければならない. オプション指定は misima 本体とほぼ同じである.ただし,TeX 関連オプシ ョンのいくつか (-x {tTxrth}, -d など) はサポートしていない. 9. クライアントからのアクセス(Emacs) クライアントにおいて SOAP 用 Emacs Lisp を利用する場合, .emacs に以 下の記述を追加する. ;; misimasoap.elc の指定 (require 'misimasoap) ;; misima.sh シェルスクリプトの絶対パス指定 (setq misimasoap-path "/usr/local/bin/misima.sh") 利用可能な Emacs コマンドは次のとおり.-region のものは選択リージョ ンに対して変換を行う. misimasoap-region := -kyit -s c misimasoap-tex-region := -kyit -s a -x a misimasoap-kyuji-region := -t -s c misimasoap-kyuji-tex-region := -t -s a -x u misimasoap-kyukana-kyuji-region := -kt -s c misimasoap-kyukana-kyuji-tex-region := -kt -s c -x u misimasoap-kanbun-region := -s a -x k misimasoap-invertkana-region := -n misimasoap-buffer := -kyit -s c (*1) misimasoap-kyuji-buffer := -t -s c (*1) misimasoap-tex-buffer := -kyit -s a -x a (*1) misimasoap-kyuji-tex-buffer := -t -s a -x u (*1) misimasoap-create-buffer := -kyit -s c (*2) misimasoap-tex-create-buffer := -kyit -s a -x a (*2) *1 当該バッファ *2 新規バッファ 7.特記事項 1. 作者 (isao yasuda) は本パッケージの運用に関して,いかなる責任も負わ ない.またいかなる保障も行わない.利用者のリスクで使用するものとする. 2. 個人での利用は自由であり,無償とする. 3. 以下の形態での利用を禁止する. - 商用での利用 - 企業での組織的利用 - 人権,人命に悪影響を及ぼす危惧のある利用 4. 個人 Web サイトで本パッケージ配布物を一般公開する場合,作者下記電子 メールアドレス宛に連絡を行うものとする. 5. misima の著作権は作者 isao yasuda に帰属するものとする.改変は利用者 の自由とする.パッケージは作者が公開するものと同等の場合に限り,自由 に再配布を行ってよいものとする.改変されたものを配布・公開する場合は, 作者まで電子メールにて連絡を行うこととする. 6. misima は,辞書の設定に基づき今昔文字鏡番号変換を行う仕様になってい るが,今昔文字鏡のライセンス規定により,提供パッケージはこれができな い辞書設定に修正したうえで公開している.この機能を使用したい場合は, 利用者にて今昔文字鏡のライセンスを取得し,文字番号の定義を行い,ライ センス規定に則って運用すること. 7. 仕様は断りなく変更する場合がある. 8. バグレポートは電子メールでいただけるとありがたい. 8.更新履歴 — Aug. 17, 2006 misima-2.3a: Web で公開していた misima-2.3 を新規に パッケージ公開. — Aug. 20, 2006 misima-2.3b: SOAP 関連リソースを同梱. --- isao yasuda, 安田 功 - isao@yasuda.homeip.net - http://yasuda.homeip.net/