misima 旧仮名遣い・旧字変換支援プログラム since Nov. 5 2004 [ 本文書を misima で一括変換した旧仮名・旧字体版 ] |
||||
|
||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
はじめに |
misima は新(現代)仮名遣い・新字体による和文テキストを旧(歴史的)仮名遣い・旧字体(正字体)に変換するプログラムである.ヨーロッパ言語,スラヴ語,ギリシア語,タイ語などの多国語文字,漢文を LaTeX 形式に変換する機能も備えている.
能書きはさておき使ってみたい方はすぐさまこちらに.[ 現在,限定公開運用となっております.]
misima は Web ブラウザ以外のアプリケーションから直截利用することができる.この場合,Web ブラウザで変換した結果をコピー/ペーストするという面倒な操作を省くことができる.そのためには,misima SOAP Web Service 2.5 パッケージが必要である.misima SOAP Web Service 2.5 が現在サポートしているアプリケーションは以下のとおり: misima SOAP Web Service 2.5 詳細については『misima 旧仮名遣い・旧字変換支援 利用の手引き misima SOAP Web Service Ver. 2.5』(PDF 12.2MB) を参照のこと. 利用に際しては,その運用結果についていかなる意味においても無保証である.ご指摘,ご意見あればメールでいただけるとありがたい. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
考え方 |
ときおりインターネットの掲示版などで旧仮名・旧字体の文章を見かける.ところが文章の内容以上に「スタイル」に目がいってしまう.戦前の言語土壌に成る作家の語りでは自然な身振りであるのに対し,正直なところ,こちらは文体の異化作用が際立って偏向を帯びて気味が悪い.これは私の心ない主観・印象ではある.言語現象は本質的に恣意的・流動的である一方,時代・場所・伝統背景にあって価値判断・感情を担っているとすれば,スタイルそのものが限定的な深い意味をもつ. それにも関わらず,国語国字問題について旧仮名・旧字体の正当性・正統性を主張するひとは少なからずいて,昔からまじめな議論が行われている.真剣な意図のもとに旧仮名・旧字体で書こうと努める若いひともたくさんおり,前言とは矛盾するようだが,国語国字への問題意識において,敬意を表したいのも本心である.
私も荷風や「 しかし現実,現代の「普通の」常識的社会人にとっては,新仮名遣い・新字体が知的身体の一部になっており,直接旧仮名・旧字体で国語を記述するのは困難であるし,いまさら乗り換える意味もない.たとえ国語国字改変が多分に政治的なものであり,また性急・暴挙であったとの指摘が歴史の反省として正と判断されるかも知れないにせよ,これが現代日本の文化の辿った歴程であり,広く定着している以上これを否定してもしようがないと考える.(仮名遣い,日本語表記についての私自身の考え方については「misima について」に書いた.) 計算機の世界でも,通常の仮名漢字変換プログラム (IME) では現代の新仮名・新字体国語表記に最適化されており,これに従って文書を作成するのが効率的であるのは当然である.効率を求めることこそ文化的練磨を阻害する,との声も旧仮名・旧字体論者から聞こえてきそうだけど. ATOK などの IME にも旧仮名・旧字で変換するための辞書があり,インターネット上にも個人による目を見張る辞書の成果も存在するが,先に述べたように私は「普通の社会人」であり,現代仮名遣いが身に染み付いていて,この期に及んで旧仮名・旧字でもって自身の素直な考えや良心を表現する気には,いまのところなりそうにない. 旧仮名・旧字体による文学作品は,こんな私にとっても乱歩の世界のごとき黝く妖しい香気を放つ.とはいえ直接旧仮名・旧字体で記述するには障碍を感ずる.そこで,
の目的で,自分自身のために,あとづけで旧仮名・旧字体に変換するプログラムを書いてみた.私の戦術は,以上のような次第で,リアルタイムではなくバッチとなった.これなら過去に書いたテキスト・ファイルも取り扱うことができる.
同じようなプログラムがいくつか出回っているが,
完全は無理にせよもう少しなんとかならないかとの問題意識・関心から,単語の文法解析・辞書に基礎をおいた変換ツールを作ろうと一念発起したわけである. さらに
の支援も視野に入れたものにしたいと考えた.とくに TeX OTF パッケージ利用で真価を発揮できるよう設計したつもりである. 計算機で一定の基準に従って一気呵成に変換し,かつ辞書に依存する方式であり,もとよりサラリーマンの日曜大工であってみれば,多様な国語表記を完全無欠に変換するのは無理である. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
misima の特徴 |
語の品詞及び活用形を解析した結果で変換判断を行う.「語」の切出しと文法解析のため,日本語形態素解析ソフトウェア『茶筌』を利用する.福田恆存氏の「表記は語に隨ふべし」との言に倣ったつもりである.
UTF-8 コードテキストを入力前提としており,多国語が混在した和文を扱うことができる.出力も UTF-8 である.Web のフォームでは入力の文字コードを意識する必要はないが,旧字体出力結果は Unicode フォントがないと化けてしまうことが想定される.最近のブラウザならまず大丈夫ではないかと思う.ただし,Windows Internet Explorer 6(Microsoft Office を導入したもの:Unicodeフォントが添付されている)はだいたいにおいてうまく出力されるが,「 旧字変換において,UTF-8 文字出力だけでなく,TeX OTF パッケージの CID 番号参照形式でも出力できるようにした.OTF パッケージは齋藤修三郎氏の開発した TeX Virtual Fonts とスタイルファイルである.これにより,DTP において利用が進んでいる Adobe-Japan1-5 エンコーディング2万字の広範囲の文字空間から, JIS,Unicode では定義されていない文字(主に異体字)も TeX 文書で使うことが可能となる.OTF を用い,ヒラギノ Pro や小塚 Pro といった Adobe-Japan1-5 対応フォントでタイプセットすると,素晴らしい出力が得られるはずである. 旧仮名遣い・旧字変換のほか,TeX ユーザのために漢文訓読文訓点変換,くノ字点変換や多言語文字 TeX 命令変換をサポートしている.古典・漢文,主要ヨーロッパ言語,古典ギリシア語,スラヴ語の混在した文科系論文を書くにあたって必要と思われる支援を盛り込んだつもりである. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
機能 |
利用可能な変換機能を以下に示す.オプションで変換有無を指定できる.純粋に旧仮名遣い・旧字変換のみを望むなら,旧仮名遣い変換機能,旧字変換機能及び単純変換機能をオンにすることを推奨する.用字・用語変換は意図せず仮名が漢字に変換されることもある.いかなる変換も行わない指定も可能であるが,冗談はやめよう.
旧仮名遣い変換機能
旧字変換機能
用字・用語変換機能
単純変換機能
繰返し符号変換機能 半濁音(ぱぴぷぺぽパピプペポ)は変換対象外である.
語頭に濁音をもつ場合( 文献[6]「おどり字法案」の基準を参考とし,原則として語の境界を越えて適用はしない.しかしながら,本法案はあまりにも曖昧であり計算機処理上明確に判断基準とできる性質のものではなく,この要因はそもそも「くりかえし符号」の使い方そのものが実表記において統一性を欠いているからにほかならない.議論の余地はあると思うが,本システムでは以下の例外を採用している.
一語でも固有名詞及び,日本語として一般化した片仮名のみからなる名詞(
また,以下のパターンについては語の境界を越えて適用する.
「々」文字を「〻(ゆすり点)」にしたければ misima 辞書単純変換定義に登録すればよい.
仮名反転機能
マーキング機能
TeX 変換機能
本機能の TeX 出力結果の全範囲を LaTeX で処理するためには,以下の各 LaTeX パッケージが必要である.「LaTeX 標準」としたものは teTeX をインストールすれば標準で組み込まれるものである.
- OTF(和文 OpenType 処理) TeX 原稿サンプル(HTML 形式及び TeX ファイル)と,これを misima で変換し TeX OTF パッケージその他で処理した結果 PDF ファイルを掲載しておく.TeX 原稿は UTF-8 テキストなので閲覧するには Unicode フォントが必要である.また,misima を利用した TeX 変換機能の利用については,『misima TeX 変換の活用』も参照いただきたい.
無変換指定機能 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
入力テキスト仕様 |
処理対象となるデータは Unicode UTF-8 でエンコードされた電子テキストとする.辞書も同様である. 旧仮名遣い変換を指定する場合,入力テキストは現代仮名遣い,新字正則テキストでなければならない.旧仮名遣い,旧字,片仮名で入力すると茶筌が誤解析を行い,正しく処理できない. ロシア語等外国語は,茶筌では一文字ごとに分割されて,記号もしくは名詞の一種として扱われる.本プログラムでは,TeX 多言語文字変換指定がない限り,そのまま出力する. 空白文字(スペース,タブ)で区切られた文字列単位または行単位で処理を行う.よって文の途中でスペースや改行が入る場合,その位置によっては,茶筌の形態素解析が失敗して思った変換ができない可能性がある.とくに HTML などマークアップされたテキストを直接処理するときは注意が必要である. 形態素解析の関係上,連続する空白文字はスペース一個に置き換える. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
misima 辞書 |
旧仮名遣い変換,用字・用語変換,旧字変換,単純変換及び TeX 多言語文字変換は,辞書に依存する.辞書は,私が準備した必須のシステム辞書と,利用者が独自に定義できるユーザ辞書から成る.ユーザ辞書を優先的に参照する.システム辞書もユーザ辞書もフォーマットは同一であり,定義できる内容にも差異はない.ユーザ辞書は任意であり,なくてもよい. 辞書は旧仮名変換定義,旧字変換定義,用字・用語変換定義,単純変換定義,TeX 文字変換定義,TeX 異体字文字変換定義から成る. ユーザ辞書は旧仮名変換定義,旧字変換定義,用字・用語変換定義,単純変換定義について可能である. TeX 文字変換定義,TeX 異体字文字変換定義について独自の変換規則を追加したい場合,拡張変換表を作成する.拡張変換表は, misima-2.3 パッケージでローカルにインストールした場合においてのみ定義可能である.標準では /usr/local/etc/misima/contrib ディレクトリ下に下記仕様に基づくテキストファイルとして格納する.
旧字変換定義
システム辞書における旧字変換対象文字は文献[4]を参考にした.悪名高い JIS 83 年版で新字体に置き換えられてしまった文字( 旧字変換の結果は,TeX OTF パッケージ CID 番号参照がもっとも充実している.UTF-8,JIS 第3/4水準にない異体字も登録している.「近」のしんにょうが二点付きのもの,「唐」の縦線が「口」にめがけて突き出た文字など,古風な異体字を私の判断で拾っている. フォーマット:s 新字 旧字#FFFF#99999#999999
旧仮名変換定義 旧仮名変換定義は,動詞,形容詞,助動詞については基本形(終止形)で登録する.
フォーマット:k 9新仮名 旧仮名
用字・用語変換定義
フォーマット:y 変換前 変換後
単純変換定義
フォーマット:t 変換前 変換後
TeX 文字変換定義
フォーマット:e 変換前 変換後
TeX 異体字文字変換定義
フォーマット:c 変換前 変換後
misima 辞書登録時の注意事項
misima は同一バッファのテキストに対し数種の変換を一定のシーケンスに従って行う.そのつど変換を受けると辞書に登録しても無意味となる可能性がある.たとえば,仮に旧仮名遣い変換で |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
変換仕様 |
語の解析
変換処理シーケンス |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
旧仮名変換 |
旧仮名変換は misima 辞書に従うか,もしくは旧仮名遣いの規則(「本則」と呼ぶ)に基づく.
辞書変換
本則変換
品詞依存処理
拗音・促音変換処理 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
用字・用語変換 |
茶筌解析結果の語基本形で misima 辞書用字・用語変換定義テーブルを検索する.ヒットしたとき登録語で置換する.ヒットしないときなにもしない. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
単純変換 |
対象テキスト行単位でテキスト断片が misima 辞書単純変換定義に一致するとき登録テキスト断片で置換する. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
注意事項 |
本プログラムは,計算機による機械的解析に基づく以上,制約,限界がある.ある程度の分量の文章に適用すると,変換誤りが含まれるものと思ったほうがよい.重要な文書に対しご利用になる場合には,必ず自分の目で変換結果をご確認いただきたい.
辞書に定義されていないパターンはうまく置換できない場合がある.システム辞書はまだ登録語数が少ない.順次拡張していくつもりである.変換結果を評価してユーザで追加いただきたい.とりわけ動詞が名詞化した語に弱い.「
漢字の音読みについて,現代仮名遣いで「
旧仮名変換解析の前提となっている茶筌そのものが形態素解析に失敗するために,適切に変換されない場合がある.これは対象の日本語が曖昧か,不適切であるか,もしくは語義の特定において文脈に著しく依存するケースが多い.ちょっとした脱字のために著しく語分割が変わってしまうことがままある.日本語が曖昧な場合の例では,「
本システムは文脈を判断できない.日本語は省略の許容範囲が広く,文脈で一貫性・論理性を確保する傾向が強いと思う.表現そのものを単独で一意に解釈できないことがままある.文:「 misima 旧仮名遣い変換機能はあくまでも現代仮名遣い,新字正則表記テキストの入力を想定している.仮に旧仮名の文章を入力すると,茶筌が解析できず不当な語分割を行い,その結果もとの旧仮名遣いを「改悪」してしまう可能性が高い.お手持ちの仮名漢字変換ソフトウェアが,辞書のチューニングがなされていない状態において旧仮名遣いテキストを入力すると,とんちんかんな変換結果を返すのと同じ理屈である.misima は,これはすでに旧仮名だな,などといった高度な判断はしない.くれぐれも上でしるした仕様に基づいていることをご理解いただきたい.そもそも,日常的に旧仮名遣い・旧字体で書いているひとがこのプログラムを使うとは思えないが.「旧仮名遣い・旧字体初心者」が,より一貫性をもたせたい,不正確な部分を検証したい,などの意図で半完成の旧仮名・旧字体テキストを misima に入力するのだとすれば,もとよりそんな中途半端な旧仮名・旧字体表記の習慣はやめたほうがよい. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
おわりに |
misima には Emacs(Meadow)またはコマンドラインから直接利用できる SOAP Web Service 版もある (2005.8.1 公開). Emacs を愛用する方にとって,使い慣れたエディタ環境で文書を作成しつつ misima を操作できるので,Web ブラウザから使うよりも圧倒的に便利なはずである.これは,上記 Emacs Lisp と使い勝手は同じであるが,ローカルマシンの misima をドライブする後者とは異なり,私のサーバに存する misima に対しネットワーク越しにアクセスする. Java 環境が必要であるが,茶筌,Perl をインストールしなくても misima を利用することができる.詳細は「Emacs から misima を使う」を参照してほしい. misima SOAP Web Service 2.5 は,Emacs/Meadow のほか, Microsoft Word, 秀丸エディタ, Jedit X エディタ,TeXShop TeX 統合環境の各アプリケーション用のクライアントも用意している.これらのソフトウェアで文書作成をしつつ必要なテキスト領域を選択して筆者のサーバの misima 変換サービスを利用することが可能である.弊サイトのダウンロード・サービスで入手できる. このプログラムのそもそもの利用目的は,私自身のモチーフとして,TeX で古風な文書,漢文の引用や多言語/和文混在の文書の作成を効率よく行うことにある.文科系 TeX ユーザの利便性を考慮したつもりである.文学研究論文の作成において,ロシア語をはじめ,西欧古典文献や中国・日本の古典籍等,多様な言語文化を本来の姿で引用し,巧みに計算機で文書化することが,昔からの私の課題であった.計算機の活用がこうした伝統的な印刷術を追い求めるのは皮肉というほかないが,ようやく個人の計算機環境においても一定のレベルで実現できるようになった気がする.この前提として LaTeX のコミュニティで公開されている OTF パッケージや sfkanbun パッケージなどの数多くの優れた業績がある.最後になるが,日頃お世話になっているこれらのパッケージの作者の方々には改めて謝意を申し上げたい. 本プログラムは,日本語形態素解析ソフトウェア『茶筌』の解析結果と,『私の國語敎室』における定式化とに準拠することにより,旧仮名遣い変換を試みたものである.奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座の方々,福田恆存氏のこれら業績に敬意を表したい.一方で,日本語表記の多様さゆえに私自身で茶筌辞書そのものに相当量追加せざるをえなかったり,茶筌の解析結果を「誤解析」として採用しなかった部分もある.また『私の國語敎室』は学問的に完全な定式化とはいえず(ことばは変容していくものなのだから当然である),著者が本則の「例外」としてあげた語彙以上のものを misima 辞書に取り込まなければならなかった.このため変換精度は最終的には misima の責任であり,ユーザ自身で評価いただくしかない. このページそのものを本プログラムで処理した結果を参考までに掲載しておく.ブラウザのフォント環境によっては表示されない文字があるかもしれない.変換例など旧仮名変換したくない部分は <misima_noop> 無変換指定を行っている(本現代仮名遣い・新字体版のソースを見ていただくとよい). |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
参考文献 |
[1]奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
おことわり |
本プログラムは Unicode UTF-8 コードを『今昔文字鏡』の文字番号に変換する機能を有しているが,ここで公開している Web 版ではライセンスの関係で利用できないようになっている.『今昔文字鏡』の文字番号は株式会社大修館書店の刊行する『大漢和辞典』に基づいている. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
利用 |
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
更新履歴 |
|