misima
旧仮名遣い・旧字変換支援プログラム

since Nov. 5 2004
[ 本文書を misima で一括変換した旧仮名・旧字体版 ]
表記法は音にではなく,語に隨ふべし.
— 福田恆存
   
-   はじめに
-   考え方
-   misima の特徴
-   旧仮名遣い変換機能
-   旧字変換機能
-   用字・用語変換機能
-   単純変換機能
-   繰返し符号変換機能
-   仮名反転機能
-   マーキング機能
-   TeX 変換機能
-   無変換指定機能
-   入力テキスト仕様
-   misima 辞書
-   変換仕様
-   旧仮名変換
-   用字・用語変換
-   単純変換
-   注意事項
-   おわりに
-   参考文献
-   おことわり

はじめに

 

misima は新(現代)仮名遣い・新字体による和文テキストを旧(歴史的)仮名遣い・旧字体(正字体)に変換するプログラムである.ヨーロッパ言語,スラヴ語,ギリシア語,タイ語などの多国語文字,漢文を LaTeX 形式に変換する機能も備えている.

能書きはさておき使ってみたい方はすぐさまこちらに.[ 現在,限定公開運用となっております.]
 
  - 簡易オプション高速版を
  - フルオプション版を

misima は Web ブラウザ以外のアプリケーションから直截利用することができる.この場合,Web ブラウザで変換した結果をコピー/ペーストするという面倒な操作を省くことができる.そのためには,misima SOAP Web Service 2.5 パッケージが必要である.misima SOAP Web Service 2.5 が現在サポートしているアプリケーションは以下のとおり:
 
  - UNIX/Windows コマンドライン
  - GNU Emacs/Meadow
  - Microsoft Word 2003
  - Windows 秀丸エディタ
  - Mac OS X Jedit X エディタ
  - Mac OS X TeXShop TeX 統合エディタ

misima SOAP Web Service 2.5 詳細については『misima 旧仮名遣い・旧字変換支援 利用の手引き misima SOAP Web Service Ver. 2.5』(PDF 12.2MB) を参照のこと.

利用に際しては,その運用結果についていかなる意味においても無保証である.ご指摘,ご意見あればメールでいただけるとありがたい.

考え方

 

ときおりインターネットの掲示版などで旧仮名・旧字体の文章を見かける.ところが文章の内容以上に「スタイル」に目がいってしまう.戦前の言語土壌に成る作家の語りでは自然な身振りであるのに対し,正直なところ,こちらは文体の異化作用が際立って偏向を帯びて気味が悪い.これは私の心ない主観・印象ではある.言語現象は本質的に恣意的・流動的である一方,時代・場所・伝統背景にあって価値判断・感情を担っているとすれば,スタイルそのものが限定的な深い意味をもつ.

それにも関わらず,国語国字問題について旧仮名・旧字体の正当性・正統性を主張するひとは少なからずいて,昔からまじめな議論が行われている.真剣な意図のもとに旧仮名・旧字体で書こうと努める若いひともたくさんおり,前言とは矛盾するようだが,国語国字への問題意識において,敬意を表したいのも本心である.

私も荷風や「」外,漱石,芥川はもちろん,三島由紀夫や石川淳が新仮名・新字で印刷されているのにはちょっと閉口するほうである.ま,文庫だからしかたないかと.最近中央公論の古い新書版谷崎潤一郎全集を手に入れ,読むにつけても,旧仮名・旧字体のほうが,作者の言語の自然な呼吸が伝わってくるようで味わい深い.

しかし現実,現代の「普通の」常識的社会人にとっては,新仮名遣い・新字体が知的身体の一部になっており,直接旧仮名・旧字体で国語を記述するのは困難であるし,いまさら乗り換える意味もない.たとえ国語国字改変が多分に政治的なものであり,また性急・暴挙であったとの指摘が歴史の反省として正と判断されるかも知れないにせよ,これが現代日本の文化の辿った歴程であり,広く定着している以上これを否定してもしようがないと考える.(仮名遣い,日本語表記についての私自身の考え方については「misima について」に書いた.)

計算機の世界でも,通常の仮名漢字変換プログラム (IME) では現代の新仮名・新字体国語表記に最適化されており,これに従って文書を作成するのが効率的であるのは当然である.効率を求めることこそ文化的練磨を阻害する,との声も旧仮名・旧字体論者から聞こえてきそうだけど.

ATOK などの IME にも旧仮名・旧字で変換するための辞書があり,インターネット上にも個人による目を見張る辞書の成果も存在するが,先に述べたように私は「普通の社会人」であり,現代仮名遣いが身に染み付いていて,この期に及んで旧仮名・旧字でもって自身の素直な考えや良心を表現する気には,いまのところなりそうにない.

旧仮名・旧字体による文学作品は,こんな私にとっても乱歩の世界のごとき黝く妖しい香気を放つ.とはいえ直接旧仮名・旧字体で記述するには障碍を感ずる.そこで,

明治,大正,昭和の,あるいはさらに時代をさかのぼった日本の古典テクストを,論文などの文書に取り込む (これが主な目的),
丸谷才一氏にならって「ちよつと気取つて」旧仮名・旧字体で文章を作成する,
国語の勉強もたまには...
などなど,

の目的で,自分自身のために,あとづけで旧仮名・旧字体に変換するプログラムを書いてみた.私の戦術は,以上のような次第で,リアルタイムではなくバッチとなった.これなら過去に書いたテキスト・ファイルも取り扱うことができる.

同じようなプログラムがいくつか出回っているが,

それこそ国語国字の伝統文化の観点から問題点をあげつらわれている JIS 第1,2水準の文字コードしかサポートしていなかったり,
旧仮名変換機能において単語の特性を無視して「え」を「へ」に全面的に置き換えるなど,あまりに機械的であったり,

完全は無理にせよもう少しなんとかならないかとの問題意識・関心から,単語の文法解析・辞書に基礎をおいた変換ツールを作ろうと一念発起したわけである.

さらに

私の文房具でもある TeX での文書作成
Web 文書作成

の支援も視野に入れたものにしたいと考えた.とくに TeX OTF パッケージ利用で真価を発揮できるよう設計したつもりである.

計算機で一定の基準に従って一気呵成に変換し,かつ辞書に依存する方式であり,もとよりサラリーマンの日曜大工であってみれば,多様な国語表記を完全無欠に変換するのは無理である.

misima の特徴

 

語の品詞及び活用形を解析した結果で変換判断を行う.「語」の切出しと文法解析のため,日本語形態素解析ソフトウェア『茶筌』を利用する.福田恆存氏の「表記は語に隨ふべし」との言に倣ったつもりである.

UTF-8 コードテキストを入力前提としており,多国語が混在した和文を扱うことができる.出力も UTF-8 である.Web のフォームでは入力の文字コードを意識する必要はないが,旧字体出力結果は Unicode フォントがないと化けてしまうことが想定される.最近のブラウザならまず大丈夫ではないかと思う.ただし,Windows Internet Explorer 6(Microsoft Office を導入したもの:Unicodeフォントが添付されている)はだいたいにおいてうまく出力されるが,「」の旧字体など,人名許容もしくは康煕字典別掲漢字の一部が出力されない.Mac OS X Safari のみが私の知る唯一すべてのテーブル登録旧字体を出力することの可能なブラウザである.

旧字変換において,UTF-8 文字出力だけでなく,TeX OTF パッケージの CID 番号参照形式でも出力できるようにした.OTF パッケージは齋藤修三郎氏の開発した TeX Virtual Fonts とスタイルファイルである.これにより,DTP において利用が進んでいる Adobe-Japan1-5 エンコーディング2万字の広範囲の文字空間から, JIS,Unicode では定義されていない文字(主に異体字)も TeX 文書で使うことが可能となる.OTF を用い,ヒラギノ Pro や小塚 Pro といった Adobe-Japan1-5 対応フォントでタイプセットすると,素晴らしい出力が得られるはずである.

旧仮名遣い・旧字変換のほか,TeX ユーザのために漢文訓読文訓点変換,くノ字点変換や多言語文字 TeX 命令変換をサポートしている.古典・漢文,主要ヨーロッパ言語,古典ギリシア語,スラヴ語の混在した文科系論文を書くにあたって必要と思われる支援を盛り込んだつもりである.

機能

 

利用可能な変換機能を以下に示す.オプションで変換有無を指定できる.純粋に旧仮名遣い・旧字変換のみを望むなら,旧仮名遣い変換機能,旧字変換機能及び単純変換機能をオンにすることを推奨する.用字・用語変換は意図せず仮名が漢字に変換されることもある.いかなる変換も行わない指定も可能であるが,冗談はやめよう.

旧仮名遣い変換機能
新仮名遣い表記を旧仮名(歴史的仮名)遣いに変換する.辞書とシステム内のロジックにより実行する.

旧字変換機能
新字・略字を旧字(正字)に変換する.ひとつの新字を複数の旧字で書き分ける場合があるが,本機能では一対一で定義した辞書に依存する.旧字を意味によって出力し分けたい場合は,用字・用語変換機能を利用する.出力形態は以下のいずれかを選択できる.

  出力形態   内容
  UTF-8 文字   UTF-8 エンコードで旧字を出力する.
  JIS 内文字   JIS 第一・第二水準の範囲内で旧字に変換し出力する.
  HTML 数値参照   "" 形式で旧字を出力する.FFFF は十六進数.
  TeX OTF UCS
十六進数値参照
  "\UTF{FFFF}" 形式で旧字を出力する.FFFF は十六進数.
  TeX OTF CID
数値参照
  "\CID{99999}" 形式で旧字を出力する.99999 は十進数.
  TeX 今昔文字鏡
番号参照 (*)
  "\TMO{999999}" 形式で旧字を出力する.999999 は十進数.\TMO 部分はユーザが定義で変更できる.
(*)本サイトで公開する misima フォームでは,今昔文字鏡番号変換機能はライセンスの関係で使用できません.

用字・用語変換機能
明治,大正,昭和の文章には,「退廃」を「頽廢」と書くなど,現在とは異なる表記を行う語がある.時代や書き手の属する階層などの状況により一筋縄では行かないが,こうした用字・用語を辞書定義に従って変換する機能をサポートしている.「ドイツ」を「獨逸」と変換するなど「余計なお世話」,と思われる方は機能をオフにしていただきたい.

単純変換機能
旧仮名遣い変換,用字・用語変換は茶筌の単語分割・品詞解析に依存する.これに対し単純変換は,茶筌の形態素解析結果に因らず,強制的に文字列を置き換える.マーキングの対象外である.Web フォームでは,旧仮名遣い変換機能または旧字変換機能が指定されていると,単純変換機能もオンに設定されるようになっている.

繰返し符号変換機能
茶筌の単語分割・品詞解析に基づいて,同一語において同じ平仮名,片仮名,漢字が連続するとき二つ目の文字を文字種によってそれぞれ「ゝゞ」「ヽヾ」(以上一ツ点)「々」(同ノ字点)に変換する.マーキングの対象外である.

半濁音(ぱぴぷぺぽパピプペポ)は変換対象外である.

語頭に濁音をもつ場合(「ぢぢ」)の繰返し部は「ゝ」とする.

文献[6]「おどり字法案」の基準を参考とし,原則として語の境界を越えて適用はしない.しかしながら,本法案はあまりにも曖昧であり計算機処理上明確に判断基準とできる性質のものではなく,この要因はそもそも「くりかえし符号」の使い方そのものが実表記において統一性を欠いているからにほかならない.議論の余地はあると思うが,本システムでは以下の例外を採用している.

一語でも固有名詞及び,日本語として一般化した片仮名のみからなる名詞(「ママ」など)には適用しない.

また,以下のパターンについては語の境界を越えて適用する.
- 動詞連用形+「て」[助詞-接続助詞]:「立て+て」パターン
- 名詞(-地域)+名詞(-地域): 多く「〜町+町内」パターン
- 〜と[助詞-格助詞](する)(「〜などという」の「と」[助詞-格助詞-引用]は適用外)
- 〜ででも:「〜でゝも」
- 〜の[助詞-連体化]+名詞:「をの(斧)の刃」パターン (「をのの壞れるのは悲しい」の最初の「の」[助詞-格助詞] は適用外)

例:「やや」「ぢぢ」「益益」「ただただ」⇒「やゝ」「ぢゝ」「益々」「たゞゝゞ」
  「ばば[婆]はハハハと笑った」⇒「ばゝはハヽヽと笑つた」
  「パパとママ」⇒「パパとママ」

「々」文字を「〻(ゆすり点)」にしたければ misima 辞書単純変換定義に登録すればよい.

仮名反転機能
同じ平仮名と片仮名を相互で反転する.通常の平仮名・漢字を主とする文章を,谷崎潤一郎の『鍵』や古い法律文のような片仮名主体の表記にする.「ヷ」「ヸ」「ヹ」「ヺ」は「ゔぁ」「ゔぃ」「ゔぇ」「ゔぉ」に変換する.マーキングの対象外である.
例:「これはペンです」⇒「コレハぺんデス」

マーキング機能
オプション指定により,変換部分のマーキングを行う.辞書変換,旧仮名遣いロジック変換それぞれ個別にマーキングできる.変換部分を囲む HTML タグまたは TeX 制御綴はユーザが定義できる.これは,利用者がシステムによる変換結果を,ブラウザや TeX 組版結果ビューアで容易に確認できることを目的としている.ただし HTML タグはセキュリティ上,"&lt;","&gt;" に置換して出力するので,出力効果の確認は実際に表示させる HTML にそれぞれ "<",">" で埋め込んでいただく必要がある.

TeX 変換機能
以下の機能を選択できる.多言語ならびに縦組和文・漢文を組版したい TeX Babel パッケージや OTF パッケージ,sfkanbun 漢文パッケージ・ユーザの支援を目的としている.

  機能   概要
  多言語文字
変換
  - TeX Babel パッケージ,OTF パッケージの利用を想定して,スラヴ語,ギリシア語(古典・現代),ラテン文字言語,日本語,韓国語の文字(UTF-8エンコード)を,pTeX で扱える文字もしくは命令(コントロール・シーケンス)に変換する.多言語文字,Unicode 漢字を用いて TeX 文書を直接記述し,本機能で変換した後に SJIS,JIS もしくは EUC のテキストとして保存すれば,pTeX でコンパイル可能となる.[多言語変換標準オプション]
- 欧文は Unicode Cyrillic U+0400​-​U+04FF,Greek U+0370​-​U+03FF(ただしコプト語は除く),Greek Extended U+1F00​-​U+1FFF(古典ギリシア語),Latin-1(フランス語,ドイツ語などの西欧,北欧語),Latin-2(ポーランド語,ハンガリー語などの東欧語)の範囲で変換する.
- 変換後のエンコーディングは,スラヴ語は主に OT2 で,教会スラヴ語,辺境キリル言語など一部 T2A T2B T2C T2D の場合がある.ギリシア語は基本 Babel LGR エンコーディングであるが,一部 Teubner パッケージの命令に準拠したものもある.Latin は T1 エンコーディングに準拠した.
- TeX のフォント選択命令,言語環境(\selectlanguage​{russian}​, \fontencoding 等)はユーザで指定する必要がある.変換対象はあくまでも文字に限定される.
- JIS X 0208 範囲外の Unicode CJK 統合漢字を \UTFM​{UCS2コード} に変換する.中国語繁體字,簡体字もこの範囲であり,\UTFM 命令は,日本語にグリフがなく繁體字,簡体字,ハングルにあればそのグリフを選択してくれる.[多言語変換標準オプション]
- Unicode ハングルと判断できるコード範囲の文字は \UTFK{USC2コード} に変換する.[多言語変換標準オプション]
- Unicode CJK 統合漢字を指定に応じて \UTFC(簡体字\UTFT(繁體字)\UTFK(韓国語)の OTF シーケンスに変換する.これを指定すると,原則すべての漢字に適用される.[中韓漢字変換オプション]
- <misima_cjk_x> タグで中韓の OTF シーケンスを前記オプションによらず切替えることができる.</misima_cjk> が現れると元の変換基準に復帰する.一部は簡体字,一部は日本語で出力仕分けたいときに使う.Unicode CJK 統合漢字は包摂で日本語/中国語/韓国語で微妙に字体の異なる表記を同じコードに帰してしまうが,OTF シーケンスを用いることにより各国語の字体を表現できる.<misima_cjk_x> </misima_cjk> タグは出力されない.[多言語変換標準オプション]
- \UTFM \UTFK \UTFC \UTFT は OTF パッケージ multi オプション指定時に利用できるコントロール・シーケンスである.
- 「吉,高,崎,碕,浜・濱,角,第,間」の各文字に「」を前置すると,それぞれ「上部が土の吉(吉野屋)」,「梯子高(髙島屋)」,「立つの崎」,「立つの碕」,「まゆ浜」,「縦線が下に突き出た角」,「第の俗字」,「閒(内田百閒)」の CID 数値参照に変換する.[多言語変換標準オプション]
- タイ語を pTeX で処理するために,Unicode タイ語テキストを TIS-620 に変換し,タイ語単語境界 {\wbr} を挿入し,さらに「^^十六進数」形式に変換する.「^^十六進数」に変換するのは日本語以外の8ビットコードではエラーとなる pTeX でもこの形式だと受け付けるためである.[多言語変換タイ語拡張オプション]
- キリル文字を T2A コントロールシーケンスで出力する.[多言語変換キリルT2A拡張オプション]
- ヴェトナム語,グルジア語テキストをそれぞれ VnTeX,mxedruli パッケージで処理できる形式に変換する.[多言語変換VG拡張オプション]
- <misima_t2a> タグと </misima_t2a> タグの間のキリル文字を,キリル T2A 拡張オプション指定によらず T2A シンボルに変換することができる.<misima_t2a> </misima_t2a> タグは出力されない.[多言語変換標準オプション]
- <misima_ocs> タグと </misima_ocs> タグの間のテキストを,OldSlav 教会スラヴ語シンボルに変換することができる.SlavTeX の記法で教会スラヴ語テキストを記述する.<misima_ocs> </misima_ocs> タグは出力されない.[多言語変換標準オプション]
- TeX 多言語変換オプションを選択すると,ユーザが旧字変換において「UTF-8 文字出力」または「HTML 数値参照」を指定したとしても「TeX OTF CID 数値参照」で旧字変換を行う.
- 上記変換仕様は「UTF-8 による TeX 文書の作成」で示すものと,制御タグ仕様を除き同一である.
- <misima_noop> タグで囲まれた範囲であっても,TeX 多言語文字強制変換が指定されていると変換対象とする.[多言語変換強制オプション]
  漢文訓点
変換
  - 藤田眞作氏が公開している TeX 漢文訓読文訓点組版スタイル sfkanbun.sty に準拠したフォーマットに,ベタの文字列を整形する.
- 漢字[読み(平仮名)][送仮名右(片仮名)][返点(英数字)][送仮名左(片仮名)][句読点]([ ]内は省略可能であることを示す.[ ]そのものは記述しない)の形式からなるベタのテキストを
   \kundoku{漢字}{[読み]}{[送仮名右]}{[返点]}<[送仮名左]>([句読点])
に変換する.送仮名や返点の漢文訓点表示のシーケンス・イメージをそのまま書いていけばよいのではないかと思う.sfkanbun.sty を使い慣れた方には逆に面倒かもしれないが.
- 変換例を示す.LaTeX sfkanbun パッケージ及び OTF パッケージで組版すると右図のとおりになるだろう.
(前)子曰ハク,盍なんゾ3ルト各々言ハ2爾なんぢノ志ヲ1.
(後)子\kundoku{曰}{}{ハク}{}(、)\kundoku{盍}{なん}{ゾ}{三}<ルト>各\ninojiten\kundoku{言}{}{ハ}{二}\kundoku{爾}{なんぢ}{ノ}{}\kundoku{志}{}{ヲ}{一}(。)%
以下仕様についてしるす.
- 「読み」,「送仮名左」,「返点」のいずれかが指定されない場合(これは仮名などの文字種で判断している)は { } 内は空で整形する.いずれも指定されない場合はフォーマット変換せず「漢字」のみをそのまま出力する.従って「漢字」と「句読点」のみが連続する間は「漢字」「句読点」のみ出力される.
- 「送仮名左」,「句読点」が指定されない場合,括弧 < > ( ) も含め出力しない.
- 「漢字」には括弧: 「」『』【】が含まれる.
- 「漢字」に続いて片仮名がくると「送仮名右」と判断する.「送仮名左」のみを指定することはできない.そもそも「送仮名左」は再読文字に送るものであり,漢字に続いて「送仮名左」のみが指定されることはないはずである.
- 「返点」は,1(一)〜5(五),J(上)C(中)G(下),K(甲)O(乙)H(丙),T(天)I(地)N(人),R(レ)のように英数字(半角全角,大文字小文字いずれも可)で指定する.変換後は( )内に置き換わる.「1R」,「JR」 と指定するとそれぞれ \itireten(一とレの接合したもの),\uereten(上とレの接合したもの) に変換する.
- 「返点」に単独でもしくは上記返点に続けて「-(ハイフン)」または「ー(長音)」を記述すると,音号符に変換する.音号符とは,漢文訓読文のいわゆる熟語の字間に置く「-」のような訓点である.「R」(レ点)とは混在できない.単独で「-」 が指定されると \ongofuno に,「2-」,「G-」と指定されるとそれぞれ \ongofuni,\ongofuge に変換する.
- 「各々」における「々」は \ninojiten に変換する.
- 句読点は「,.、。」が記述できる.「,.」が指定された場合「、。」に変換する.
- 行末に % を出力する.
- TeX 漢文訓点変換オプションを指定した上,さらに変換したいテキスト範囲を,<misima_kanbun> 開始タグ</misima_kanbun> 終了タグで囲む必要がある.このタグは制御用であり,TeX 漢文訓点変換を指定した場合,処理結果には出力されない.TeX 変換指定のない場合はタグをそのまま出力する.それ以外は <(/)misima_kanbun> タグ中の「_」を「\_」に変えて出力する(TeX で処理することを考慮したため).
- <misima_kanbun> 範囲内では旧仮名変換処理,用字・用語変換,単純変換,繰返し符号変換,仮名反転処理は行わない.
  くノ字点
変換
  - TeX OTF パッケージでは縦組和文において「くノ字点濁点無(\ajKunoji)」及び「くノ字点濁点付(\ajDKunoji)」を出力する命令がサポートされている.本オプションは入力テキスト中の「そろそろ」「それぞれ」などの繰返し表現を自動的に「そろ\ajKunoji{}」「それ\ajDKunoji{}」などに変換する.
- 変換対象は,繰返される文字列に平仮名,片仮名が一文字以上含まれる繰返し表現である.
- 茶筌解析の結果で同一語の範囲内で変換を行う.たとえば「つるつるかめかめ」は,「つるつる」という表現は茶筌辞書に語として存在し変換対象となるが,「かめかめ」は「かめ(亀)かめ(噛め)」と二語で解析されるため変換されない.結果は「つる\ajKunoji{}かめかめ」となる.
- 同一文字が連続するもの(「ハハハハハ」等)は変換対象としない.別の繰返し符号変換機能によって「ハヽヽヽヽ」とすることができる.
- 原則として,変換対象は必ず平仮名,片仮名が含まれる繰返し表現である.漢字のみのものは対象としない.当然ながら英数字・記号文字列も変換対象とはならない.「不承不承」は例外である.
- 先頭に漢字がくるものは繰返し部の読みの清濁が判断できないため,原則「くノ字点濁点無」に変換する.「散り散り」など繰返し部で濁る表現は「くノ字点濁点付」とすべきであるが,茶筌辞書に登録されている語(「重ね重ね」「返す返す」「不承不承」「代る代る」)及び,「散り散り」「冴え冴え」「懲り懲り」「沁み沁み」など私の思い当たるいくつかは正しく変換されるようになっている.これ以外は手修正するか単純変換定義などで救うしかない.
- 本変換処理は,別に支援する繰返し符号変換処理に先立って実行される.よって両機能をともに指定した場合,「ただただ」は「たゞ\ajKunoji{}」となる.
- OTF パッケージでくノ字点「うろ\ajKunoji{}きょろ\ajKunoji{}」を組版すると右のとおりとなる.

本機能の TeX 出力結果の全範囲を LaTeX で処理するためには,以下の各 LaTeX パッケージが必要である.「LaTeX 標準」としたものは teTeX をインストールすれば標準で組み込まれるものである.

  - OTF(和文 OpenType 処理)
  - Babel(マルチリンガル,LaTeX 標準)
  - Cyrillic バンドル(OT2,T2A〜T2C エンコーディングサポート,LaTeX 標準)
  - Unicode(Cyrillic T2D エンコーディングサポート)
  - Teubner(ギリシア古典文献処理)
  - ThaiLaTeX(タイ語)
  - VnTeX(ヴェトナム語)
  - mxedruli(グルジア語)
  - sfkanbun(漢文訓点)
  - SlavTeX, OldSlav(教会スラヴ語)
  - Marvosym(記号)
  - Textcomp(記号,LaTeX 標準)

TeX 原稿サンプル(HTML 形式及び TeX ファイル)と,これを misima で変換し TeX OTF パッケージその他で処理した結果 PDF ファイルを掲載しておく.TeX 原稿は UTF-8 テキストなので閲覧するには Unicode フォントが必要である.また,misima を利用した TeX 変換機能の利用については,『misima TeX 変換の活用』も参照いただきたい.

無変換指定機能
<misima_noop> 制御タグと </misima_noop> 制御タグでテキストを囲むと,当該テキストを変換対象としない.この制御タグは出力されない.ただし,TeX 多言語文字強制変換を指定した場合は,タグ範囲内でも多言語文字変換処理を行う.HTML 原文に指定しても未サポートのタグとして扱われるため影響はないはずである.旧仮名変換等茶筌辞書に依存する変換を文中の一部のみ抑止したい場合,語の切れ目などを考慮してタグを付与しないと,茶筌が誤解析をしてしまう可能性がある.文・節の切れ目の単位で指定することを推奨する.

入力テキスト仕様

 

処理対象となるデータは Unicode UTF-8 でエンコードされた電子テキストとする.辞書も同様である.

旧仮名遣い変換を指定する場合,入力テキストは現代仮名遣い,新字正則テキストでなければならない.旧仮名遣い,旧字,片仮名で入力すると茶筌が誤解析を行い,正しく処理できない.

ロシア語等外国語は,茶筌では一文字ごとに分割されて,記号もしくは名詞の一種として扱われる.本プログラムでは,TeX 多言語文字変換指定がない限り,そのまま出力する.

空白文字(スペース,タブ)で区切られた文字列単位または行単位で処理を行う.よって文の途中でスペースや改行が入る場合,その位置によっては,茶筌の形態素解析が失敗して思った変換ができない可能性がある.とくに HTML などマークアップされたテキストを直接処理するときは注意が必要である.

形態素解析の関係上,連続する空白文字はスペース一個に置き換える.

misima 辞書

 

旧仮名遣い変換,用字・用語変換,旧字変換,単純変換及び TeX 多言語文字変換は,辞書に依存する.辞書は,私が準備した必須のシステム辞書と,利用者が独自に定義できるユーザ辞書から成る.ユーザ辞書を優先的に参照する.システム辞書もユーザ辞書もフォーマットは同一であり,定義できる内容にも差異はない.ユーザ辞書は任意であり,なくてもよい.

辞書は旧仮名変換定義,旧字変換定義,用字・用語変換定義,単純変換定義,TeX 文字変換定義,TeX 異体字文字変換定義から成る.

ユーザ辞書は旧仮名変換定義,旧字変換定義,用字・用語変換定義,単純変換定義について可能である. TeX 文字変換定義,TeX 異体字文字変換定義について独自の変換規則を追加したい場合,拡張変換表を作成する.拡張変換表は, misima-2.3 パッケージでローカルにインストールした場合においてのみ定義可能である.標準では /usr/​local/​etc/​misima/​contrib ディレクトリ下に下記仕様に基づくテキストファイルとして格納する.

旧字変換定義
新字とこれに対する旧字を定義する.一新字に複数の旧字が対応する場合があるが,システム辞書では私の好みで特定の文字に割当てている.必要に応じユーザ辞書で利用者が定義する.

システム辞書における旧字変換対象文字は文献[4]を参考にした.悪名高い JIS 83 年版で新字体に置き換えられてしまった文字(森鷗(鴎)外の「鷗(鴎)」などのいわゆる拡張新字体:丙種・包摂漢字)や Windows JIS 外字(「敎」,「淸」など)も適宜組み入れた.新字—旧字対応表を参照いただきたい.また登録文字は表示テストページで確認できる.

旧字変換の結果は,TeX OTF パッケージ CID 番号参照がもっとも充実している.UTF-8,JIS 第3/4水準にない異体字も登録している.「近」のしんにょうが二点付きのもの,「唐」の縦線が「口」にめがけて突き出た文字など,古風な異体字を私の判断で拾っている.

フォーマット:s 新字 旧字#FFFF#99999#999999

  • 新字旧字はそれぞれ一文字のキャラクタである.#以降は HTML 数値参照等のための情報で,記述は任意である.省略した場合,変換指定が HTML 数値参照であってもキャラクタ(旧字)に変換する.
  • 第1エリア(#FFFF)は旧字として UCS2 コード(いわゆる Unicode コードポイント)を十六進数4桁で記述する.旧字変換における HTML 数値参照及び TeX OTF UCS 十六進数値参照で利用される.
  • 第2エリア(#99999)は Adobe-Japan1-5 の CID 番号を十進数で指定する.TeX OTF CID 数値参照で利用される.
  • 第3エリア(#999999)は今昔文字鏡番号を十進数で指定する.TeX 今昔文字鏡番号参照で利用される.
  • 第1〜3エリアにおいて 0(#0)が指定された場合は,たとえば TeX 今昔文字鏡番号変換指定を行ったとしても,0 参照(\TMO{0})ではなくキャラクタ(旧字)に変換する.
s 悦 悅#6085#8455#010629
  • 変換指定が UTF-8 文字のとき,に変換する.
  • 変換指定が JIS 内文字のとき,のまま残す.は JIS 第一・第二水準にはないため.
  • 変換指定が HTML 数値参照のとき,&#x6085 に変換する.
  • 変換指定が TeX OTF UCS 十六進数値参照のとき,\UTF{6085} に変換する.
  • 変換指定が TeX OTF CID 数値参照のとき,\CID{8455} に変換する.
  • 変換指定が TeX 今昔文字鏡番号参照のとき,\TMO{010629} に変換する.

旧仮名変換定義
辞書旧仮名定義は主に,処理方式の説明で述べる本則から外れる例外表記のデータベースと考えてよい.2005.5.13 辞書 Ver.1.0 では旧仮名定義は約 4,500 語が登録されている.これは,茶筌辞書 ipadic 2.7.0 の固有名詞以外の語から,本則の適用できないものをツールで抽出し,手作業で修正・登録したものである.表記は文献[5]を参照した.システム・ロジックでは字音仮名遣いはとくに考慮していないが,茶筌辞書に登録された平仮名表記の漢語で「わいうえお」(語中・語末)または「ずじ」が含まれるものは,私が妥当と思われる表記を選択的に定義している.たとえば,「しょうとう」は「しやうたう(正当)」「しやうとう(正統,掌灯)」「しようとう(昇騰)」「しようたう(松濤)」などがあるが,「せうとう(消灯)」に変換されるはずである.

旧仮名変換定義は,動詞,形容詞,助動詞については基本形(終止形)で登録する.

フォーマット:k 9新仮名 旧仮名

対象テキスト(語・出現形)の基本形にマッチした新仮名を,旧仮名に置換する.以下「登録語」とは,旧仮名に指定しているような,変換後の単語を示す.活用する品詞(動詞,形容詞,助動詞)はシステムで語幹部分を判断して置換する.ユーザ辞書で名詞,動詞,形容詞,副詞以外を定義することはあまりないと思う. 9新仮名のうち 9 は品詞コードである.0~9 までの数字で指定する.品詞分類の考え方は茶筌に準ずる.

品詞コード
品詞
0名詞
1動詞
2形容詞
3副詞
4連体詞
5接頭詞
6接続詞
7助詞
8助動詞
9感動詞その他
k 0おとこ をとこ
  k 1あおぐ あふぐ
  k 2すえおそろしい すゑおそろしい

用字・用語変換定義
用字・用語定義は,旧仮名・旧字で書かれた古い文章に特徴的に現れる表記を個別に設定し,独立して変換できるようにするものである.定義に依存して,たとえば「イングランド」を「英蘭」,「いわゆる」を「所謂」,「愛欲」を「愛慾」に置き換える.表記を古風にしたいときに使う.旧字変換はこれとは独立して行うので,必ずしも旧字で定義する必要はない.「辨別」「辯護」のように「弁」の旧字変換を区別したいときは旧字で定義しておく(この2語はシステム辞書に登録してある).

フォーマット:y 変換前 変換後

対象テキスト(語)の変換前変換後に置換する.品詞に依存せず,また語幹の判断をせず置換するため,原則,活用しない品詞の単語を指定する.

y 画期的 劃期的
  y 兄嫁 嫂
  y エジプト 埃及

単純変換定義
単純変換定義は,茶筌の解析がどうもうまく行かない,なにをおいても置き換えたい場合の補正のために設けている.語の統一にも利用できると思うが,もっぱら旧仮名遣い変換,旧字変換と同時に指定すべき補足機能であり,単独でオンにしても目的に適わないと考えたほうがよい.処理の最後で繰返し符号変換を実施する前に,定義に従って差し換える.マーキングの対象外である.

フォーマット:t 変換前 変換後

対象テキスト断片の変換前に完全一致する文字列を変換後に置換する.茶筌が分割した語に依存せず置換する.

t 缺伸 欠伸 旧字変換で一律変換されてしまう.これを補正し,本来の欠伸とする.
 t 高島屋 髙島屋 茶筌が高島屋高島に分割しても髙島屋に変換する.
 t づ仕舞ひ ず仕舞ひ   旧仮名遣い変換で誤って [やら]づ仕舞ひとしたものを [やら]ず仕舞ひに補正する.
  t 々 〻 同ノ字点(ゆすり点)に変換する(これはシステム辞書には登録されてはいない).

TeX 文字変換定義
TeX 多言語文字変換機能で利用する.UTF-8 文字に対して変換したい TeX 文字/命令(コントロール・シーケンス)を指定する.マーキングの対象外である.

フォーマット:e 変換前 変換後

対象テキストの変換前の文字を変換後に置換する.以下の例はシステム辞書に登録されているものから示している.

e Ж ZH ロシア文字 ЖZH に変換する.
  e ᾒ >`h| 古典ギリシア文字 (無気気息記号/重アクセント/下書きのイオタ付きエータ η )を >`h| に変換する.
  e € \EURtm{}   (ユーロ記号)を \EURtm{} に変換する.\EUR{},\EURcr{} などにしたい場合はユーザ辞書として再定義いただきたい.

TeX 異体字文字変換定義
TeX 多言語文字変換機能では「▼」を前置した文字を,登録した異体字(CID数値参照形式)で出力することができる.TeX 異体字文字変換定義は独自に異体字を登録するためのものである.マーキングの対象外である.

フォーマット:c 変換前 変換後

対象テキストの変換前の文字が「▼」の直後に指定されたとき,▼変換前変換後に置換する.仮に本異体字文字変換定義に登録されていない文字に対し「▼」が前置されていた場合,▼は通常の文字として扱い,削除されない.以下の例はシステム辞書に登録されているものから示している.

c 吉 \CID{13706}   ▼吉\CID{13706} に変換する.\CID{13706} を TeX OTF パッケージで出力すると,いわゆる「土吉」(吉野屋の吉)が得られる.

misima 辞書登録時の注意事項
旧仮名変換及び用字・用語変換における misima 辞書検索は茶筌によって分割された語で行う.ipadic(茶筌辞書)にない語は,単語として切り出されず,思わぬ語分割がされることがあり,よって misima 辞書への登録が無意味であることに注意すべきである.このような場合,語分割に依存しない単純変換定義を活用する.本システムでは,旧仮名遣い変換に際して必要と思われる語彙を茶筌辞書にも追加登録してチューニングしている.

misima は同一バッファのテキストに対し数種の変換を一定のシーケンスに従って行う.そのつど変換を受けると辞書に登録しても無意味となる可能性がある.たとえば,仮に旧仮名遣い変換で「あい」が「あゐ」に変換された後では,単純変換定義で「あい⇒あひ」と登録しても「あひ」が得られることは永劫にない.各種変換有無を選択できることが事情をさらに複雑にしている.システム辞書ではこのチューニングを行っているが,ユーザ辞書を追加する際は注意すべきである.今後のシステムの課題であると考える.

変換仕様

 

語の解析
あらゆる変換処理に先立って misima は,対象テキストを日本語形態素解析ソフトウェアである『茶筌』 Version 2.3.3 に委ねる.茶筌は日本語テキストに対し,辞書『ipadic』 Version 2.7.0 に基づいて形態素解析を行い,単語に分割し,出現語の基本形/品詞/活用情報を misima に返却する.misima は原則として切り出された単語情報ごとに変換操作を行う.

変換処理シーケンス
各種変換処理は以下の順番で行う.ユーザが機能選択をオフにした場合,当該処理はスキップする.
  (1) TeX 漢文訓点変換
  (2) 用字・用語変換
  (3) 旧仮名変換
  (4) TeX くノ字点変換
  (5) 旧字変換
  (6) 繰返し符号変換
  (7) 単純変換
  (8) TeX 多言語文字変換
  (9) 仮名反転変換

旧仮名変換

 

旧仮名変換は misima 辞書に従うか,もしくは旧仮名遣いの規則(「本則」と呼ぶ)に基づく.

辞書変換
茶筌解析情報から品詞コード+基本形で misima 辞書旧仮名変換定義テーブルを検索する.ヒットしたとき,以下のとおり変換する.ヒットしないとき,本則変換を行う.なお,基本形とは活用する品詞では終止形と等価であり,名詞など活用しないケースでは出現形に等しい.

動詞 出現形が基本形と一致しないとき語幹部分を登録語の語幹部分で置換する.
出現形:植え[て];基本形:植える;登録語:植ゑる
  植え[て]を植ゑ[て]に置換する.
形容詞
/助動詞
出現形が基本形と一致しないとき登録語末尾「い」前で置換する.
出現形:こうごうしかっ[た];基本形:こうごうしい;登録語:かうがうしい
  こうごうし(かっ)[た]をかうがうし(かっ)[た]に置換する.
その他 出現形を登録語で置換する.
不めいりょう[な]を不めいれう[な]に置換する.

本則変換
本則は原則的に,福田恆存著『私の國語敎室』(文献[3])での基準を適用する.「わいうえお」「じ」「ず」を「はひふへほ」「ぢ」「づ」に置換する,あるいは置換しない規則である.説明のなかで用いている「動詞 五段・カ行イ音便」等の用語は茶筌及び ipadic の分類である.詳細は文献[2]を参照のこと.

  文字   本則変換仕様
    (1) 語中・語末では「は」に置換する.語頭では置換しない.
     (2) 語中・語末でも「」とすべきものは辞書に登録されるものとする:
 あわてる,いわし,etc.
    (1) 語中・語末では「ひ」に置換する.語頭では置換しない.
     (2) 形容詞のとき語末の「」は置換しない.
     (3) 動詞 五段・カ行イ音便のとき語末の「」は置換しない:
 「突い(五段・カ行イ音便)-て」
     (4) 動詞 五段・ガ行のとき語末の「」は置換しない:
 「急い(五段・ガ行)-で」
     (5) 五段・ラ行特殊のとき「」は置換しない:
 「ください(五段・ラ行特殊 連用)-ます」
     (6) 助動詞 形容詞・イ段のとき「」は置換しない.
     (7) 助動詞 特殊・ナイのとき「」は置換しない
     (8) 助動詞 特殊・タイのとき「」は置換しない
     (9) その他語中・語末で「」とすべきものは辞書に登録されるものとする:
 さいはひ,etc.
     (10) 「ゐ」に変換すべき語は辞書に登録されるものとする.
    (1) 語中・語末では「ふ」に置換する.語頭では置換しない.
     (2) 動詞ウ音便・形容詞のとき語末の「」は置換しない:
 「問う(五段・ワ行ウ音便)-て」
     (3) 名詞-非自立-助動詞語幹 よう[な]の「」は置換せずやう[な]とする.
     (4) 名詞-接尾-助動詞語幹 そう[な]の「」は置換せずさう[な]とする.
     (5) その他語中・語末で「」とすべきものは辞書に登録されるものとする:
 はうき,かうじ,etc.
    (1) 語中・語末では「へ」に置換する.語頭では置換しない.
     (2) 語中・語末でも「」とすべきものは辞書に登録されるものとする:
 おぼえ,もえぎ,etc.
     (3) 「ゑ」に変換すべき語は辞書に登録されるものとする.
    (1) 語中・語末では「ほ」に置換する.語頭では置換しない.
     (2) 語中・語末でも「」とすべきものは辞書に登録されるものとする:
 はおり,物おぢ,etc.
     (3) 「を」に変換すべき語は辞書に登録されるものとする.
    (1) 「ぢ」に置換する.
     (2) 感じる(一段)」など基本形で じる,基本形以外語末 のとき,「じる」「じ」を「ずる」にして茶筌形態素解析を行い,「サ変・ズル 基本型」で返される場合は「ぢ」としない:
 信じる,甘んじる,etc.
     (3) すさまじい(形容詞・イ段)」型の「じ」は「ぢ」としない.
     (4) 上記以外で「」とすべき語は辞書に登録されるものとする.
    (1) 「づ」に置換する.
     (2) 感ずる(サ変・−ズル)」の「ず」は「づ」としない
     (3) 助動詞 特殊・ヌ の「」は「づ」としない.
     (4) 上記以外で「」とすべき語は辞書に登録されるものとする.「負けず嫌い」など一語で定着している(正確には茶筌辞書(ipadic)に一語として登録されている)名詞の「」は,助動詞 特殊・ヌ の「」に由来するものとは判断できないため辞書に登録すべきである.
  のう  (1) せつのう[ございます]」などののうなうに置換する.これは茶筌の誤解析への対応であり,「の」(助詞-連体化) 「」(感動詞) が連続するとき,「ナイ形容詞」ウ音便と同等と判断する.
  とう  (1) 行きとう[ございます]」などのとうたう置換する.これは茶筌の誤解析への対応であり,動詞連用形に「とう」(副詞-助詞類接続) が連続するとき行う.

品詞依存処理
辞書変換,本則変換に係りなく,品詞解析結果に基づき以下の変換を行う.

(助)動詞 未然ウ接続 または助動詞 特殊・ダ 未然(だろ[う])のとき,末尾の「」行文字を「あ」行文字に置換する.ただし「や」行の場合を除く.
  言 ⇒ 言ほう ⇒ 言
    行 ⇒ 行
    だ ⇒ だ
    見 ⇒ 見う(置換しない)
    し ⇒ しう(置換しない)
形容詞 連用ゴザイ接続 のとき,「しゅう」「じゅう」をそれぞれ「しう」「じう」に置換する.
  美しゅう[ございます] ⇒ 美しう
    すさまじゅう[ございます] ⇒ すさまじう
助動詞 特殊・デス 未然形「でしょ[う]」,特殊・マス 未然ウ接続「ましょ[う]」をそれぞれ「でせ[う]」「ませ[う]」に置換する.

拗音・促音変換処理
拗音・促音「ゃゅょっャュョッ」を「やゆよつヤユヨツ」に置換する.ただし片仮名のみからなる名詞は対象としない.

用字・用語変換

 

茶筌解析結果の語基本形で misima 辞書用字・用語変換定義テーブルを検索する.ヒットしたとき登録語で置換する.ヒットしないときなにもしない.

単純変換

 

対象テキスト行単位でテキスト断片が misima 辞書単純変換定義に一致するとき登録テキスト断片で置換する.

注意事項

 

本プログラムは,計算機による機械的解析に基づく以上,制約,限界がある.ある程度の分量の文章に適用すると,変換誤りが含まれるものと思ったほうがよい.重要な文書に対しご利用になる場合には,必ず自分の目で変換結果をご確認いただきたい.

辞書に定義されていないパターンはうまく置換できない場合がある.システム辞書はまだ登録語数が少ない.順次拡張していくつもりである.変換結果を評価してユーザで追加いただきたい.とりわけ動詞が名詞化した語に弱い.「負けず嫌い」などは一語として扱われるため,「」は否定の「ぬ」に由来することが茶筌の解析では判断できず,本則に従って「づ」に置換されてしまう場合がある(「負けず嫌い」そのものは辞書に登録してある).

漢字の音読みについて,現代仮名遣いで「しょう」と書かれても,旧仮名では「しよう(松)」なのか「しやう(声)」なのか「せう(小)」なのかはたまた「せふ(妾)」なのか,判断できないことが多い.ある程度漢字仮名混じりの和文でないと,人間が見ても難しいものがある.ましてや機械は追従できない.これらいわゆる字音仮名遣いは本システムではとくに配慮していない.辞書で一律置き換えることは可能であるが,意図せずして変換される副作用も考慮すべきである.misima 辞書では茶筌に平仮名で登録された漢語の一部を定義しているが,私の独断で特定しているので意図と合致するか利用者にて結果を確認する必要がある.いずれにせよ,漢語は漢字で入力するのが基本と考えていただきたい.

旧仮名変換解析の前提となっている茶筌そのものが形態素解析に失敗するために,適切に変換されない場合がある.これは対象の日本語が曖昧か,不適切であるか,もしくは語義の特定において文脈に著しく依存するケースが多い.ちょっとした脱字のために著しく語分割が変わってしまうことがままある.日本語が曖昧な場合の例では,「おう.」というテキストは,返事の「おう」と動詞「追う」終止形のどちらかは判断できない.前者が明快に感動詞と解析できれば「おう」と「おふ」を弁別することができるが,茶筌がそこまで解析できない.この場合は,本プログラムは本則に従って「おふ」(「追ふ」「負ふ」...)にたおす.「すえる」に対し,「饐えた臭い」の「すえる」よりも「腰を据える」の「すえる」のほうをより一般的と解し,システム辞書で「すゑる」に変換するような場合もある.

本システムは文脈を判断できない.日本語は省略の許容範囲が広く,文脈で一貫性・論理性を確保する傾向が強いと思う.表現そのものを単独で一意に解釈できないことがままある.文:「君にはやって見ようがない.」は,「君にはやって見よう(との気持ち)がない」とも,「君にはやって見る手立て(見様)がない」とも正則として解釈しうる.後者とした場合旧仮名遣いにすると「見やう」とすべきであるが,茶筌は前者で解析するようで,「見よう」を「見よ(未然)」と「(助動詞)」に分割する.よって本システム本則処理も「見よう」のまま残す.文脈からどちらかは判断がつくわけであるが,システムはそこまで高度にはできていない.結果を自分の目で見直すべき所以である.

misima 旧仮名遣い変換機能はあくまでも現代仮名遣い,新字正則表記テキストの入力を想定している.仮に旧仮名の文章を入力すると,茶筌が解析できず不当な語分割を行い,その結果もとの旧仮名遣いを「改悪」してしまう可能性が高い.お手持ちの仮名漢字変換ソフトウェアが,辞書のチューニングがなされていない状態において旧仮名遣いテキストを入力すると,とんちんかんな変換結果を返すのと同じ理屈である.misima は,これはすでに旧仮名だな,などといった高度な判断はしない.くれぐれも上でしるした仕様に基づいていることをご理解いただきたい.そもそも,日常的に旧仮名遣い・旧字体で書いているひとがこのプログラムを使うとは思えないが.「旧仮名遣い・旧字体初心者」が,より一貫性をもたせたい,不正確な部分を検証したい,などの意図で半完成の旧仮名・旧字体テキストを misima に入力するのだとすれば,もとよりそんな中途半端な旧仮名・旧字体表記の習慣はやめたほうがよい.

おわりに

 

misima には Emacs(Meadow)またはコマンドラインから直接利用できる SOAP Web Service 版もある (2005.8.1 公開). Emacs を愛用する方にとって,使い慣れたエディタ環境で文書を作成しつつ misima を操作できるので,Web ブラウザから使うよりも圧倒的に便利なはずである.これは,上記 Emacs Lisp と使い勝手は同じであるが,ローカルマシンの misima をドライブする後者とは異なり,私のサーバに存する misima に対しネットワーク越しにアクセスする. Java 環境が必要であるが,茶筌,Perl をインストールしなくても misima を利用することができる.詳細は「Emacs から misima を使う」を参照してほしい.

misima SOAP Web Service 2.5 は,Emacs/Meadow のほか, Microsoft Word, 秀丸エディタ, Jedit X エディタ,TeXShop TeX 統合環境の各アプリケーション用のクライアントも用意している.これらのソフトウェアで文書作成をしつつ必要なテキスト領域を選択して筆者のサーバの misima 変換サービスを利用することが可能である.弊サイトのダウンロード・サービスで入手できる.

このプログラムのそもそもの利用目的は,私自身のモチーフとして,TeX で古風な文書,漢文の引用や多言語/和文混在の文書の作成を効率よく行うことにある.文科系 TeX ユーザの利便性を考慮したつもりである.文学研究論文の作成において,ロシア語をはじめ,西欧古典文献や中国・日本の古典籍等,多様な言語文化を本来の姿で引用し,巧みに計算機で文書化することが,昔からの私の課題であった.計算機の活用がこうした伝統的な印刷術を追い求めるのは皮肉というほかないが,ようやく個人の計算機環境においても一定のレベルで実現できるようになった気がする.この前提として LaTeX のコミュニティで公開されている OTF パッケージや sfkanbun パッケージなどの数多くの優れた業績がある.最後になるが,日頃お世話になっているこれらのパッケージの作者の方々には改めて謝意を申し上げたい.

本プログラムは,日本語形態素解析ソフトウェア『茶筌』の解析結果と,『私の國語敎室』における定式化とに準拠することにより,旧仮名遣い変換を試みたものである.奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座の方々,福田恆存氏のこれら業績に敬意を表したい.一方で,日本語表記の多様さゆえに私自身で茶筌辞書そのものに相当量追加せざるをえなかったり,茶筌の解析結果を「誤解析」として採用しなかった部分もある.また『私の國語敎室』は学問的に完全な定式化とはいえず(ことばは変容していくものなのだから当然である),著者が本則の「例外」としてあげた語彙以上のものを misima 辞書に取り込まなければならなかった.このため変換精度は最終的には misima の責任であり,ユーザ自身で評価いただくしかない.

このページそのものを本プログラムで処理した結果を参考までに掲載しておく.ブラウザのフォント環境によっては表示されない文字があるかもしれない.変換例など旧仮名変換したくない部分は <misima_noop> 無変換指定を行っている(本現代仮名遣い・新字体版のソースを見ていただくとよい).

参考文献

 

[1]奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座
  『形態素解析システム《茶筌》 version 2.3.3 使用説明書』, 2003.08.

[2]奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座
  『ipadic version 2.7.0 ユーザーズマニュアル』, 2003.11.

[3]福田恆存著 『私の國語敎室』 文藝春秋,2002. (初版 新潮社,1958)
[4]府川充男/小池和男著 『旧字旧かな入門』 柏書房,2001.
[5]久松潜一監修 『改訂 新潮国語辞典 —現代語・古語—』 新潮社, 1980.
[6]文部省教科書局調査課国語調査室
  『くりかえし符号の使い方〔おどり字法〕(案)』, 1946.3.
  (北原保雄監修 『岩波 日本語 使い方 考え方 辞典』 岩波書店, 2003. 所収)

私の国語教室 旧字旧かな入門 岩波 日本語使い方考え方辞典

おことわり

 

今昔文字鏡 本プログラムは Unicode UTF-8 コードを『今昔文字鏡』の文字番号に変換する機能を有しているが,ここで公開している Web 版ではライセンスの関係で利用できないようになっている.『今昔文字鏡』の文字番号は株式会社大修館書店の刊行する『大漢和辞典』に基づいている.

利用

 

更新履歴

 

Feb. 27, 2005 変換仕様詳細・辞書仕様追加
May 4, 2005 旧字体表示テストページ追加
May 13, 2005 辞書 Ver.1.0 リリース
May 22, 2005 繰返し符号変換仕様変更
July 11, 2005 TeX 変換機能記述追加
July 18, 2005 無変換指定機能他記述追加
Aug. 6, 2005 用語を「旧字(体)」に統一.SOAP WebService.
Jan. 9, 2006 TeX 変換機能拡充,フォーム仕様変更対応
June 21, 2006 TeX 変換機能 Izhitsa 廃止(T2D に統合)
Aug. 26, 2006 misima-2.3 パッケージ記述
Aug. 27, 2006 参考文献 Amazon リンク追加
Sept. 30, 2006 旧字変換 JIS 範囲内変換機能追加
Oct. 4, 2007 総合ドキュメント
Oct. 9, 2007 misima-2.3i Microsoft Word クライアント
Oct. 31, 2007 misima SOAP Web Service 2.4