misima
舊假名遣ひ・舊字變換支援プログラム

since Nov. 5 2004
[ 本文書を misima で一括變換した舊假名・舊字體版 ]
表記法は音にではなく,語に隨ふべし.
— 福田恆存
   
-   はじめに
-   考へ方
-   misima の特徵
-   舊假名遣ひ變換機能
-   舊字變換機能
-   用字・用語變換機能
-   單純變換機能
-   繰返し符號變換機能
-   假名反轉機能
-   マーキング機能
-   TeX 變換機能
-   無變換指定機能
-   入力テキスト仕樣
-   misima 辭書
-   變換仕樣
-   舊假名變換
-   用字・用語變換
-   單純變換
-   注意事項
-   をはりに
-   參考文獻
-   おことはり

はじめに

 

misima は新(現代)假名遣ひ・新字體による和文テキストを舊(歷史的)假名遣ひ・舊字體(正字體)に變換するプログラムである.ヨーロッパ言語,スラヴ語,希臘語,タイ語などの多國語文字,漢文を LaTeX 形式に變換する機能も備へてゐる.

能書きはさておき使つてみたい方はすぐさまこちらに.[ 現在,限定公開運用となつてをります.]
 
  - 簡易オプション高速版を
  - フルオプション版を

misima は Web ブラウザ以外のアプリケーションから直截利用することができる.この場合,Web ブラウザで變換した結果をコピー/ペーストするといふ面倒な操作を省くことができる.そのためには,misima SOAP Web Service 2.5 パッケージが必要である.misima SOAP Web Service 2.5 が現在サポートしてゐるアプリケーションは以下のとほり:
 
  - UNIX/Windows コマンドライン
  - GNU Emacs/Meadow
  - Microsoft Word 2003
  - Windows 秀丸エディタ
  - Mac OS X Jedit X エディタ
  - Mac OS X TeXShop TeX 統合エディタ

misima SOAP Web Service 2.5 詳細については『misima 舊假名遣ひ・舊字變換支援 利用の手引き misima SOAP Web Service Ver. 2.5』(PDF 12.2MB) を參照のこと.

利用に際しては,その運用結果についていかなる意味においても無保證である.ご指摘,ご意見あればメールでいたゞけるとありがたい.

考へ方

 

ときをりインターネットの揭示版などで舊假名・舊字體の文章を見かける.ところが文章の內容以上に「スタイル」に目がいつてしまふ.戰前の言語土壤に成る作家の語りでは自然な身振りであるのに對し,正直なところ,こちらは文體の異化作用が際立つて偏向を帶びて氣味が惡い.これは私の心ない主觀・印象ではある.言語現象は本質的に恣意的・流動的である一方,時代・場所・傳統背景にあつて價値判斷・感情を擔つてゐるとすれば,スタイルそのものが限定的な深い意味をもつ.

それにも關はらず,國語國字問題について舊假名・舊字體の正當性・正統性を主張するひとは少なからずゐて,昔からまじめな議論が行はれてゐる.眞劍な意圖のもとに舊假名・舊字體で書かうと努める若いひともたくさんをり,前言とは矛盾するやうだが,國語國字への問題意識において,敬意を表したいのも本心である.

私も荷風や「鴎」外,漱石,芥川はもちろん,三島由紀夫や石川淳が新假名・新字で印刷されてゐるのにはちよつと閉口するはうである.ま,文庫だからしかたないかと.最近中央公論の古い新書版谷崎潤一郞全集を手に入れ,讀むにつけても,舊假名・舊字體のはうが,作者の言語の自然な呼吸が傳はつてくるやうで味はひ深い.

しかし現實,現代の「普通の」常識的社會人にとつては,新假名遣ひ・新字體が知的身體の一部になつてをり,直接舊假名・舊字體で國語を記述するのは困難であるし,いまさら乘り換へる意味もない.たとへ國語國字改變が多分に政治的なものであり,また性急・暴擧であつたとの指摘が歷史の反省として正と判斷されるかも知れないにせよ,これが現代日本の文化の辿つた歷程であり,廣く定着してゐる以上これを否定してもしやうがないと考へる.(假名遣ひ,日本語表記についての私自身の考へ方については「misima について」に書いた.)

計算機の世界でも,通常の假名漢字變換プログラム (IME) では現代の新假名・新字體國語表記に最適化されてをり,これに從つて文書を作成するのが效率的であるのは當然である.效率を求めることこそ文化的練磨を阻礙する,との聲も舊假名・舊字體論者から聞こえてきさうだけど.

ATOK などの IME にも舊假名・舊字で變換するための辭書があり,インターネット上にも個人による目を見張る辭書の成果も存在するが,先に述べたやうに私は「普通の社會人」であり,現代假名遣ひが身に染み付いてゐて,この期に及んで舊假名・舊字でもつて自身の素直な考へや良心を表現する氣には,いまのところなりさうにない.

舊假名・舊字體による文學作品は,こんな私にとつても亂步の世界のごとき黝く妖しい香氣を放つ.とはいへ直接舊假名・舊字體で記述するには障礙を感ずる.そこで,

明治,大正,昭和の,あるいはさらに時代をさかのぼつた日本の古典テクストを,論文などの文書に取り込む (これが主な目的),
丸谷才一氏にならつて「ちよつと氣取つて」舊假名・舊字體で文章を作成する,
國語の勉强もたまには...
などなど,

の目的で,自分自身のために,あとづけで舊假名・舊字體に變換するプログラムを書いてみた.私の戰術は,以上のやうな次第で,リアルタイムではなくバッチとなつた.これなら過去に書いたテキスト・ファイルも取り扱ふことができる.

同じやうなプログラムがいくつか出囘つてゐるが,

それこそ國語國字の傳統文化の觀點から問題點をあげつらはれてゐる JIS 第一,二水準の文字コードしかサポートしてゐなかつたり,
舊假名變換機能において單語の特性を無視して「え」を「へ」に全面的に置き換へるなど,あまりに機械的であつたり,

完全は無理にせよもう少しなんとかならないかとの問題意識・關心から,單語の文法解析・辭書に基礎をおいた變換ツールを作らうと一念發起したわけである.

さらに

私の文房具でもある TeX での文書作成
Web 文書作成

の支援も視野に入れたものにしたいと考へた.とくに TeX OTF パッケージ利用で眞價を發揮できるやう設計したつもりである.

計算機で一定の基準に從つて一氣呵成に變換し,かつ辭書に依存する方式であり,もとよりサラリーマンの日曜大工であつてみれば,多樣な國語表記を完全無缺に變換するのは無理である.

misima の特徵

 

語の品詞及び活用形を解析した結果で變換判斷を行ふ.「語」の切出しと文法解析のため,日本語形態素解析ソフトウェア『茶筌』を利用する.福田恆存氏の「表記は語に隨ふべし」との言に倣つたつもりである.

UTF-8 コードテキストを入力前提としてをり,多國語が混在した和文を扱ふことができる.出力も UTF-8 である.Web のフォームでは入力の文字コードを意識する必要はないが,舊字體出力結果は Unicode フォントがないと化けてしまふことが想定される.最近のブラウザならまづ大丈夫ではないかと思ふ.たゞし,Windows Internet Explorer 6(Microsoft Office を導入したもの:Unicodeフォントが添附されてゐる)はだいたいにおいてうまく出力されるが,「祈」の舊字體など,人名許容もしくは康煕字典別揭漢字の一部が出力されない.Mac OS X Safari のみが私の知る唯一すべてのテーブル登錄舊字體を出力することの可能なブラウザである.

舊字變換において,UTF-8 文字出力だけでなく,TeX OTF パッケージの CID 番號參照形式でも出力できるやうにした.OTF パッケージは齋藤修三郞氏の開發した TeX Virtual Fonts とスタイルファイルである.これにより,DTP において利用が進んでゐる Adobe-Japan1-5 エンコーディング二萬字の廣範圍の文字空間から, JIS,Unicode では定義されてゐない文字(主に異體字)も TeX 文書で使ふことが可能となる.OTF を用ゐ,ヒラギノ Pro や小塚 Pro といつた Adobe-Japan1-5 對應フォントでタイプセットすると,素晴らしい出力が得られるはずである.

舊假名遣ひ・舊字變換のほか,TeX ユーザのために漢文訓讀文訓點變換,くノ字點變換や多言語文字 TeX 命令變換をサポートしてゐる.古典・漢文,主要ヨーロッパ言語,古典希臘語,スラヴ語の混在した文科系論文を書くにあたつて必要と思はれる支援を盛り込んだつもりである.

機能

 

利用可能な變換機能を以下に示す.オプションで變換有無を指定できる.純粹に舊假名遣ひ・舊字變換のみを望むなら,舊假名遣ひ變換機能,舊字變換機能及び單純變換機能をオンにすることを推奬する.用字・用語變換は意圖せず假名が漢字に變換されることもある.いかなる變換も行はない指定も可能であるが,冗談はやめよう.

舊假名遣ひ變換機能
新假名遣ひ表記を舊假名(歷史的假名)遣ひに變換する.辭書とシステム內のロジックにより實行する.

舊字變換機能
新字・略字を舊字(正字)に變換する.ひとつの新字を複數の舊字で書き分ける場合があるが,本機能では一對一で定義した辭書に依存する.舊字を意味によつて出力し分けたい場合は,用字・用語變換機能を利用する.出力形態は以下のいづれかを選擇できる.

  出力形態   內容
  UTF-8 文字   UTF-8 エンコードで舊字を出力する.
  JIS 內文字   JIS 第一・第二水準の範圍內で舊字に變換し出力する.
  HTML 數値參照   "" 形式で舊字を出力する.FFFF は十六進數.
  TeX OTF UCS
十六進數値參照
  "\UTF{FFFF}" 形式で舊字を出力する.FFFF は十六進數.
  TeX OTF CID
數値參照
  "\CID{99999}" 形式で舊字を出力する.99999 は十進數.
  TeX 今昔文字鏡
番號參照 (*)
  "\TMO{999999}" 形式で舊字を出力する.999999 は十進數.\TMO 部分はユーザが定義で變更できる.
(*)本サイトで公開する misima フォームでは,今昔文字鏡番號變換機能はライセンスの關係で使用できません.

用字・用語變換機能
明治,大正,昭和の文章には,「退廃」を「頽廢」と書くなど,現在とは異なる表記を行ふ語がある.時代や書き手の屬する階層などの情況により一筋繩では行かないが,かうした用字・用語を辭書定義に從つて變換する機能をサポートしてゐる.「ドイツ」を「獨逸」と變換するなど「餘計なお世話」,と思はれる方は機能をオフにしていたゞきたい.

單純變換機能
舊假名遣ひ變換,用字・用語變換は茶筌の單語分割・品詞解析に依存する.これに對し單純變換は,茶筌の形態素解析結果に因らず,强制的に文字列を置き換へる.マーキングの對象外である.Web フォームでは,舊假名遣ひ變換機能または舊字變換機能が指定されてゐると,單純變換機能もオンに設定されるやうになつてゐる.

繰返し符號變換機能
茶筌の單語分割・品詞解析に基づいて,同一語において同じ平假名,片假名,漢字が連續するとき二つ目の文字を文字種によつてそれぞれ「ゝゞ」「ヽヾ」(以上一ツ點)「々」(同ノ字點)に變換する.マーキングの對象外である.

半濁音(ぱぴぷぺぽパピプペポ)は變換對象外である.

語頭に濁音をもつ場合(「ぢぢ」)の繰返し部は「ゝ」とする.

文獻[6]「をどり字法案」の基準を參考とし,原則として語の疆界を越えて適用はしない.しかしながら,本法案はあまりにも曖昧であり計算機處理上明確に判斷基準とできる性質のものではなく,この要因はそもそも「くりかへし符號」の使ひ方そのものが實表記において統一性を缺いてゐるからにほかならない.議論の餘地はあると思ふが,本システムでは以下の例外を採用してゐる.

一語でも固有名詞及び,日本語として一般化した片假名のみからなる名詞(「ママ」など)には適用しない.

また,以下のパターンについては語の疆界を越えて適用する.
- 動詞連用形+「て」[助詞-接續助詞]:「立て+て」パターン
- 名詞(-地域)+名詞(-地域): 多く「〜町+町內」パターン
- 〜と[助詞-格助詞](する)(「〜などという」の「と」[助詞-格助詞-引用]は適用外)
- 〜ででも:「〜でゝも」
- 〜の[助詞-連體化]+名詞:「をの(斧)の刃」パターン (「をのの壞れるのは悲しい」の最初の「の」[助詞-格助詞] は適用外)

例:「やや」「ぢぢ」「益益」「ただただ」⇒「やゝ」「ぢゝ」「益々」「たゞゝゞ」
「ばば[婆]はハハハと笑った」⇒「ばゝはハヽヽと笑つた」
「パパとママ」⇒「パパとママ」

「々」文字を「〻(ゆすり點)」にしたければ misima 辭書單純變換定義に登錄すればよい.

假名反轉機能
同じ平假名と片假名を相互で反轉する.通常の平假名・漢字を主とする文章を,谷崎潤一郞の『鍵』や古い法律文のやうな片假名主體の表記にする.「ヷ」「ヸ」「ヹ」「ヺ」は「ゔぁ」「ゔぃ」「ゔぇ」「ゔぉ」に變換する.マーキングの對象外である.
例:「これはペンです」⇒「コレハぺんデス」

マーキング機能
オプション指定により,變換部分のマーキングを行ふ.辭書變換,舊假名遣ひロジック變換それぞれ個別にマーキングできる.變換部分を圍む HTML タグまたは TeX 制御綴はユーザが定義できる.これは,利用者がシステムによる變換結果を,ブラウザや TeX 組版結果ビューアで容易に確認できることを目的としてゐる.たゞし HTML タグはセキュリティ上,"&lt;","&gt;" に置換して出力するので,出力效果の確認は實際に表示させる HTML にそれぞれ "<",">" で埋め込んでいたゞく必要がある.

TeX 變換機能
以下の機能を選擇できる.多言語ならびに縱組和文・漢文を組版したい TeX Babel パッケージや OTF パッケージ,sfkanbun 漢文パッケージ・ユーザの支援を目的としてゐる.

  機能   槪要
  多言語文字
變換
  - TeX Babel パッケージ,OTF パッケージの利用を想定して,スラヴ語,希臘語(古典・現代),羅甸文字言語,日本語,韓國語の文字(UTF-8エンコード)を,pTeX で扱へる文字もしくは命令(コントロール・シーケンス)に變換する.多言語文字,Unicode 漢字を用ゐて TeX 文書を直接記述し,本機能で變換した後に SJIS,JIS もしくは EUC のテキストとして保存すれば,pTeX でコンパイル可能となる.[多言語變換標準オプション]
- 歐文は Unicode Cyrillic U+0400​-​U+04FF,Greek U+0370​-​U+03FF(たゞしコプト語は除く),Greek Extended U+1F00​-​U+1FFF(古典希臘語),Latin-1(佛蘭西語,獨逸語などの西歐,北歐語),Latin-2(ポーランド語,ハンガリー語などの東歐語)の範圍で變換する.
- 變換後のエンコーディングは,スラヴ語は主に OT2 で,敎會スラヴ語,邊疆キリル言語など一部 T2A T2B T2C T2D の場合がある.希臘語は基本 Babel LGR エンコーディングであるが,一部 Teubner パッケージの命令に準據したものもある.Latin は T1 エンコーディングに準據した.
- TeX のフォント選擇命令,言語環境(\selectlanguage​{russian}​, \fontencoding 等)はユーザで指定する必要がある.變換對象はあくまでも文字に限定される.
- JIS X 0208 範圍外の Unicode CJK 統合漢字を \UTFM​{UCS2コード} に變換する.中國語繁體字,簡体字もこの範圍であり,\UTFM 命令は,日本語にグリフがなく繁體字,簡体字,諺文にあればそのグリフを選擇してくれる.[多言語變換標準オプション]
- Unicode 諺文と判斷できるコード範圍の文字は \UTFK{USC2コード} に變換する.[多言語變換標準オプション]
- Unicode CJK 統合漢字を指定に應じて \UTFC(簡体字)\UTFT(繁體字)\UTFK(韓國語)の OTF シーケンスに變換する.これを指定すると,原則すべての漢字に適用される.[中韓漢字變換オプション]
- <misima_cjk_x> タグで中韓の OTF シーケンスを前記オプションによらず切替へることができる.</misima_cjk> が現れると元の變換基準に復歸する.一部は簡體字,一部は日本語で出力仕分けたいときに使ふ.Unicode CJK 統合漢字は包攝で日本語/中國語/韓國語で微妙に字體の異なる表記を同じコードに歸してしまふが,OTF シーケンスを用ゐることにより各國語の字體を表現できる.<misima_cjk_x> </misima_cjk> タグは出力されない.[多言語變換標準オプション]
- \UTFM \UTFK \UTFC \UTFT は OTF パッケージ multi オプション指定時に利用できるコントロール・シーケンスである.
- 「吉,高,崎,碕,浜・濱,角,第,間」の各文字に「」を前置すると,それぞれ「上部が土の吉(吉野屋)」,「梯子高(髙島屋)」,「立つの崎」,「立つの碕」,「まゆ濱」,「縱線が下に突き出た角」,「第の俗字」,「閒(內田百閒)」の CID 數値參照に變換する.[多言語變換標準オプション]
- タイ語を pTeX で處理するために,Unicode タイ語テキストを TIS-620 に變換し,タイ語單語疆界 {\wbr} を插入し,さらに「^^十六進數」形式に變換する.「^^十六進數」に變換するのは日本語以外の八ビットコードではエラーとなる pTeX でもこの形式だと受け付けるためである.[多言語變換タイ語擴張オプション]
- キリル文字を T2A コントロールシーケンスで出力する.[多言語變換キリルT2A擴張オプション]
- ヴェトナム語,グルジア語テキストをそれぞれ VnTeX,mxedruli パッケージで處理できる形式に變換する.[多言語變換VG擴張オプション]
- <misima_t2a> タグと </misima_t2a> タグの間のキリル文字を,キリル T2A 擴張オプション指定によらず T2A シンボルに變換することができる.<misima_t2a> </misima_t2a> タグは出力されない.[多言語變換標準オプション]
- <misima_ocs> タグと </misima_ocs> タグの間のテキストを,OldSlav 敎會スラヴ語シンボルに變換することができる.SlavTeX の記法で敎會スラヴ語テキストを記述する.<misima_ocs> </misima_ocs> タグは出力されない.[多言語變換標準オプション]
- TeX 多言語變換オプションを選擇すると,ユーザが舊字變換において「UTF-8 文字出力」または「HTML 數値參照」を指定したとしても「TeX OTF CID 數値參照」で舊字變換を行ふ.
- 上記變換仕樣は「UTF-8 による TeX 文書の作成」で示すものと,制御タグ仕樣を除き同一である.
- <misima_noop> タグで圍まれた範圍であつても,TeX 多言語文字强制變換が指定されてゐると變換對象とする.[多言語變換强制オプション]
  漢文訓點
變換
  - 藤田眞作氏が公開してゐる TeX 漢文訓讀文訓點組版スタイル sfkanbun.sty に準據したフォーマットに,ベタの文字列を整形する.
- 漢字[讀み(平假名)][送假名右(片假名)][返點(英數字)][送假名左(片假名)][句讀點]([ ]內は省略可能であることを示す.[ ]そのものは記述しない)の形式からなるベタのテキストを
   \kundoku{漢字}{[讀み]}{[送假名右]}{[返點]}<[送假名左]>([句讀點])
に變換する.送假名や返點の漢文訓點表示のシーケンス・イメージをそのまゝ書いていけばよいのではないかと思ふ.sfkanbun.sty を使ひ慣れた方には逆に面倒かもしれないが.
- 變換例を示す.LaTeX sfkanbun パッケージ及び OTF パッケージで組版すると右圖のとほりになるだらう.
(前)子曰ハク,盍なんゾ3ルト各々言ハ2爾なんぢノ志ヲ1.
(後)子\kundoku{曰}{}{ハク}{}(、)\kundoku{盍}{なん}{ゾ}{三}<ルト>各\ninojiten\kundoku{言}{}{ハ}{二}\kundoku{爾}{なんぢ}{ノ}{}\kundoku{志}{}{ヲ}{一}(。)%
以下仕樣についてしるす.
- 「讀み」,「送假名左」,「返點」のいづれかが指定されない場合(これは假名などの文字種で判斷してゐる)は { } 內は空で整形する.いづれも指定されない場合はフォーマット變換せず「漢字」のみをそのまゝ出力する.從つて「漢字」と「句讀點」のみが連續する間は「漢字」「句讀點」のみ出力される.
- 「送假名左」,「句讀點」が指定されない場合,括弧 < > ( ) も含め出力しない.
- 「漢字」には括弧: 「」『』【】が含まれる.
- 「漢字」に續いて片假名がくると「送假名右」と判斷する.「送假名左」のみを指定することはできない.そもそも「送假名左」は再讀文字に送るものであり,漢字に續いて「送假名左」のみが指定されることはないはずである.
- 「返點」は,1(一)〜5(五),J(上)C(中)G(下),K(甲)O(乙)H(丙),T(天)I(地)N(人),R(レ)のやうに英數字(半角全角,大文字小文字いづれも可)で指定する.變換後は( )內に置き換はる.「1R」,「JR」 と指定するとそれぞれ \itireten(一とレの接合したもの),\uereten(上とレの接合したもの) に變換する.
- 「返點」に單獨でもしくは上記返點に續けて「-(ハイフン)」または「ー(長音)」を記述すると,音號符に變換する.音號符とは,漢文訓讀文の所謂熟語の字間に置く「-」のやうな訓點である.「R」(レ點)とは混在できない.單獨で「-」 が指定されると \ongofuno に,「2-」,「G-」と指定されるとそれぞれ \ongofuni,\ongofuge に變換する.
- 「各々」における「々」は \ninojiten に變換する.
- 句讀點は「,.、。」が記述できる.「,.」が指定された場合「、。」に變換する.
- 行末に % を出力する.
- TeX 漢文訓點變換オプションを指定した上,さらに變換したいテキスト範圍を,<misima_kanbun> 開始タグ</misima_kanbun> 終了タグで圍む必要がある.このタグは制御用であり,TeX 漢文訓點變換を指定した場合,處理結果には出力されない.TeX 變換指定のない場合はタグをそのまゝ出力する.それ以外は <(/)misima_kanbun> タグ中の「_」を「\_」に變へて出力する(TeX で處理することを考慮したため).
- <misima_kanbun> 範圍內では舊假名變換處理,用字・用語變換,單純變換,繰返し符號變換,假名反轉處理は行はない.
  くノ字點
變換
  - TeX OTF パッケージでは縱組和文において「くノ字點濁點無(\ajKunoji)」及び「くノ字點濁點付(\ajDKunoji)」を出力する命令がサポートされてゐる.本オプションは入力テキスト中の「そろそろ」「それぞれ」などの繰返し表現を自動的に「そろ\ajKunoji{}」「それ\ajDKunoji{}」などに變換する.
- 變換對象は,繰返される文字列に平假名,片假名が一文字以上含まれる繰返し表現である.
- 茶筌解析の結果で同一語の範圍內で變換を行ふ.たとへば「つるつるかめかめ」は,「つるつる」といふ表現は茶筌辭書に語として存在し變換對象となるが,「かめかめ」は「かめ(亀)かめ(噛め)」と二語で解析されるため變換されない.結果は「つる\ajKunoji{}かめかめ」となる.
- 同一文字が連續するもの(「ハハハハハ」等)は變換對象としない.別の繰返し符號變換機能によつて「ハヽヽヽヽ」とすることができる.
- 原則として,變換對象は必ず平假名,片假名が含まれる繰返し表現である.漢字のみのものは對象としない.當然ながら英數字・記號文字列も變換對象とはならない.「不承不承」は例外である.
- 先頭に漢字がくるものは繰返し部の讀みの淸濁が判斷できないため,原則「くノ字點濁點無」に變換する.「散り散り」など繰返し部で濁る表現は「くノ字點濁點付」とすべきであるが,茶筌辭書に登錄されてゐる語(「重ね重ね」「返す返す」「不承不承」「代る代る」)及び,「散り散り」「冴え冴え」「懲り懲り」「沁み沁み」など私の思ひ當たるいくつかは正しく變換されるやうになつてゐる.これ以外は手修正するか單純變換定義などで救ふしかない.
- 本變換處理は,別に支援する繰返し符號變換處理に先立つて實行される.よつて兩機能をともに指定した場合,「ただただ」は「たゞ\ajKunoji{}」となる.
- OTF パッケージでくノ字點「うろ\ajKunoji{}きよろ\ajKunoji{}」を組版すると右のとほりとなる.

本機能の TeX 出力結果の全範圍を LaTeX で處理するためには,以下の各 LaTeX パッケージが必要である.「LaTeX 標準」としたものは teTeX をインストールすれば標準で組み込まれるものである.

  - OTF(和文 OpenType 處理)
  - Babel(マルチリンガル,LaTeX 標準)
  - Cyrillic バンドル(OT2,T2A〜T2C エンコーディングサポート,LaTeX 標準)
  - Unicode(Cyrillic T2D エンコーディングサポート)
  - Teubner(希臘古典文獻處理)
  - ThaiLaTeX(タイ語)
  - VnTeX(ヴェトナム語)
  - mxedruli(グルジア語)
  - sfkanbun(漢文訓點)
  - SlavTeX, OldSlav(敎會スラヴ語)
  - Marvosym(記號)
  - Textcomp(記號,LaTeX 標準)

TeX 原稿サンプル(HTML 形式及び TeX ファイル)と,これを misima で變換し TeX OTF パッケージその他で處理した結果 PDF ファイルを揭載しておく.TeX 原稿は UTF-8 テキストなので閱覽するには Unicode フォントが必要である.また,misima を利用した TeX 變換機能の利用については,『misima TeX 變換の活用』も參照いたゞきたい.

無變換指定機能
<misima_noop> 制御タグと </misima_noop> 制御タグでテキストを圍むと,當該テキストを變換對象としない.この制御タグは出力されない.たゞし,TeX 多言語文字强制變換を指定した場合は,タグ範圍內でも多言語文字變換處理を行ふ.HTML 原文に指定しても未サポートのタグとして扱はれるため影響はないはずである.舊假名變換等茶筌辭書に依存する變換を文中の一部のみ抑止したい場合,語の切れ目などを考慮してタグを付與しないと,茶筌が誤解析をしてしまふ可能性がある.文・節の切れ目の單位で指定することを推奬する.

入力テキスト仕樣

 

處理對象となるデータは Unicode UTF-8 でエンコードされた電子テキストとする.辭書も同樣である.

舊假名遣ひ變換を指定する場合,入力テキストは現代假名遣ひ,新字正則テキストでなければならない.舊假名遣ひ,舊字,片假名で入力すると茶筌が誤解析を行ひ,正しく處理できない.

露西亞語等外國語は,茶筌では一文字ごとに分割されて,記號もしくは名詞の一種として扱はれる.本プログラムでは,TeX 多言語文字變換指定がない限り,そのまゝ出力する.

空白文字(スペース,タブ)で區切られた文字列單位または行單位で處理を行ふ.よつて文の途中でスペースや改行が入る場合,その位置によつては,茶筌の形態素解析が失敗して思つた變換ができない可能性がある.とくに HTML などマークアップされたテキストを直接處理するときは注意が必要である.

形態素解析の關係上,連續する空白文字はスペース一個に置き換へる.

misima 辭書

 

舊假名遣ひ變換,用字・用語變換,舊字變換,單純變換及び TeX 多言語文字變換は,辭書に依存する.辭書は,私が準備した必須のシステム辭書と,利用者が獨自に定義できるユーザ辭書から成る.ユーザ辭書を優先的に參照する.システム辭書もユーザ辭書もフォーマットは同一であり,定義できる內容にも差異はない.ユーザ辭書は任意であり,なくてもよい.

辭書は舊假名變換定義,舊字變換定義,用字・用語變換定義,單純變換定義,TeX 文字變換定義,TeX 異體字文字變換定義から成る.

ユーザ辭書は舊假名變換定義,舊字變換定義,用字・用語變換定義,單純變換定義について可能である. TeX 文字變換定義,TeX 異體字文字變換定義について獨自の變換規則を追加したい場合,擴張變換表を作成する.擴張變換表は, misima-2.3 パッケージでローカルにインストールした場合においてのみ定義可能である.標準では /usr/​local/​etc/​misima/​contrib ディレクトリ下に下記仕樣に基づくテキストファイルとして格納する.

舊字變換定義
新字とこれに對する舊字を定義する.一新字に複數の舊字が對應する場合があるが,システム辭書では私の好みで特定の文字に割當てゝゐる.必要に應じユーザ辭書で利用者が定義する.

システム辭書における舊字變換對象文字は文獻[4]を參考にした.惡名高い JIS 83 年版で新字體に置き換へられてしまつた文字(森鷗(鴎)外の「鷗(鴎)」などの所謂擴張新字體:丙種・包攝漢字)や Windows JIS 外字(「敎」,「淸」など)も適宜組み入れた.新字—舊字對應表を參照いたゞきたい.また登錄文字は表示テストページで確認できる.

舊字變換の結果は,TeX OTF パッケージ CID 番號參照がもつとも充實してゐる.UTF-8,JIS 第三/四水準にない異體字も登錄してゐる.「近」のしんねうが二點付きのもの,「唐」の縱線が「口」にめがけて突き出た文字など,古風な異體字を私の判斷で拾つてゐる.

フォーマット:s 新字 舊字#FFFF#99999#999999

  • 新字舊字はそれぞれ一文字のキャラクタである.#以降は HTML 數値參照等のための情報で,記述は任意である.省略した場合,變換指定が HTML 數値參照であつてもキャラクタ(舊字)に變換する.
  • 第一エリア(#FFFF)は舊字として UCS2 コード(所謂 Unicode コードポイント)を十六進數四桁で記述する.舊字變換における HTML 數値參照及び TeX OTF UCS 十六進數値參照で利用される.
  • 第二エリア(#99999)は Adobe-Japan1-5 の CID 番號を十進數で指定する.TeX OTF CID 數値參照で利用される.
  • 第三エリア(#999999)は今昔文字鏡番號を十進數で指定する.TeX 今昔文字鏡番號參照で利用される.
  • 第一〜三エリアにおいて 0(#0)が指定された場合は,たとへば TeX 今昔文字鏡番號變換指定を行つたとしても,0 參照(\TMO{0})ではなくキャラクタ(舊字)に變換する.
s 悦 悅#6085#8455#010629
  • 變換指定が UTF-8 文字のとき,に變換する.
  • 變換指定が JIS 內文字のとき,のまゝ殘す.は JIS 第一・第二水準にはないため.
  • 變換指定が HTML 數値參照のとき,&#x6085 に變換する.
  • 變換指定が TeX OTF UCS 十六進數値參照のとき,\UTF{6085} に變換する.
  • 變換指定が TeX OTF CID 數値參照のとき,\CID{8455} に變換する.
  • 變換指定が TeX 今昔文字鏡番號參照のとき,\TMO{010629} に變換する.

舊假名變換定義
辭書舊假名定義は主に,處理方式の說明で述べる本則から外れる例外表記のデータベースと考へてよい.2005.5.13 辭書 Ver.1.0 では舊假名定義は約 4,500 語が登錄されてゐる.これは,茶筌辭書 ipadic 2.7.0 の固有名詞以外の語から,本則の適用できないものをツールで抽出し,手作業で修正・登錄したものである.表記は文獻[5]を參照した.システム・ロジックでは字音假名遣ひはとくに考慮してゐないが,茶筌辭書に登錄された平假名表記の漢語で「わいうえお」(語中・語末)または「ずじ」が含まれるものは,私が妥當と思はれる表記を選擇的に定義してゐる.たとへば,「しょうとう」は「しやうたう(正当)」「しやうとう(正統,掌灯)」「しようとう(昇騰)」「しようたう(松濤)」などがあるが,「せうとう(消灯)」に變換されるはずである.

舊假名變換定義は,動詞,形容詞,助動詞については基本形(終止形)で登錄する.

フォーマット:k 9新假名 舊假名

對象テキスト(語・出現形)の基本形にマッチした新假名を,舊假名に置換する.以下「登錄語」とは,舊假名に指定してゐるやうな,變換後の單語を示す.活用する品詞(動詞,形容詞,助動詞)はシステムで語幹部分を判斷して置換する.ユーザ辭書で名詞,動詞,形容詞,副詞以外を定義することはあまりないと思ふ. 9新假名のうち 9 は品詞コードである.0~9 までの數字で指定する.品詞分類の考へ方は茶筌に準ずる.

品詞コード
品詞
0名詞
1動詞
2形容詞
3副詞
4連體詞
5接頭詞
6接續詞
7助詞
8助動詞
9感動詞その他
k 0おとこ をとこ
  k 1あおぐ あふぐ
  k 2すえおそろしい すゑおそろしい

用字・用語變換定義
用字・用語定義は,舊假名・舊字で書かれた古い文章に特徵的に現れる表記を個別に設定し,獨立して變換できるやうにするものである.定義に依存して,たとへば「イングランド」を「英蘭」,「いわゆる」を「所謂」,「愛欲」を「愛慾」に置き換へる.表記を古風にしたいときに使ふ.舊字變換はこれとは獨立して行ふので,必ずしも舊字で定義する必要はない.「辨別」「辯護」のやうに「弁」の舊字變換を區別したいときは舊字で定義しておく(この二語はシステム辭書に登錄してある).

フォーマット:y 變換前 變換後

對象テキスト(語)の變換前變換後に置換する.品詞に依存せず,また語幹の判斷をせず置換するため,原則,活用しない品詞の單語を指定する.

y 画期的 劃期的
  y 兄嫁 嫂
  y エジプト 埃及

單純變換定義
單純變換定義は,茶筌の解析がどうもうまく行かない,なにをおいても置き換へたい場合の補正のために設けてゐる.語の統一にも利用できると思ふが,もつぱら舊假名遣ひ變換,舊字變換と同時に指定すべき補足機能であり,單獨でオンにしても目的に適はないと考へたはうがよい.處理の最後で繰返し符號變換を實施する前に,定義に從つて差し換へる.マーキングの對象外である.

フォーマット:t 變換前 變換後

對象テキスト斷片の變換前に完全一致する文字列を變換後に置換する.茶筌が分割した語に依存せず置換する.

t 缺伸 欠伸 舊字變換で一律に變換されてしまふ.これを補正し,本來の欠伸とする.
  t 高島屋 髙島屋 茶筌が高島屋高島に分割しても髙島屋に變換する.
  t づ仕舞ひ ず仕舞ひ   舊假名遣ひ變換で誤つて [やら]づ仕舞ひとしたものを [やら]ず仕舞ひに補正する.
  t 々 〻 同ノ字點(ゆすり點)に變換する(これはシステム辭書には登錄されてはゐない).

TeX 文字變換定義
TeX 多言語文字變換機能で利用する.UTF-8 文字に對して變換したい TeX 文字/命令(コントロール・シーケンス)を指定する.マーキングの對象外である.

フォーマット:e 變換前 變換後

對象テキストの變換前の文字を變換後に置換する.以下の例はシステム辭書に登錄されてゐるものから示してゐる.

e Ж ZH 露西亞文字 ЖZH に變換する.
  e ᾒ >`h| 古典希臘文字 (無氣氣息記號/重アクセント/下書きのイオタ付きエータ η )を >`h| に變換する.
  e € \EURtm{}   (ユーロ記號)を \EURtm{} に變換する.\EUR{},\EURcr{} などにしたい場合はユーザ辭書として再定義いたゞきたい.

TeX 異體字文字變換定義
TeX 多言語文字變換機能では「▼」を前置した文字を,登錄した異體字(CID數値參照形式)で出力することができる.TeX 異體字文字變換定義は獨自に異體字を登錄するためのものである.マーキングの對象外である.

フォーマット:c 變換前 變換後

對象テキストの變換前の文字が「▼」の直後に指定されたとき,▼變換前變換後に置換する.假に本異體字文字變換定義に登錄されてゐない文字に對し「▼」が前置されてゐた場合,▼は通常の文字として扱ひ,削除されない.以下の例はシステム辭書に登錄されてゐるものから示してゐる.

c 吉 \CID{13706}   ▼吉\CID{13706} に變換する.\CID{13706} を TeX OTF パッケージで出力すると,所謂「土吉」(吉野屋の吉)が得られる.

misima 辭書登錄時の注意事項
舊假名變換及び用字・用語變換における misima 辭書檢索は茶筌によつて分割された語で行ふ.ipadic(茶筌辭書)にない語は,單語として切り出されず,思はぬ語分割がされることがあり,よつて misima 辭書への登錄が無意味であることに注意すべきである.このやうな場合,語分割に依存しない單純變換定義を活用する.本システムでは,舊假名遣ひ變換に際して必要と思はれる語彙を茶筌辭書にも追加登錄してチューニングしてゐる.

misima は同一バッファのテキストに對し數種の變換を一定のシーケンスに從つて行ふ.そのつど變換を受けると辭書に登錄しても無意味となる可能性がある.たとへば,假に舊假名遣ひ變換で「あい」が「あゐ」に變換された後では,單純變換定義で「あい⇒あひ」と登錄しても「あひ」が得られることは永劫にない.各種變換有無を選擇できることが事情をさらに複雜にしてゐる.システム辭書ではこのチューニングを行つてゐるが,ユーザ辭書を追加する際は注意すべきである.今後のシステムの課題であると考へる.

變換仕樣

 

語の解析
あらゆる變換處理に先立つて misima は,對象テキストを日本語形態素解析ソフトウェアである『茶筌』 Version 2.3.3 に委ねる.茶筌は日本語テキストに對し,辭書『ipadic』 Version 2.7.0 に基づいて形態素解析を行ひ,單語に分割し,出現語の基本形/品詞/活用情報を misima に返卻する.misima は原則として切り出された單語情報ごとに變換操作を行ふ.

變換處理シーケンス
各種變換處理は以下の順番で行ふ.ユーザが機能選擇をオフにした場合,當該處理はスキップする.
  (1) TeX 漢文訓點變換
  (2) 用字・用語變換
  (3) 舊假名變換
  (4) TeX くノ字點變換
  (5) 舊字變換
  (6) 繰返し符號變換
  (7) 單純變換
  (8) TeX 多言語文字變換
  (9) 假名反轉變換

舊假名變換

 

舊假名變換は misima 辭書に從ふか,もしくは舊假名遣ひの規則(「本則」と呼ぶ)に基づく.

辭書變換
茶筌解析情報から品詞コード+基本形で misima 辭書舊假名變換定義テーブルを檢索する.ヒットしたとき,以下のとほり變換する.ヒットしないとき,本則變換を行ふ.なほ,基本形とは活用する品詞では終止形と等價であり,名詞など活用しないケースでは出現形に等しい.

動詞 出現形が基本形と一致しないとき語幹部分を登錄語の語幹部分で置換する.
出現形:植え[て];基本形:植える;登錄語:植ゑる
  植え[て]を植ゑ[て]に置換する.
形容詞
/助動詞
出現形が基本形と一致しないとき登錄語末尾「い」前で置換する.
出現形:こうごうしかっ[た];基本形:こうごうしい;登錄語:かうがうしい
  こうごうし(かっ)[た]をかうがうし(かつ)[た]に置換する.
その他 出現形を登錄語で置換する.
不めいりょう[な]を不めいれう[な]に置換する.

本則變換
本則は原則的に,福田恆存著『私の國語敎室』(文獻[3])での基準を適用する.「わいうえお」「じ」「ず」を「はひふへほ」「ぢ」「づ」に置換する,あるいは置換しない規則である.說明のなかで用ゐてゐる「動詞 五段・カ行イ音便」等の用語は茶筌及び ipadic の分類である.詳細は文獻[2]を參照のこと.

  文字   本則變換仕樣
    (1) 語中・語末では「は」に置換する.語頭では置換しない.
     (2) 語中・語末でも「わ」とすべきものは辭書に登錄されるものとする:
 あわてる,いわし,etc.
    (1) 語中・語末では「ひ」に置換する.語頭では置換しない.
     (2) 形容詞のとき語末の「い」は置換しない.
     (3) 動詞 五段・カ行イ音便のとき語末の「い」は置換しない:
 「突い(五段・カ行イ音便)-て」
     (4) 動詞 五段・ガ行のとき語末の「い」は置換しない:
 「急い(五段・ガ行)-で」
     (5) 五段・ラ行特殊のとき「い」は置換しない:
 「ください(五段・ラ行特殊 連用)-ます」
     (6) 助動詞 形容詞・イ段のとき「い」は置換しない.
     (7) 助動詞 特殊・ナイのとき「い」は置換しない
     (8) 助動詞 特殊・タイのとき「い」は置換しない
     (9) その他語中・語末で「い」とすべきものは辭書に登錄されるものとする:
 さいはひ,etc.
     (10) 「ゐ」に變換すべき語は辭書に登錄されるものとする.
    (1) 語中・語末では「ふ」に置換する.語頭では置換しない.
     (2) 動詞ウ音便・形容詞のとき語末の「う」は置換しない:
 「問う(五段・ワ行ウ音便)-て」
     (3) 名詞-非自立-助動詞語幹 よう[な]の「」は置換せずやう[な]とする.
     (4) 名詞-接尾-助動詞語幹 そう[な]の「」は置換せずさう[な]とする.
     (5) その他語中・語末で「う」とすべきものは辭書に登錄されるものとする:
 はうき,かうじ,etc.
    (1) 語中・語末では「へ」に置換する.語頭では置換しない.
     (2) 語中・語末でも「え」とすべきものは辭書に登錄されるものとする:
 おぼえ,もえぎ,etc.
     (3) 「ゑ」に變換すべき語は辭書に登錄されるものとする.
    (1) 語中・語末では「ほ」に置換する.語頭では置換しない.
     (2) 語中・語末でも「お」とすべきものは辭書に登錄されるものとする:
 はおり,物おぢ,etc.
     (3) 「を」に變換すべき語は辭書に登錄されるものとする.
    (1) 「ぢ」に置換する.
     (2) 「感じる(一段)」など基本形で じる,基本形以外語末 のとき,「じる」「じ」を「ずる」にして茶筌形態素解析を行ひ,「サ變・ズル 基本型」で返される場合は「ぢ」としない:
 信じる,甘んじる,etc.
     (3) 「すさまじい(形容詞・イ段)」型の「じ」は「ぢ」としない.
     (4) 上記以外で「じ」とすべき語は辭書に登錄されるものとする.
    (1) 「づ」に置換する.
     (2) 「感ずる(サ変・−ズル)」の「ず」は「づ」としない
     (3) 助動詞 特殊・ヌ の「ず」は「づ」としない.
     (4) 上記以外で「ず」とすべき語は辭書に登錄されるものとする.「負けず嫌い」など一語で定着してゐる(精確には茶筌辭書(ipadic)に一語として登錄されてゐる)名詞の「ず」は,助動詞 特殊・ヌ の「ず」に由來するものとは判斷できないため辭書に登錄すべきである.
  のう  (1) 「せつのう[ございます]」などののうなうに置換する.これは茶筌の誤解析への對應であり,「の」(助詞-連體化) 「う」(感動詞) が連續するとき,「ナイ形容詞」ウ音便と同等と判斷する.
  とう  (1) 「行きとう[ございます]」などのとうたうに置換する.これは茶筌の誤解析への對應であり,動詞連用形に「とう」(副詞-助詞類接續) が連續するとき行ふ.

品詞依存處理
辭書變換,本則變換に係りなく,品詞解析結果に基づき以下の變換を行ふ.

(助)動詞 未然ウ接續 または助動詞 特殊・ダ 未然(だろ[う])のとき,末尾の「お」行文字を「あ」行文字に置換する.たゞし「や」行の場合を除く.
  言 ⇒ 言ほう ⇒ 言
    行 ⇒ 行
    だ ⇒ だ
    見 ⇒ 見う(置換しない)
    し ⇒ しう(置換しない)
形容詞 連用ゴザイ接續 のとき,「しゅう」「じゅう」をそれぞれ「しう」「じう」に置換する.
  美しゅう[ございます] ⇒ 美しう
    すさまじゅう[ございます] ⇒ すさまじう
助動詞 特殊・デス 未然形「でしょ[う]」,特殊・マス 未然ウ接續「ましょ[う]」をそれぞれ「でせ[う]」「ませ[う]」に置換する.

拗音・促音變換處理
拗音・促音「ゃゅょっャュョッ」を「やゆよつヤユヨツ」に置換する.たゞし片假名のみからなる名詞は對象としない.

用字・用語變換

 

茶筌解析結果の語基本形で misima 辭書用字・用語變換定義テーブルを檢索する.ヒットしたとき登錄語で置換する.ヒットしないときなにもしない.

單純變換

 

對象テキスト行單位でテキスト斷片が misima 辭書單純變換定義に一致するとき登錄テキスト斷片で置換する.

注意事項

 

本プログラムは,計算機による機械的解析に基づく以上,制約,限界がある.ある程度の分量の文章に適用すると,變換誤りが含まれるものと思つたはうがよい.重要な文書に對しご利用になる場合には,必ず自分の目で變換結果をご確認いたゞきたい.

辭書に定義されてゐないパターンはうまく置換できない場合がある.システム辭書はまだ登錄語數が少ない.順次擴張していくつもりである.變換結果を評價してユーザで追加いたゞきたい.とりわけ動詞が名詞化した語に弱い.「負けず嫌い」などは一語として扱はれるため,「ず」は否定の「ぬ」に由來することが茶筌の解析では判斷できず,本則に從つて「づ」に置換されてしまふ場合がある(「負けず嫌い」そのものは辭書に登錄してある).

漢字の音讀みについて,現代假名遣ひで「しょう」と書かれても,舊假名では「しよう(松)」なのか「しやう(聲)」なのか「せう(小)」なのかはたまた「せふ(妾)」なのか,判斷できないことが多い.ある程度漢字假名混じりの和文でないと,人間が見ても難しいものがある.ましてや機械は追從できない.これら所謂字音假名遣ひは本システムではとくに配慮してゐない.辭書で一律置き換へることは可能であるが,意圖せずして變換される副作用も考慮すべきである.misima 辭書では茶筌に平假名で登錄された漢語の一部を定義してゐるが,私の獨斷で特定してゐるので意圖と合致するか利用者にて結果を確認する必要がある.いづれにせよ,漢語は漢字で入力するのが基本と考へていたゞきたい.

舊假名變換解析の前提となつてゐる茶筌そのものが形態素解析に失敗するために,適切に變換されない場合がある.これは對象の日本語が曖昧か,不適切であるか,もしくは語義の特定において文脈に著しく依存するケースが多い.ちよつとした脫字のために著しく語分割が變はつてしまふことがまゝある.日本語が曖昧な場合の例では,「おう.」といふテキストは,返事の「おう」と動詞「追う」終止形のどちらかは判斷できない.前者が明快に感動詞と解析できれば「おう」と「おふ」を辨別することができるが,茶筌がそこまで解析できない.この場合は,本プログラムは本則に從つて「おふ」(「追ふ」「負ふ」...)にたふす.「すえる」に對し,「饐えた臭い」の「すえる」よりも「腰を据ゑる」の「すえる」のはうをより一般的と解し,システム辭書で「すゑる」に變換するやうな場合もある.

本システムは文脈を判斷できない.日本語は省略の許容範圍が廣く,文脈で一貫性・論理性を確保する傾向が强いと思ふ.表現そのものを單獨で一意に解釋できないことがまゝある.文:「君にはやって見ようがない.」は,「君にはやつて見よう(との氣持ち)がない」とも,「君にはやつて見る手立て(見樣)がない」とも正則として解釋しうる.後者とした場合舊假名遣ひにすると「見やう」とすべきであるが,茶筌は前者で解析するやうで,「見よう」を「見よ(未然)」と「う(助動詞)」に分割する.よつて本システム本則處理も「見よう」のまゝ殘す.文脈からどちらかは判斷がつくわけであるが,システムはそこまで高度にはできてゐない.結果を自分の目で見直すべき所以である.

misima 舊假名遣ひ變換機能はあくまでも現代假名遣ひ,新字正則表記テキストの入力を想定してゐる.假に舊假名の文章を入力すると,茶筌が解析できず不當な語分割を行ひ,その結果もとの舊假名遣ひを「改惡」してしまふ可能性が高い.お手持ちの假名漢字變換ソフトウェアが,辭書のチューニングがなされてゐない情態において舊假名遣ひテキストを入力すると,とんちんかんな變換結果を返すのと同じ理窟である.misima は,これはすでに舊假名だな,などといつた高度な判斷はしない.くれぐれも上でしるした仕樣に基づいてゐることをご理解いたゞきたい.そもそも,日常的に舊假名遣ひ・舊字體で書いてゐるひとがこのプログラムを使ふとは思へないが.「舊假名遣ひ・舊字體初心者」が,より一貫性をもたせたい,不正確な部分を檢證したい,などの意圖で半完成の舊假名・舊字體テキストを misima に入力するのだとすれば,もとよりそんな中途半端な舊假名・舊字體表記の習慣はやめたはうがよい.

をはりに

 

misima には Emacs(Meadow)またはコマンドラインから直接利用できる SOAP Web Service 版もある (2005.8.1 公開). Emacs を愛用する方にとつて,使ひ慣れたエディタ環境で文書を作成しつゝ misima を操作できるので,Web ブラウザから使ふよりも壓倒的に便利なはずである.これは,上記 Emacs Lisp と使ひ勝手は同じであるが,ローカルマシンの misima をドライブする後者とは異なり,私のサーバに存する misima に對しネットワーク越しにアクセスする. Java 環境が必要であるが,茶筌,Perl をインストールしなくても misima を利用することができる.詳細は「Emacs から misima を使ふ」を參照してほしい.

misima SOAP Web Service 2.5 は,Emacs/Meadow のほか, Microsoft Word, 秀丸エディタ, Jedit X エディタ,TeXShop TeX 統合環境の各アプリケーション用のクライアントも用意してゐる.これらのソフトウェアで文書作成をしつゝ必要なテキスト領域を選擇して筆者のサーバの misima 變換サービスを利用することが可能である.弊サイトのダウンロード・サービスで入手できる.

このプログラムのそもそもの利用目的は,私自身のモチーフとして,TeX で古風な文書,漢文の引用や多言語/和文混在の文書の作成を效率よく行ふことにある.文科系 TeX ユーザの利便性を考慮したつもりである.文學硏究論文の作成において,露西亞語をはじめ,西歐古典文獻や中國・日本の古典籍等,多樣な言語文化を本來の姿で引用し,巧みに計算機で文書化することが,昔からの私の課題であつた.計算機の活用がかうした傳統的な印刷術を追ひ求めるのは皮肉といふほかないが,やうやく個人の計算機環境においても一定のレベルで實現できるやうになつた氣がする.この前提として LaTeX のコミュニティで公開されてゐる OTF パッケージや sfkanbun パッケージなどの數多くの優れた業績がある.最後になるが,日頃お世話になつてゐるこれらのパッケージの作者の方々には改めて謝意を申し上げたい.

本プログラムは,日本語形態素解析ソフトウェア『茶筌』の解析結果と,『私の國語敎室』における定式化とに準據することにより,舊假名遣ひ變換を試みたものである.奈良先端科學技術大學院大學情報科學硏究科自然言語處理學講座の方々,福田恆存氏のこれら業績に敬意を表したい.一方で,日本語表記の多樣さゆゑに私自身で茶筌辭書そのものに相當量追加せざるをえなかつたり,茶筌の解析結果を「誤解析」として採用しなかつた部分もある.また『私の國語敎室』は學問的に完全な定式化とはいへず(ことばは變容していくものなのだから當然である),著者が本則の「例外」としてあげた語彙以上のものを misima 辭書に取り込まなければならなかつた.このため變換精度は最終的には misima の責任であり,ユーザ自身で評價いたゞくしかない.

このページそのものを本プログラムで處理した結果を參考までに揭載しておく.ブラウザのフォント環境によつては表示されない文字があるかもしれない.變換例など舊假名變換したくない部分は <misima_noop> 無變換指定を行つてゐる(本現代假名遣ひ・新字體版のソースを見ていたゞくとよい).

參考文獻

 

[1]奈良先端科學技術大學院大學情報科學硏究科自然言語處理學講座
  『形態素解析システム《茶筌》 version 2.3.3 使用說明書』, 2003.08.

[2]奈良先端科學技術大學院大學情報科學硏究科自然言語處理學講座
  『ipadic version 2.7.0 ユーザーズマニュアル』, 2003.11.

[3]福田恆存著 『私の國語敎室』 文藝春秋,2002. (初版 新潮社,1958)
[4]府川充男/小池和男著 『舊字舊かな入門』 柏書房,2001.
[5]久松潛一監修 『改訂 新潮國語辭典 —現代語・古語—』 新潮社, 1980.
[6]文部省敎科書局調査課國語調査室
  『くりかへし符號の使ひ方〔をどり字法〕(案)』, 1946.3.
  (北原保雄監修 『岩波 日本語 使ひ方 考へ方 辭典』 岩波書店, 2003. 所收)

私の國語敎室 舊字舊かな入門 岩波 日本語使ひ方考へ方辭典

おことはり

 

今昔文字鏡 本プログラムは Unicode UTF-8 コードを『今昔文字鏡』の文字番號に變換する機能を有してゐるが,こゝで公開してゐる Web 版ではライセンスの關係で利用できないやうになつてゐる.『今昔文字鏡』の文字番號は株式會社大修館書店の刊行する『大漢和辭典』に基づいてゐる.

利用

 

更新履歷

 

Feb. 27, 2005 變換仕樣詳細・辭書仕樣追加
May 4, 2005 舊字體表示テストページ追加
May 13, 2005 辭書 Ver.1.0 リリース
May 22, 2005 繰返し符號變換仕樣變更
July 11, 2005 TeX 變換機能記述追加
July 18, 2005 無變換指定機能他記述追加
Aug. 6, 2005 用語を「舊字(體)」に統一.SOAP WebService.
Jan. 9, 2006 TeX 變換機能擴充,フォーム仕樣變更對應
June 21, 2006 TeX 變換機能 Izhitsa 廢止(T2D に統合)
Aug. 26, 2006 misima-2.3 パッケージ記述
Aug. 27, 2006 參考文獻 Amazon リンク追加
Sept. 30, 2006 舊字變換 JIS 範圍內變換機能追加
Oct. 4, 2007 綜合ドキュメント
Oct. 9, 2007 misima-2.3i Microsoft Word クライアント
Oct. 31, 2007 misima SOAP Web Service 2.4