このお休み,漢詩作成支援プログラム(友人向け)の漢字 DB と詩語 DB のメンテナンスをしていた。ある方の好意でいただいた詩語集を SQLite3 データベースとして構築したとき,いくつか課題を残した。前回(記事『misima 漢詩・詩語集拡充』)では,詩語集の Excel データ CSV 変換で JIS 第三・第四水準文字の文字化けがあった。さらにこれら文字化け解消の過程で漢字 DB 収録文字が 60 ほど足りないことがわかった。また,私自身で準備した詩語データと入手詩語集データとの合体をキー重複排除程度で済ませたため,情報の欠落があった(キーは同じでもぶら下げた情報が異なるものが落ちてしまった)。旧字体エントリ追加でエントリの重複・過剰があった(旧字体変換で使用した misima 旧字・旧仮名遣い変換プログラムは戦前までの用字用語への変換も行う。このため本来の新字体—旧字体以外の変換も実行してしまった結果,余計なエントリができてしまっていた)。今回,これら課題をすべて始末した。この結果,漢字 DB は 7006 文字,詩語 DB は 82957件となった。詩語は旧字体エントリの整理などで少し減った。
旧字体エントリ追加に伴う重複・過剰の整理をしていて,やっかいな問題に遭遇した。旧字体エントリの追加というのは,例えば「如糸」という詩語エントリがあるとして,「糸」をその旧字体(正字体)である「絲」に置き換えた「如絲」というものもプログラムで自動的に生成し,新旧両字体で詩語検索ができるエントリ拡張を意図している。ところが,漢字字典によれば「糸」,「絲」の平仄は,それぞれ,仄入聲十二錫,上平聲四支で異なるのである。平仄が異なると韻字検索で齟齬が出る。韻字で「糸」を検索した場合にも「絲」がヒットしないといけないのに,平仄が違うと同韻字として「絲」を拾うことそのものが誤りになる。字体の問題なはずなのに,平仄の食い違いが何故起こるのか。
いわゆる「いと」の意味の漢字はもともとは「絲」(音:シ - 上平聲四支)が正しい文字である。「糸」(音:ベキ,ミャク - 仄入聲十二錫)は本来「蚕の繭からとった細い原糸」(『漢字源』第四版,学習研究社,2007 年)という特別な意味で用いられるものだったようである。ところが「絲」の略字として「糸」が流通し,一般的・概念的な「いと」も「糸」を用いるほうが普通になった。それで平仄の異なる文字が新字体—旧字体の対になってしまった。事情はこのようなもののようである。漢詩を為す現代人もおそらく「いと」を意図して「糸」の文字をつくるのではないか(?)。こう考えると,「糸」を「絲」と同じものとして扱うほうが音韻処理方式として妥当だろう。特殊よりも一般に合わせるほうが可用性が高いからである。
このように新字体—旧字体で平仄が異なる対をチェック・プログラムで洗い出し,『字源』(増補版,角川書店,1955 年)と『漢字源』でひとつひとつその差異の意味を調べた。糸の原料をもたらす「蚕」(かいこ)も,その旧字体「蠶」(正確にいえば「蠶」は異体字というべきだが,正字体は JIS にも Unicode にも登録されておらず,「蠶」が正字体に近い字体である)とで平仄が異なる(蚕:テン,仄上聲十六銑 — 蠶:サン・ゾン,下平聲十三覃)。ここで「蚕」は,字典によれば,「かいこ」の意味では「誤用」であって,もともとは「ミミズ」を意味する文字である。「虫」(音:キ・ケ,上聲五尾)—「蟲」(音:チュウ・ジュウ,上平聲一東)の関係もこのようなものである(「虫」は「蟲」の略字で,本来は「マムシ」の意である)。漢詩作成支援としては,誤用や略字用法よりも旧字体の用法が漢詩の本性に相応しいと思われるので,こうした新字体の平仄をすべて旧字体に合わせることにした。つまり,例えば「糸」の平仄属性としてこの字本来の仄入聲十二錫ではなく「絲」の上平聲四支を登録した。もちろん,ミミズやマムシの意で「蚕」,「虫」を使いたい方がいるかも知れないが,それくらいの学識をもった方なら私の漢詩作成支援の診断・出力結果によらず作詩は可能だろう。一応,こうした措置は漢字 DB の備考欄に書き加えたので,漢字 DB で確認するとわかるようになっている。
漢字の音韻も字典によって違うものがあったりして面白い。「辨」という字(「弁」の「わける・わかつ・わきまえる・けじめをつける」意での旧字体。ちなみに「しゃべりがうまい」意での「弁」の旧字体は「辯」である)は,『字源』:上聲十六銑・去聲十六諫,『漢字源』:上聲十六銑のみ,『漢語新辞典』(初版,大修館,2001 年):去聲十六諫のみ,となっている。このように,漢字に懲り出すと際限がない。