UCS BMP (Unicode)にない漢字

UCS BMP は 20902 字の漢字を収めており, 現在ふつうに使われている他の漢字集合に比べると格段に満足度が高いのですが, もちろん世の中の漢字がこれだけしかないわけではありません。

このページでは, 人名用のちまちました異体字とか, 木偏にキで「機」を表すような略字とか, 字引にしか現れない音義未詳字とかは除き, 現実生活で必要になる文字のうち UCS BMP にないものを少しずつまとめていきたいと思います。

もちろん何かの文献を取ってきて, その中の僻字を抜き出してくるのはいくらでもできるわけですが, ここではもうちょっと特定の文献を離れて再利用される文字を集めたいと思います。

特定の文献の文字を集めたものとして, たとえば 坂口丈幸さん は三国演義のうち JIS X 0208 にない 304字を集めたページを作っていますが, そのうち補助漢字にない字が 30, Big5 にない字が 19 あります。 どちらにもない 7字のうちには UCS BMP にすらない字も 3字混じっているようです。 (大漢和 13211, 44799, および番号なし[玉偏に熏])

京大人文研の丹羽正之・勝村哲也氏によるe漢字研究では, 大漢和・UCS BMP の字すべての 24ドットフォントが作られており, 大漢和番号を入力すると GIF で表示してくれるページもあります。 また「規格外漢字」として大漢和や UCS にない文字も集めているようです。

本文中の Uxxxx は UCS BMP の符号位置(16進4桁)です。 文字の GIF はかなり汚いですが我慢してください。

(1999-02-02 追記) 現在新規登録を止めています。
新しいJISの公開レビューでは 2694の漢字が候補に挙がっていますが, 公開レビュー用の資料を信頼するならば, Unified Ideograph 20902 字に含まれていない字が 484字もあるようです。 これは 2694字中の 18% にあたります。 こんなに非 UCS 文字の比率が多いのは珍しいことだと思います。

JO 日本では一万垓(1024)を意味する数の名としてこの字が使われていることが多い。 出典は江戸時代の算術書であるが, どうももとは「姉」の異体字の女偏を禾偏に変えた字(シ,U79ED)だったものが, なにかの拍子で右側が「予」に化けたものらしい。 したがって字典類には載っていないことが多い。 「ジョ」と読むことになっている。 師尾氏の雨粟莊:大数の名前を参照。
JO 北魏の年号「神〜」。 428年から431年まで。 年号なので, 歴史関係の人間は使わざるをえない場合があるだろう。 大漢和番号47614。 「カ」と読む。
KYO56 広韻の韻目, つまり二百六韻の一。 去声五十六。 「火杖也。他念切」とある。 大漢和辞典(15176)・康煕字典は旁の下を心でなく水(というか泰の下半分)に作っているが, こちらの字も UCS BMP には見えない。 なお大漢和辞典の補遺(49170)には広韻と同じ形の字が見える。 大漢和は木偏に舌の字(U681D)に同じとするが, 広韻ではこの字は上声なので代用にならない。 中国語の音韻を云々するときにはどうしても必要になる字である。 広韻の意図を推測するに, 平声が添・上声が忝だったので旁を忝で合わせたかったのだろう。 当然「テン」と読む。
KETU 大漢和番号12941。 「ケツ」と読む。 中央の糸を吉に変えた字(手偏に頡)の異体字。 この字がなんで重要かというと, 哈佛燕京の引得で使っている文字番号の名称が「中国字キケツ」 (キの字は广に支, U5E8B)というからである。 文字の筆画によって 0 から 9 までの番号をつけていくのだが, キの字は 01234, ケツの字は 56789 なのである。
AKEBI JIS X 0208 の典拠調査によってきわめて有名になった字。 「あけび」と読むそうだ。 JIS X 0208 の「妛」(54-12)収録根拠である, 滋賀県の字「〜原(あけんばら)」は実はこの字だった。 もっとも字の名称で JIS X 0208 にない文字はこれだけではない。 こういうのは国字だから, JIS になければ(偶然の一致がない限り) UCS BMP にもないのである。
ROO これも JIS X 0208 の検討で問題になった字。 「臈」(71-37)の異体字であるが, ふつうはこういう「相対的な長さ」の違いは包摂しない(荊のような例外を除く) ので, 「JIS にない字」であると考えられる。 日本で「上臈」というときにはこっちの字を使う方が普通。
IBM の拡張漢字に含まれており, UCS BMP でも CJK Compatibility Ideograph (UFA1F) として定義されてはいるが, 継子扱いである。
TA 「鍋〜」(guo1ta1) という中華料理用語がある。 中日大辞典に「料理法の一: 材料に生卵をまぜたものをぬり, 小麦粉をまぶして揚げ, 油をきってからさらに調味料を加えとろ火でやわらかになるまで煮ること.」 とある。 しかし, 中華料理の本以外の一般の辞書には見当たらない。 なぜか大漢和辞典にも載っていない。 中国食文化事典の索引ではなぜか「煽」になっているがもちろん別字。 本文ではちゃんとこの字が書いてある。
BIAN 同じく中華料理用語。 数ある炒めかたの一種。 bian1 と発音する。 これも中華料理の本以外の一般の辞書には見当たらない。 中国食文化事典では旁が簡体字になっているが, もちろん簡化字総表にはこの字はない。 横浜中華街ページの中にある 中華料理の系統的分類:その伍に見えるが, 字が潰れてしまっている。
追記: 火偏に扁を書いた字も大漢和にはないが UCS にはあり(7178), こちらは中日大辞典の新版に見える。 火偏に邊の字はこの字の異体字のようだ。 火偏に扁の字の略字だとすれば, 旁を邊にせず簡体字で書いてこそ意味があることになる。
BIAN というわけで簡体字の方もあげておく。 もっとも中国食文化事典では二点しんにゅうになっていたが。
BIAN これも中華料理文字。 「弱火煮」の意で, kao4 と読む。
BIAN 同じく中華料理文字。 四川料理で「グツグツ煮る」の意。 du だが声調不明。 24dot フォントから起こしたので汚いのはご容赦。
BIAN 上の字の異体字。

文字コードの話に戻る