中国語の文字集合については,
に詳細な説明があります。
(1999-02-22 追記) その後 Ken Lunde 氏は 1999年に O'Reilly から CJKV Information Processing を出版しました。
以下, 簡体字中国語と伝統的中国語にわけて説明します。
中華人民共和国の文字集合 GB2312 (GB は Guojia Biaozhun 「国家標準」の頭文字。 GuoBiao と略されることもある) は 1980年に制定され, 2バイト文字集合としては日本のものに次ぐ古さを持っています。 大変よく普及しています。 日本で「JISコード」というと JIS X 0208 をさすように, 「GB碼」といえばこの GB2312 のことをさします。 JIS と同じ 2バイト文字で, 各バイトは 21-7E の 94 通りの値を持ちます。 規格票では各文字に日本でいう「区点番号」と同様の 10進 2桁の数字がふってあります。 (ほとんど直訳して「区位碼」と呼ぶ) すべてを使えば 94 x 94 = 8,836 字が定義できるはずですが, 実際には 7,445 字が定義されています。 そのうち漢字は 6,763 字です。 漢字の第一水準(3,755字)がピンインのアルファベット順, 第二水準(3,008字)が部首画数順というのも JIS X 0208 そっくりです。 ただし部首は康煕部首ではありません。
GB2312 コードと ASCII の混在は, 通常 8bit 環境で GB コードの MSB を立てることによって行います。 ISO2022 の用語に従えば GL=G0=ASCII, GR=G1=GB2312 となります。 (EUC-JP に類似) RFC1922 ではこのコードを CN-GB と呼んでいます。 また EUC-CN と呼ぶこともあるようですが, IANA の文字集合名では GB2312 を "preferred MIME name" としています。
8bit を通さないプロトコルでは RFC1922 の ISO-2022-CN を使うことも可能ですが,
いまのところ後述の HZ を使う方が普通です。
(2000-03-04 追記) 現在はメールや NetNews でもむしろ
8bit で直接書く方が普通になってしまいました。
漢字以外に, 平仮名・片仮名・ギリシャ文字・キリル文字・注音字母などを 含んでいます。 もっとも長音符号がないので, GB では仮名はやや使いづらいでしょう。 上記の MSB を立てた形で内訳を大まかに記すと:
| A1A1-A1FE | 一般記号 |
| A2A1-A2FC | 飾りつき数字(点付き・括弧付き・丸付き・ローマ) |
| A3A1-A3FE | GB1988 (1バイト文字)と同じ物 |
| A4A1-A4F3 | 平仮名 |
| A5A1-A5F6 | 片仮名 |
| A6A1-A6B8 | ギリシャ文字 |
| A7A1-A7F1 | キリル文字 |
| A8A1-A8BA | 声調つきピンイン母音 |
| A8C5-A8E9 | 注音符号 |
| A9A4-A9EF | 罫線 |
| B0A1-D7F9 | 漢字第一水準 |
| D8A1-F7FE | 漢字第二水準 |
HZ というのは GB2312 のコードを 7bit 環境で ASCII と混在させて使う方式で, スタンフォード大学の李楓峰(Fung F. Li) が考案しました。 IANA には HZ-GB-2312 という名前で登録されています。
この方法は ISO-2022-JP に似ていますが, エスケープシーケンスのかわりに ~{ で GB2312 の開始を, ~} で ASCII の開始(GBの終了)を示します。 また ~ で行が終わっている場合は, 次の行とつながっていることを示します。 ASCII の ~ 自体は ~~ で表します。 詳細は RFC1842 を見てください。
ISO2022 に従ってはいないものの, ESC コードを含まないので ESC を通さないプログラムがあっても改造する必要がないという利点があります。 欠点は, 単なる ASCII なのか HZ なのかバイト列からだけでは判別できないことでしょう。 GB2312 の文字を使わない場合でも ~ が出てきたら重ねなければいけない, というのはあまりうれしくない点です。
なお HZ とはおそらく Hanzi(漢字) の略だと思います。
"zW" も HZ と同様に 7bit 環境で GB と ASCII と混在させて使う方式で, インディアナ大学(当時)の魏亜桂(Wei Ya-Gui) が考案しました。 ZWDOS という, 英語 DOS を中国語対応させるシェアウェアで使われています。 (ifcss 他から入手可能) HZ よりも古くからありますが, 現在は HZ の方が普通に使われています。
行の始めが "zW" (7A 57) で始まっていると, そこから行末までを GB だとみなします。 実際には改行は無視されます。 GB の後の改行を無視されたくない場合は行末に "#" (23)をつけます。 その他, GB 行の途中に 1文字だけ ASCII を使いたいときは, たとえば "?" (3F) なら " ?" (20 3F) のように頭にスペースをつければよいなど, いくつかの工夫があります。
"zW" とはもちろんこのコードの行頭のマーカーに由来しますが, おそらく Zhongwen(中文) の略だと思います。
GBF の F は Fantizi「繁体字」の頭文字です。 GB2312 は簡体字しか含んでいないので, 繁体字を表現する必要がある場合は GB12345 を使います。 「繁体字」なのに「簡体字中国語」の項目にあげるのは変ですが, 「簡体字中国語」とか 「伝統的中国語」というのは字の種類というよりは 政府の違いを婉曲に表現したものなので, GBF もこちらにあげておきます。
おおまかにいえば GB12345 は GB2312 の簡体字を繁体字に置き換えたものです。 置き換えた漢字は 2,145 字(下記の入れ替え文字を含む。 資料によって字数に多少の出入りあり ;_; ), つまり全漢字の約3割にのぼります。
さらに, ひとつの簡体字が複数の繁体字に対応する場合があるので, 103字を F8A1-F9A9 に追加してあります。 たとえば「制」は「製」の簡体字でもあるけれども日本の「制」と同様にも使うので, 「制」を「製」に置き換えることはせず, 「製」を F9A5 に追加する, といった具合です。 この 103 字のうち 46 字は「置き換えのために消えた字を復活させた」と解釈できます。 たとえば GB2312 では「雲」という字はなく「云」に統一されていますが, GB12345 では GB2312 の「云」の位置にあたる D4C6 に「雲」の字が置かれ, 「云」の字は新たに F8FD に移動しています。 ただしすべての場合にこのような移動が起きたわけではなく, たとえば GB2312 で「机」の字が置かれている BBFA には GB12345 では「機」の字がありますが, もとの「机」の字は GB12345 には存在しません。
さらに GB2312 と GB12345 で入れ替えられた文字もあります。 たとえば GB2312 では「后」が BAF3, 「後」が E1E1 ですが, GB12345 では逆に「後」が BAF3, 「后」が E1E1 になっています。 同様な例は C3B4 と F7E1 (shenme の me の簡体字と繁体字), D3E0 と E2C5 (「余」と「餘」, ただし「餘」の「食」の部分は GB12345 では簡体字から繁体字に変更) にもあります。
cjk.inf によると D5F7(征) と E1E7(徴) も入れ替わっているようですが, Unicode Consortium のマッピングテーブルではそうなっていません。
| GB12345 内の文字の種類 | 字数 | 合計 | |
|---|---|---|---|
| 2312と共通 | 符号位置同じ(制 etc.) | 4,618 | 4,664 |
| 2312表内移動(后後余) | 5 | ||
| F8A1以降に移動(云) | 41 | ||
| 繁体字 | 符号位置同じ(機雲) | 2,139 | 2,202 |
| 2312表内移動(餘) | 1 | ||
| F8A1以降に追加(製) | 62 | ||
UCS の解説によると, GB12345 の 6,866 字のうち CJK統合漢字に採用されたのは 2,192字ということですが, 上の表では 2,202 字あるはずです。 残りの 10字はどうしたのでしょうか。
このほか FCA1 以降に「香港文字」58字, FDA1 以降に「吏読」94字が追加されているという情報があります。 (UCS の規格の, CJK統合漢字原規格 G1 の説明に由来するか? しかし UCS の規格では 92字となっている。) これをいれると漢字の追加は 255 字となります。
この他, 非漢字も GB2312 に対していくつか追加されているはずなのですが, Unicode Consortium のマッピング表には現れていません。 Ken Lunde によると縦書き用の文字が 29個(うち 19個が GBK に採用) あるはずです。 そのほかに GB6345 で追加したピンイン 6文字 (GBK, ISO-IR-165 参照) も含まれているはずです。
GB12345 のおかげで, GB2312 で書かれたデータを「ほとんど」変更せずにそのまま 繁体字データとして扱うことができるわけですが, 逆に言うとバイト列を見ただけでは GB2312 で書かれているのか GB12345 で書かれているのかわからない, という問題を持っています。
GBK の K は Kuozhan (拡展) の頭文字で, 公式規格ではありませんが, Microsoft Windows95 の簡体字中国語コードページ (CodePage 936) ではこの文字集合を使っており, かなり普及しています。 体系としては, GB2312 に互換性を持たせつつ, UCS BMP (Unicode) に含まれる漢字(20,902字)のうち, GB2312 に含まれないものを すべて追加したものです。 GB のための領域では不足なので, 日本のシフトJIS と同じように領域を拡大して, 拡大した部分に漢字を端からつめて押し込んでいます。
| 1バイトめ | 2バイトめ | 最大字数 | 実際の字数 | |
|---|---|---|---|---|
| GB2312(GR) | A1-FE (94) | A1-FE (94) | 94x94 = 8,836 | 7,445 |
| GBK | 81-FE (126) | 40-7E,80-FE (190) | 126x190 = 23,940 | 21,886 |
21,886 字の内訳は漢字が 21,003 字, 非漢字が 883字です。 漢字数が UCS BMP の全漢字より 100字も多いのは,
| 8140-A0FE | UCS の漢字(4E02-72DB) | 6,080 |
| A2A1-A2AA | ローマ数字(小文字) | 10 |
| A6E0-A6F5 | 縦書き用の記号類 | 19 (あき3字) |
| A840-A895 | 記号の追加 | 85 |
| A940-A996 | 記号の追加 | 81 (あき5字) |
| A8BB-A8C0 | ピンインの追加 | 6 |
| AA40-FD9B (2バイトめ40-A0) | UCS の漢字(72DC-9FA5) | 8,059 |
| FD9C-FE4F (2バイトめ40-A0) | UCS の互換用漢字 | 20 |
| FE50-FEA0 | UCS にない漢字 | 80 |
GB 18030 は 2000年3月17日に公布された公式の規格です。 上記の GBK と互換性を持たせつつさらに拡張したもので, 1, 2, 4 バイトの複雑なマルチバイト符号化文字集合になっています。
| 符号位置数 | 1バイトめ | 2バイトめ | 3バイトめ | 4バイトめ | |
| 1バイト文字 | 129 | 00-80 | |||
|---|---|---|---|---|---|
| 2バイト文字 | 23,940 | 81-FE | 40-7E,80-FE | ||
| 4バイト文字 | 1,587,600 | 81-FE | 30-39 | 81-FE | 30-39 |
UCS が拡張を繰り返して, GBK では対応できなくなったため, 新たに 4バイト文字を加えて, そこに GBK で定義されていない文字を漢字であるとないとを問わず順に押し込んでいったものです。 このため, 漢字以外のチベット・ウイグル文字などにも対応できることになり, そこを売りにしたいようです。
2000年7月には glibc 2.2 でも GB 18030 が使えるようになりました。
7.ISO-IR-165 (CCITT Extended GB)
GB2312 に GB6345 と GB8565 の変更を反映して, さらに文字を多少追加したものです。 GB2312 と比較すると, 非漢字が 223字, 漢字が 775字の 998字が追加されています。
| 符号位置 | 種類 | 字数 | 備考 |
|---|---|---|---|
| A6DC-A6F1 | パターン | 22 | 新規追加 |
| A8BB-A8C0 | ピンインの追加 | 6 | GB6345 で追加 |
| AAA1-AAFE | 半角ラテン文字 | 94 | GB6345 で追加 |
| ABA1-ABC0 | 半角ピンイン | 32 | GB6345 で追加 |
| ACA1-AEFC | 追加漢字 | 280 | (注1) |
| AFA1-AFE5 | 合字 | 69 | GB8565 で追加 |
| AFE6-AFFE | 追加漢字 | 25 | 24字は GB8565 で追加, 固有名詞用? 1字は新規追加。 |
| FAA1-FEFE | 追加漢字 | 470 | GB8565 で追加。 GB7589 の一部。 |
(注1)ACA1-ACFE, ADD3-ADFE の 138 字は新規追加。 ADA1-ADD2 の 50 字は GB7589 の一部, AEA1-AEFC の 92 字は GB7590 の一部でともに GB8565 で追加。
この文字集合については, 私は詳しい由来を知りません。 cjk.inf と安岡氏の表を参考にして記述しました。
GB2312 は「基本集(Primary Set)」であり, さらに追加文字集合として以下の文字集合が追加されています。
| 規格番号 | 通称 | 備考 |
|---|---|---|
| GB7589 | GB2 | 7,237字 |
| GB7590 | GB4 | 7,039字 |
| GB13131 | GB3 | GB7589 の繁体字版 |
| GB13132 | GB5 | GB7590 の繁体字版 |
ちなみに GB1 は GB12345 のことです。
このほかに GB12052 という韓国語用の文字集合があり, この中に吏読(Idu) 94字が含まれています。
中華人民共和国では簡体字に対して古くからの画数の多い文字を繁体字と呼びますが, 繁体字という言葉はやや貶意があるので, 台湾などで簡体字と区別する場合は「伝統字」と呼びます。 もっとも台湾の文献でも「繁体字」と書いているものも多いので, それほど気にすることはないかもしれません。 中華人民共和国にも繁体字を使う GBF があるのですが, 「伝統的中国語(Traditional Chinese)」という場合は普通これは指さず, 要するに中華人民共和国の簡体字を使わない, 台湾とか香港 その他の中国語使用者の間で使われる文字集合のことをいいます。 文字だけでなく, コード体系自身が GB とまるで異なります。 伝統的中国語は東アジアの文字集合の中でも最もやっかいな代物です。
台湾の規格協会が中心になり, 5つの会社の間で調整して作ったために Big5 という名前があります。 GB のような国家標準ではありませんが, 伝統的中国語の文字集合としてはもっともよく使われている, 事実上の標準です。 2バイトで 1文字を表し, 1バイト文字(ASCII)との区別を 1バイトめの値によって行う点は 日本のシフトJIS によく似ていますが, 日本のような半角カナがないため, 字数はシフトJIS よりかなり多めになっています。
| 1バイトめ | A1-FE (94種) |
| 2バイトめ | 40-7E, A1-FE (157種) |
この他, 8140-A0FE の領域をユーザー定義文字その他に使っている方言もありますが, ここでは省略します。
この表からわかるとおり, 最大 94x157 = 14,758 文字を含むことができるわけです。 実際には 13,700字あまり(方言により異なる)が使われています。 そのうち漢字は 13,053 字ですが, 複数の位置に重複定義されている文字が 2字あるので, 実質 13,051 字です。 この重複は Big5 の文字選定基準になった台湾の常用・次常用国字標準字体表(1982) のバグに由来するものだそうです。 日本事務機械工業会標準化委員会技術セミナー「ネットワーク時代の電子文書処理」(1997)での安岡孝一氏の基調講演などを参照。 内訳は以下のようになっています。
| A140-A3BF | 記号 |
| A440-C67E | 漢字第一水準 5,401字 |
| C6A1-C8FE | 記号その2 |
| C940-F9D5 | 漢字第二水準 7,652字 |
Big5 の最大の問題点は方言差があることです。
日本でもベンダーごとに独自の文字を定義している場合が多いのですが,
Big5 の違いはその段ではありません。
大きく分けて ETen (
Microsoft の Big5 (Cp950) については他にいろいろ興味深い問題があるので,
後述の 7. を参照してください。
Big5 は国際標準を無視しているので, ISO2022 に従った形の CNS11643
が 1986 年に作られ, これが台湾の標準の規格ということになっています。
Big5 と CNS11643 の関係は, シフトJIS と JIS の関係によく似ていますが,
CNS11643 が Big5 よりも後からできた, という点に大きな違いがあります。
現実には Big5 の方が CNS11643 よりもはるかによく使われています。
中国語の文字集合といえば GB2312 と Big5 の 2つを押さえていればいいくらいです。
Big5 は ISO2022 の 2バイト文字集合が扱える字数を越えているので,
CNS11643 は複数の「面(plain)」を持つコード体系になりました。
漢字第二水準部分(Big5 の C940-F9D5)が第二面, それ以外が第一面です。
ただし Big5 の重出字には 1つしかコードを振ってありません。
この他に Big5 にない 6,148 字(うち Unicode には 4,197 字が含まれる)を定義した
第14面が定義されていました。
後に CNS11643 はさらに面の数を増やし,
CCCII (後述)の文字なども含むようになりました。
Ken Lunde 氏の CJKV Information Processing に文字表があります。
なお, Big5 と CNS11643 の間の変換は,
その成立経緯から考えて単純な関数でできそうなものですが,
順序が入れ替わっている所があっちこっちにあります。
(Big5 が部首画数順になってない箇所を正しく直したのが大きな理由のようです)
RFC1922 に対応関係が記述されているのですが, 完全ではないようです。
ごくおおまかな対応関係を示すと以下の通りです。
Big5 で統一されていない平仮名・片仮名・キリル文字は
CNS11643-1 には含まれていません。
ただし康煕部首・丸付き数字・括弧付き数字・ローマ数字は定義されています。
IBM の Big5 方言にしかない制御記号の図形表現などもあります。
これらはすべて第一面の 26xx-29xx の間に配置されています。
8bit の文字集合。
IANA にはこの文字集合は登録されていません。
CNS11643 を使った EUC の台湾版です。
GL=G0=ASCII, GR=G1=CNS11643-1, G2=CNS11643-2 以降です。
G2 の文字の前には SS2 (8E) をつけ, そのつぎに面の番号(
第二面 なら A2, 第三面なら A3 etc.)を指定します。
GB と CNS11643 と ASCII を混在可能な, 7bit の符号文字集合です。
RFC1922 に記述があります。
ISO2022 に従った方式で,
具体的には G0=ASCII, G1=GB2312 または CNS11643-1, G2=CNS11643-2 とします。
各行の初期状態は G0 とし, G1 に切り替えるのに SO(0E) を,
G0 に戻すのに SI(0F) を使います。
G2 の文字の前には SS2 (1B 4E, 続く1文字のみ G2 とみなす) を使います。
G1, G2 にその行で初めて切り替えるとき,
および G1 を GB2312 と CNS11643-1 の間で切り替えるときには
その前に下のように文字集合指示のエスケープシーケンスを置きます。
これをさらに拡張した ISO-2022-CN-EXT なども提案されていますが,
エスケープシーケンスが割り当てられていない文字集合まで含んでいるので
いまのところ実装は不可能です。
GB と CNS11643-1/2 (つまり Big5) と ASCII
が同時に使えるという意味では夢の中国語文字集合ですが,
歴史的に新しいこともあり,
いまのところあまり普及していません。
中国語で書かれた Web サイトに行くと GB と Big5 のページを
別々に作っていることがよくありますが, ISO-2022-CN
が普及すればそういう手間が削減されることになるかもしれません。
ただし,
たとえば GB2312 と CNS11643 のどっちにもある字は
どちらのコードを使って表現したらいいのか不明である, という問題があり,
私個人はあまり ISO-2022-CN が好きではありません。
ISO-2022-CN のように 7bit で ASCII, GB, Big5 を混用する方式で,
Stephen G. Simpson が考案しました。
その名のとおり HZ を拡張して Big5 が使えるようにしたもので,
CNS11643 同様 Big5 を C940 を境にして第一部と第二部に分け,
それぞれを 2121-7D7E の範囲にベタにマップし直します。
具体例として Big5 の A140-A2FE について対応する
HZ+ コードを表にすると以下の通りになります。
マップのしかたは CNS11643 にちょっと似ていますが, より規則的です。
そして第一部の前には "~>" を, 第二部の前には "~<" をつけます。
さらに 8140-A0FE を使う場合にはその前に "~=" をつけます。
あとは HZ と同じです。
実際に使われているのを見たことはありません。
台湾の中国科学院が 1980年に制定した文字集合(後に改定あり)で,
Chinese Character Code of Information Interchange の頭文字をとったものです。
3 バイト(各バイト94点)のコードなので, 原理的には 83万字あまりを含むことが可能です。
中国語(簡体字・伝統字)・日本語・韓国語のすべてを表現できます。
伝統的中国語だけでも 4万字以上を含み,
字数がたいへん多いのが魅力です。
ほかに, 異体字同士がコード上でも関連するような設計など, 興味深い点も多いのですが,
利用のために専用のハードウェアが必要だったこともあって,
あまりふつうには使われていません。
現在も図書館業務などには使われているそうです。
7. Microsoft CodePage 950 (拡張 Big5)
Windows のコードページ 950 では, 通常の Big5 の一番終わりの漢字(F9D5, 龍を 3つ書く字)
のさらに後ろに, 以下の 7字を追加しています。
また, F9DD-F9FE には罫線文字などの記号を追加しています。
これらの文字は倚天ですでに追加されていたものです。
さらに, 符号化文字集合としては関係ないのですが,
Big5 用のフォントファイルは, さらに UCS の規格票で「TE」と呼ばれている
漢字 4,197 字をも収めています。
これらの文字は Big5 のコーディングを使わずに
WideChar API で出力した場合にのみ出力されます。
(ただし Windows95 では出力不能。
Window98, Windows NT では出力される。)
上記 7字はいずれもこの 4,197字の中に含まれています。
UCS との関係で言うと, Big5 C255 「彝」の字に関しては注意が必要です。
UCS の規格や Unicode のマッピングテーブルではこの字は上を「ヨ」のように作り,
U5F5E に対応するはずなのですが, Windows の MultiByte ⇔ WideChar
変換では U5F5D (JIS X 0208 の「彝」と同じコード)に変換します。
さいわい前述の「TE」で U5F5D の字も追加されているので,
あまり大きな問題にはなりません。
Big5 は 13,700 もの漢字を含んでいて, 古典などを入力するのにはかなり充分なのですが,
現代の文章を入力しようとすると意外に重要な文字が抜けているものです。
そこでいろいろな企業や団体が思い思いの外字を追加して使っているのですが,
香港では特別行政府
(HKSAR = Hong Kong Special Administrative Region)
政府によって追加漢字の標準化がなされました。
最初は 1995年に
「政府通用字庫」
(GCCS = Government Common Character Set) という外字集として
3,049字が追加されました。
各フォントベンダーはそれまで独自の外字フォントを開発していたのですが,
GCCS の制定以降は GCCS に準拠する傾向にあります。
また, 香港の代表的な新聞である 明報
オンライン版でも GCCS を使うなど, かなりよく普及しています。
3,049字はすべて漢字で,
その内訳は:
となっています。
しかし, 実際の Windows 用外字フォントでは, この他に倚天方式の部首・仮名・ロシア文字などが
C6A1-C8FE に追加されています(365字)。
その後, この「政府通用字庫」を元にした
「香港増補字符集」
(HKSCS = Hong Kong Supplementary Character Set)
が 1999年9月28日に公布されました。
HKSCS は GCCS の 3,049 字のうち, 他の符号位置にある字に包摂される字及び典拠不明字都合 106
字を削除し, さらに 1,759 字を追加したもので, 結局全体で 4,702 字あります。
(なお, 削除した符号位置は空欄のままになっています)
4,702 字のうち漢字が 4,261字, 非漢字が 441字で,
その内訳は以下の通り。
ただし前述のごとく, GCCS フォントの C6A1-C8FE の領域には倚天の文字 365字が登録済みで,
HKSCS の追加 359字というのは, この 365字から部首字 6字を削除したものです。
また, F9D6-F9FE の 41字は倚天や MS Windows にもすでに存在している字です。
さらに, 8E40-A0FE の追加 701 字のうち, 9Exx-9Fxx の 100字あまりは CJKV Information Processing
によれば以前から GCCS の拡張として行われていたものを採用したようです。
したがって 1,759字追加したといっても, うち 500字以上は従来の
GCCS の拡張をそのまま採用したにすぎないものです。
GCCS, HKSCS にはいくつか欠点もあります。
HKSCS は公布されてそれほど日が経っていないので, どれほど普及するかはいまのところ不明ですが,
すでにかなり使われている GCCS との互換性の高さから考えて,
近いうちに GCCS にかわる香港の標準的な追加文字集合として使われていくのではないでしょうか。
追記:
ifcss の資料
によると, いわゆる「HKU」方式は香港大学の公式のシステムではなく,
単にフォントのミスが原因で生じたものに過ぎないので, サポートする必要はないそうだ。
Big5 CNS11643 備考
A140-A3BF 1:2121-2570 記号
A440-C67E 1:4421-7D4B 漢字第一水準
C6A1-C8FE 原則として対応せず ベンダー依存文字
C940-F9D5 2:2121-7244 漢字第二水準
G1 に GB2312 を割り当てる ESC $ ) A
G1 に CNS11643-1 を割り当てる ESC $ ) G
G2 に CNS11643-2 を割り当てる ESC $ * H
Big5 HZ+
A140-A17E 2121-215F
A1A1-A1BF 2160-217E
A1C0-A1FE 2221-225F
A240-A25E 2260-227E
A25F-A27E 2321-2340
A2A1-A2DE 2341-237E
A2DF-A2FE 2421-2440
Big5 F9D6 F9D7 F9D8 F9D9 F9DA F9DB F9DC
Unicode 7881 92B9 88CF 58BB 6052 7CA7 5AFA
字 碁 銹 裏 墻 恒 粧 嫺
符号位置 符号位置の数 字数
FA40-FEFE 785 768
8E40-A0FE 2,983 2,281
合計 3,768 3,049
符号位置 符号位置の数 GCCS字数
削除 追加 HKSCS 字数
FA40-FEFE 785 768
22 17 763
8E40-A0FE 2,983 2,281
84 701 2,898
8140-8DFE 2,041 0
0 641 641
C6A1-C8FE 408 0
0 359 359
F9D6-F9FE 41 0
0 41 41
合計 3,768 3,049
106 1,759 4,702