コンピューターで文字をあつかうとき, ふつうは各文字に特定の数値をわりあてる。 しかし, 歴史的な原因によって, そのわりあてかた(エンコーディング)にはいろいろなものがあるので, WEB ページはおくるときにエンコードが何であるかを指定したり, ブラウザ側の「エンコード」メニューをつかったりしないと, 文字ばけしてしまうことがある。
現在日本でもっともふつうに使われているエンコーディングには Shift_JIS, EUC-JP, ISO-2022-JP などがあるが, これらはいずれも ASCII (またはそれとほぼひとしい JIS X 0201 ローマ字) と JIS X 0208 という規格でさだめられた漢字集合をあつかうことができる。
JIS X 0208 は六千以上の漢字をふくんでおり, 苦労してつくられたものだが, なにしろ 1970年代に制定されたものなので, 現状とあわない点がいろいろある。 たとえばとうじの需要として, 法定漢字以外は日本の人名・地名を優先したため, 文学やふるい文章を入力しようとすると, けっこう JIS X 0208 にない字にぶつかることがある。 また, 日本語以外の言語のための文字と混在させるのがむずかしい。 そののち JIS X 0212 (補助漢字)や JIS X 0213 といった, もっと多くの文字をふくむ規格がつくられたし, げんざいは, ひとつの OS の上で同時に多くの言語の文字をあつかう環境がととのっているが, Shift_JIS などの伝統的エンコーディングのままでこれらの環境の利益を得ることはむずかしい。
いまのところこの問題にたいするもっとも現実的な解決策は, エンコーディングを UCS (Unicode) 系のエンコーディングである UTF-8 にに変えることだ。 そうすれば「朴璐美」の「璐」とかも, もんだいなく書ける。 まあ, Shift_JIS のままでも 璐 または 璐 と書けばいいのだが, このような記号の羅列をつかわなくても直接表現できるのはありがたい。 とくに BLOG では CGI プログラムでテキスト内容をいろいろいじることが多いが, &#xxxxx; などの書きかたをすると, プログラムがわでつねにそれらの記号の処理をかんがえる必要がでてくるので, つかわないにこしたことはない。
ただ, 日本で掲示板などの CGI プログラムをつくる人は, そういうことをかんがえていないことが多く, blosxom starter kit でもメールを勝手に ISO-2022-JP に変換して送ってしまっていたので, UTF-8 のまま送るように書きかえた。 米国製のソフトウェアは過去の日本語エンコーディングのしがらみがないので, きちんと UTF-8 に対応してあることが多く, 日本製のものよりもずっとまともに日本語がつかえたりする。
ただし, 書くがわで問題なく書けても, 読むがわにその字を読むためのフォントがあるか, というと, べつな話になる。 げんざいのところ UCS のすべての文字をふくむフォントというのは存在しない。 コンピューターを売るがわとしても, JIS X 0208 の文字はまずまちがいなくはいっているだろうが, それ以外の字はサポートしないかもしれない。 いまのところ, 現実的な線として, JIS X 0212 (補助漢字)の漢字, ハングル, および WGL4 のヨーロッパ文字はだれでも見られると仮定し, それ以外の字は注釈つきでつかうことにしている。 (UCS の日本版規格である JIS X 0221 にはサブセットの規定があるが, あんまり現実を反映していないようなので無視する) また, 携帯電話のことはかんがえないことにする。
投稿時刻 2004-09-03 06:10 於 blosxom | コメント (0)