Google Groups の表示と BIDI

Google Groups のトピック一覧画面で, 「タイトルのみを表示」の設定にしていると, 投稿者の欄は

massangeana (2 人の投稿者)

のように表示される(表示言語が日本語の場合)。 ところが, 投稿者名が右から左へ書く文字でおわっているばあい(かりに「אברהם」 とする),

אברהם (2 人の投稿者)

のようになってしまっていた。 ブラウザによって異なる表示になるかもしれないので, 画像にしたが, IE6, Safari 2.0.4, FireFox 1.5.0.7, Opera 9.01 では同じように表示された。

これは BIDI がかかわる基本的な箇所で, 問題は, 「 (2」は本来うしろの「人の投稿者)」とつながるべきなのに, 空白も「(」も「2」も現在の書字方向を変えない文字であること (書字方向が右から左のばあいも, 算用数字は常に左から右に書かれるが, 数字列ぜんたいは前の文字の左に書かれる), 書字方向によって開きかっこと閉じかっこの形が逆になることである。 ふつうの文章を書くのであれば, たとえば右から左の文字列が終わったところで ‎ (それ自身は表示されない, 左から右の字) を書いておけばよい。 じっさいにやってみると, 下のようになる。

אברהם‎ (2 人の投稿者)

しかし, 上の Google Groups のように, CGI そのほかを使ってデータをくみあわせて表示しているばあいは, どこに右から左の文字がくるかをあらかじめ予測しがたいので, 処理がむずかしくなる。 すべての文字列のうしろに ‎ をつけておくというのでは, あまりにもムダが大きい。 楽に, むだなく, かつ処理の漏れがないようにプログラムを書くにはどうするべきだろうか。

なお, このブログのコメント欄の名前やタイトル・本文にもヘブライ文字を入れてみたが, とくに問題は出ないようだ。

投稿時刻 2006-09-16(戊申) 17:54文字の符号化::bidi | コメント (8)

花配列の姉妹(おみなえし・かきつばた)

冨樫雅文氏の 「花のくに」 に, 「花の姉妹」と題して, 9つの配列が紹介されている。 日本国憲法前文でしらべてみると, 打鍵数は下のようになった。

あじさいおみなえし かきつばたききょうすみれ
総打鍵数112311001090111411151127
左手541548546530551561
右手582552544584564566
上段346374320322358341
中段452422504527494470
下段325304266265263316

とくに, おみなえし・かきつばた・ききょう は, 打鍵数も少なめだし, 下段の使用率も花より 5% ほどすくなく, そのぶん中段の使用頻度が高い。 ほかの文章でもためしたが, ききょうが「ました」で下段を多用するほかは, 同様の傾向がみられるようだ これらの配列は, 冨樫氏のページによると, 花よりも速度が遅いようだが, 花配列についてよくいわれる下段の頻度のたかさは, これらをつかうことでたしょう軽減されるかもしれない。 また外来語に多い「ー」も打ちやすい位置にある(おみなえしではホームポジションだ)。

投稿時刻 2005-05-06(庚寅) 09:08文字の符号化::キーボード | コメント (0)

ひらがなの「う」に濁点

すのものさんの 「「う」に濁点って JIS になかったっけ? カタカナの「ヴ」はあるけど」 について。

ひらがなの「う」に濁点(ゔ)は, JIS X 0208 にはないが, JIS X 0213 にはある(1-4-84)。 また UCS/Unicode (JIS X 0221)でもかなり前から U+3094 に定義されており, 「HIRAGANA LETTER VU」という名前がついている。 ほかに「ワ・ヰ・ヱ・ヲ」に濁点をつけた字や, 合成用濁点・半濁点なども定義されている。

Unicode にどうして「う」に濁点の字が追加されたのか知らないが, JIS X 0213 の解説によると 「仮名漢字変換によって平仮名から片仮名を入力する際に, 対応する平仮名による表示が可能になるよう採録したものである。」 ということで, とくにどこかに使用例があったわけではないようだ。

Google で「ゔ」を検索すると, 528件みつかるが, そのほとんどは冗談か, この文字そのものについて言及したページであるようだ。

投稿時刻 2005-03-25(戊申) 09:08文字の符号化::jis | コメント (2)

キーボードの「ASCII配列」という呼び方はまちがっていない

ときおり, 「米国のコンピューターでふつうにつかわれているキーボード配列を ASCII配列というのは間違いである」 という主張を見ることがある。 しかし, 適切な呼び名かどうかはべつとして, まちがいではない。

米国のキーボード配列の規格は ANSI X3.154-1988 (Alphanumeric Machines -- Keyboard Arrangements) だが, この規格は異なる図形文字集合 (7bit ASCII, OCR-A, OCR-B, ワープロ, その他) のためにいくつかのキーボード配列を定義している。 そのうち, 7bit ASCII (ANSI X3.4-1986) の入力につかう配列(47 または 48キー)を 「ASCII Keyboards」 と規格のなかで呼んでいるのだ。 だから, 米国で出る書物のなかで, この配列を ASCII というのは, まったくおかしくない。 日本で 「JIS配列とASCII配列」 といういいかたをしたばあい, 「JIS」の部分だけで JIS X 6002 をさすとかんがえると, つりあいがとれないかもしれないが, 「JIS配列 = JIS X 0201 の図形文字を入力するためのキーボード配列」 と解釈することができるから, それほど問題はないであろう。

ただし, 「JIS配列はスペースバーがみじかい」 といった表現は問題がある。 JIS X 6002 では変換キーなどは定義されておらず, 規格の図でスペースバーは「C」の左端から「,」の右端までとどいており, 米国の 104キーとおなじくらいのながさがあるからである (ただしスペースバーの形はこの規格の対象外)。

投稿時刻 2005-03-04(丁亥) 12:18文字の符号化::キーボード | コメント (2)

ふたつの「-」

Karl Kleine 氏の Historic Documents in Computer Science に, IBM 704 用の FORTRAN マニュアル(1956年)が pdf 形式で置いてある。

とうじの IBM のコンピューターでは 48種類の文字しかあつかえなかったのだが, ふつうの文字集合には「+ = ( )」などがぬけていたので, FORTRAN でプログラムするときには専用の文字集合をつかうのだが, この文字集合にはなぜか「-」が 2種類あり, FORTRAN プログラムの中ではそのうち片方しか使ってはいけないという注意書きがある。 わたしが 1980年ごろにつかっていた大型計算機でもやっぱり「-」が 2箇所にあって, ふしぎにおもっていたのだが, どうしてふたつあるのだろう。 片方がハイフンでもういっぽうがマイナスとか?

投稿時刻 2005-01-23(丁未) 17:00文字の符号化::歴史 | コメント (2)

Page 1 of 1: 1