6万種の漢字異体字を扱えるフォントを公開人名・地名などの異字体問題の解消に向けて

文字情報技術促進協議会が「IPAmjPUPフォントVersion 001.01」を公開。IPAが整備した約6万種の漢字の異体字を外字を使わずに扱える。

» 2015年11月17日 17時49分 公開
[@IT]

 文字情報技術促進協議会は2015年11月17日、情報処理推進機構(IPA)が推進する「文字情報基盤導入テクニカルスタディ」に定められている「文字情報基盤暫定私用コード1」に沿ったマッピングテーブルと対応フォント「IPAmjPUPフォントVersion 001.01」を公開した。「IPAフォントライセンスv1.0」に基づき配布する。

 同フォントは、異体字を区別するのにIVS(後述)が必要な文字と「ISO/IEC 10646」で符号化が完了していない文字を、既存のIPAmj明朝フォントに対して、文字情報基盤「暫定私用コード1」の符号位置に追加実装したもの。文字情報基盤が整備した約6万種の漢字の異体字全てを、外字を使わずに扱える。

 IPAは、国や地方自治体の行政実務の電子化に向けて、行政で用いられる約6万字の人名漢字などを整備する「文字情報基盤整備事業」を進めている。例えば「葛」や「辻」など、自治体の名称や人名では使う文字の字形が異なることがある。だが、「JIS X 0213」や「ISO/IEC 10646 Universal Coded Character Set(UCS)」では、複数の字形に対して一つの文字コードを割り当てており、電子化された文書の上では区別できないことがある。その一方で行政実務や冠婚葬祭の案内状などでは社会通念上、これらの文字が使い分けられており、コンピューター上でも区別する必要がある。

 そこで、そのような異体字を扱う仕組みとして、「ISO/IEC 10646」(2008年版以降)に「IVS(Ideographic Variation Sequence/Selector)」と呼ぶ仕組みが規定されている。既に、IVSとIVSに対応する字形の一覧は、Unicodeコンソーシアムから「IVD(Ideographic Variation Database)」として公開されており、ISO/IEC 10646から正規の規格として参照されている。

UCSにおける異字体の問題とUnicode IVS/IVD。人名などの異字体の扱いは名寄せやデータ統合の障壁となっている(出典:IPA)

 ただし、ISO/IEC 10646は規格制定から日が浅く、Unicode IVS/IVDに対応した製品が十分に普及するまではまだ時間がかかる見込みだ。そこで同規格が普及するまでの過渡的な期間、文字情報基盤の運用に合意した組織の間で、“暫定的かつ私的(相互に合意した組織間でのみ使用)な”符号体系として、UCSの定める「私用面(PUP:Private Use Plane)」を活用して、同規格に未対応の機器や環境でも文字情報基盤で整備した約6万種の異体字全てを扱うことができるようにIPAが定めたのが、文字情報基盤の暫定私用コード1である。あくまでも私用コードではあるが、各組織がこの文字コードに準拠することで、システム間の情報交換を実施できる。

Unicode IVS/IVDへの対応環境が整うまでのプロセス。私用コード1、2を利用することで段階的に対応を進められる(出典:IPA)

 現在、「Internet Explorer」(10以降)、「Mozilla Firefox」(4以降)、「Google Chrome」(14以降)、「Safari」(5.1.9以降)などのWebブラウザーがIPAmj明朝フォントに対応しており、他のアプリケーションについてもIPAのWebサイト上で紹介されている。

 文字情報技術促進協議会は、Unicode IVSおよび関連技術の普及促進を目指す団体。アドビ システムズやモリサワ、日本マイクロソフト、ジャストシステムなどが発起人となり、NECや日立製作所、イワタ、フォントワークス他、24の企業が参加している。

訂正:配布元の情報に誤りがありましたので修正しました。正しくは、文字情報技術促進協議会が配布しています。(2015/11/19)



Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。