コードページ932

アクセスカウンタ

help リーダーに追加 RSS Perl Encode::EUCJPMS モジュール

<<   作成日時 : 2005/09/16 23:34   >>

ブログ気持玉 0 / トラックバック 1 / コメント 5

Perl Encode 用の EUCJPMS モジュールが出ていますね。
http://search.cpan.org/~naruse/Encode-EUCJPMS/

テーマ

関連テーマ 一覧

月別リンク

ブログ気持玉

クリックして気持ちを伝えよう!
ログインしてクリックすれば、自分のブログへのリンクが付きます。
→ログインへ

トラックバック(1件)

タイトル (本文) ブログ名/日時
Encode::EUCJPMS 0.04 Released
というわけで、0.04をリリース。 eucJP-open もあった方がいいのかな。。。? 0.04 Tue Oct 11 03:59:38 2005 ! ucm/eucJP-ms.ucm Fixed: Can’t convert User defined characters, multi defined characters, JIS X 0212 without IBM extended characters in eucJP-ms to Unicode http://ms... ...続きを見る
はてなるせだいあり
2005/10/13 01:43

トラックバック用URL help


自分のブログにトラックバック記事作成(会員用) help

タイトル
本 文

コメント(5件)

内 容 ニックネーム/日時
どうも、こんにちは。
Encode::EUCJPMSを作った成瀬と申します。

これはもともと、弾さんにEncodeでeucJP-msをサポートしてほしいと言ったところ、作ったら取り込むかもと返されて作ったものです。もともとニーズがあったので作ったものの、文字コード掲示板のNo.148を見て、いきなり弾さんに投げるのが怖くなったため、とりあえずCPANに登録してみた、というものですので、よろしければテストしてくださると助かります。

ちなみに以下に、Encode::EUCJPMSで使われているテーブルがあります。
http://search.cpan.org/src/NARUSE/Encode-EUCJPMS-0.03/ucm/
naruse
2005/10/10 18:41
Perl Encode の eucJP-ms に関して、実装(ucmファイルを作るだけですが)しなければと思っていたのですが、実装せずに放置してしまい申訳ありませんでした。

成瀬さんの、Encode::EUCJPMS について、ちょっと調べてみました。

eucJP-ms
・cp932->eucJP-ms->cp932 という変換では、ユーザー定義文字以外の文字は変換可能でした。
・eucJP-ms->Unicode の変換で、ユーザー定義文字、一部の重複定義文字、IBM拡張文字以外の JIS X 0212 文字が変換不可のようです。

eucJP-ms に関しては、libiconv の eucJP-ms の実装と (たぶん) 互換な eucJP-ms.ucm を作ってみましたので、試してみて下さい。

http://www2d.biglobe.ne.jp/~msyk/software/ucm/eucJP-ms.ucm
森山 将之
2005/10/11 01:53
cp51932 について
・OK のようです。
・Unicode->cp51932 での変換で、PUAのU+E000〜U+E757 に関しては、変換をしないようにした方が良いかもしれません。
<code>
<UE000> \xF0\x40 |1
</code>
\xF0\x40 は、CP932 のユーザー定義文字のコード値(sjis)なので、意図しない変換であると言って良いと思います。
EUC の文字のコードと重なる変換がされ、不可逆な変換なので、libiconv の cp51932 では実装していません。
森山 将之
2005/10/11 02:29
その節はどうもです。
さて、cp51932.ucmについて、これを用いて他のツールの検証をできるようにしようと見ていたのですが、
<code>
<UF8F0> \xA0 |1 #
<UF8F1> \x8E\xFD |3 #
<UF8F1> \xFD |1 #
<UF8F2> \x8E\xFE |3 #
<UF8F2> \xFE |1 #
<UF8F3> \xFF |1 #
</code>
と、PUAの領域での変換が他にも定義されているのを見つけました。
これも意図しない変換と考えてよいのですかね?
対応もいかにも不審なのですが・・・。
naruse
2005/10/21 17:55
CP932 の変換での拡張に引っ張られている感じですね。
Windows 上での変換を機械的にマッピングテーブルにすると、こういった変換もテーブル化されてしまうので、それをそのまま残すかどうか微妙なところですね。
森山 将之
2005/10/22 20:37

コメントする help

ニックネーム
本 文
Perl Encode::EUCJPMS モジュール コードページ932/BIGLOBEウェブリブログ
[ ]