最近Legacy Encoding Projectのメーリングリスト(参加はコチラからどうぞ)でEUCの相互運用性(interoperability)を改善しようって話が盛り上がってる。
で、最近ヒトサマのBlogを見ているとBlog界もやっぱりまだまだ文字化けにあふれているようだ。
例えば、浅倉様のはてなもそろそろEncode::EUCJPMSを使ってくれないかなあ 、
および404 Blog Not Found様のあなたは何の役に立つのか?というエントリのhyoshikさんの ①(まるいち)という文字というエントリからのトラックバックをみるとはてなの吐き出すRSSやPingは「~」「①」は化けるらしい
と、いうわけで、いささか興味がわいたのでちょっと色々調べてみた。
文字化けの原因として、
・ブラウザ側の問題
・サーバー側の問題
・その複合原因
とあるが、今回はブラウザの挙動のみを対象にした。
調査対象のブラウザは以下を選んだ
IE: 6.0.2900.2180.xpsp_sp2_gdr.050301-1519
Firefox: 1.5.0.3
Opera: 8.53(Build 7722)
ちなみに当サイトに訪れるユーザのブラウザの割合は以下のような感じで、
バージョン違い、亜種をまとめると
という感じでIEとFirefoxだけがちゃんと調べないといけなくて、あとは誤差って感じだ。
調べ方は単純、自分のはてなダイアリーの日記欄に色々なブラウザで同じコメント書いてみて、 etherealでパケットキャプチャー。
どのような文字コードを送出しているか調べるというものだ。(ちなみに、はてなダイアリーの文字コードはEUC-JPである)
脱線だが有名Blogの文字コードをいくつか調べたところ
という結果になったので、EUCとUTF-8さえ押さえれば、Blog界の文字化け問題の対応としてはだいたいOKと言えそうである。
まず、ASCII文字(アルファベット)
すべて同じ結果。
ASCIIしか使わない限りにおいて文字化けは発生しないという、非常に当たり前の結果になった。
次、JIS X 208 のひらがな
すべて同じ結果。
さすがに、この程度では文字化けしない。まあ当たり前である。
ここで、規格の復習。
HTMLの規格上、ブラウザは文字列をPOSTするのに、
で、最近ヒトサマのBlogを見ているとBlog界もやっぱりまだまだ文字化けにあふれているようだ。
例えば、浅倉様のはてなもそろそろEncode::EUCJPMSを使ってくれないかなあ 、
および404 Blog Not Found様のあなたは何の役に立つのか?というエントリのhyoshikさんの ①(まるいち)という文字というエントリからのトラックバックをみるとはてなの吐き出すRSSやPingは「~」「①」は化けるらしい
と、いうわけで、いささか興味がわいたのでちょっと色々調べてみた。
文字化けの原因として、
・ブラウザ側の問題
・サーバー側の問題
・その複合原因
とあるが、今回はブラウザの挙動のみを対象にした。
調査対象のブラウザは以下を選んだ
IE: 6.0.2900.2180.xpsp_sp2_gdr.050301-1519
Firefox: 1.5.0.3
Opera: 8.53(Build 7722)
ちなみに当サイトに訪れるユーザのブラウザの割合は以下のような感じで、
順位 ブラウザ名 パーセント
--------------------------------------
1 Internet Explorer 6 66.19%
2 Firefox 24.44%
3 Safari 2.12%
4 Opera 8 1.28%
5 Internet Explorer 7 1.07%
6 Internet Explorer 5.5 0.94%
7 Opera 8 0.55%
8 Netscape 7 0.48%
9 Internet Explorer 5.0 0.47%
10 Opera 9 0.16%
11 Camino 0.10%
12 Opera 7 0.10%
13 NetFront 0.09%
14 Opera 9 0.05%
15 Netscape 6 0.02%
16 Opera 7 0.02%
17 DoCoMo 0.02%
18 Internet Explorer 4 0.01%
19 Netscape 8 0.01%
20 その他 1.80%
バージョン違い、亜種をまとめると
IE系 68.68%
Mozilla系 25.05%
Opera系 2.16%
Safari 2.12%
その他 1.91%
という感じでIEとFirefoxだけがちゃんと調べないといけなくて、あとは誤差って感じだ。
調べ方は単純、自分のはてなダイアリーの日記欄に色々なブラウザで同じコメント書いてみて、 etherealでパケットキャプチャー。
どのような文字コードを送出しているか調べるというものだ。(ちなみに、はてなダイアリーの文字コードはEUC-JPである)
脱線だが有名Blogの文字コードをいくつか調べたところ
ブログサーバ 文字コード
---------------------------
はてな EUC-JP
FC2 EUC-JP
livedoor EUC-JP
ココログ UTF-8
という結果になったので、EUCとUTF-8さえ押さえれば、Blog界の文字化け問題の対応としてはだいたいOKと言えそうである。
まず、ASCII文字(アルファベット)
書き込み文字列 abc
------------------------------
IE abc
Firefox abc
Opera abc
すべて同じ結果。
ASCIIしか使わない限りにおいて文字化けは発生しないという、非常に当たり前の結果になった。
次、JIS X 208 のひらがな
書き込み文字列 あいう
--------------------------------------
IE %A4%A2%A4%A4%A4%A6
Firefox %A4%A2%A4%A4%A4%A6
Opera %A4%A2%A4%A4%A4%A6
すべて同じ結果。
さすがに、この程度では文字化けしない。まあ当たり前である。
ここで、規格の復習。
HTMLの規格上、ブラウザは文字列をPOSTするのに、
コメント