2010年11月1日月曜日

Unicode、UTF-8、Shift_JIS←なんなのこういうの 統一しろよ

 
http://hato.2ch.net/test/read.cgi/news/1286604313/ 
 
1 名前: 歯科衛生士(チベット自治区)[] 投稿日:2010/10/09(土) 15:05:13.13 ID://kEtYVH0 BE:712058764-S★(500000) ポイント特典 
  sssp://img.2ch.net/ico/u_nyu.gif  
  プログラマのための文字コード技術入門 (WEB+DB PRESS plus)  
   
  2010年10月09日00時00分 / 提供:本が好き!  
  プログラマではないけれど、日頃仕事で悩まされ続ける文字コード。Unicode、UTF-8、Shift_JISなど、  
  庁内のシステムでもさまざまな文字コードが入り乱れ、住民の氏名等をどう正確に表現するか、外字をどう連携するかかなど、いろいろ考えることが多い。  
  まずは、文字コードの基本的なことを勉強しようと探して、見つけたのがこれ。  
  前半部分は、それぞれの文字コードの規格について、詳しく説明してあり、素人の私でも理解しやすい内容で、とても参考になった。  
   
  後半は、実装にあたってのテクニカルな説明で、プログラマではない私には難しかったが、文字コード変換の留意点などは、  
  設計書のチェック等で参考にできそうだ。  
   
  それにしても、日本語を使う限り、この文字コード問題は逃れることはできないんだろうなぁ。  
  特に、国や他の自治体、さらには住民や企業等ともデータ連携を行なおうとしている今、  
  避けては通れないのが、この文字コードの問題だ。住基ネットの時も思ったけど、このあたりの課題が解決されないと、  
  本当の意味での電子政府、電子自治体は実現できないような気がする。  
  自治体間連携の標準化を検討している全国地域情報化推進協会(APPLIC)とかでも、もっとこの辺の議論を詰めて欲しいと思う。  
  http://news.livedoor.com/article/detail/5063108/  
 
  
2 名前: ファイナンシャル・プランナー(東京都)[] 投稿日:2010/10/09(土) 15:06:14.55 ID:5kUgMDVK0 
  するよ  
 
3 名前: ノンフィクション作家(島根県)[] 投稿日:2010/10/09(土) 15:06:48.62 ID:6UHkwDOr0 
  かな入力のみにするべき。なぜローマ字入力がデフォルトなのか。  
 
4 名前: もう4時か(チベット自治区)[] 投稿日:2010/10/09(土) 15:07:01.45 ID:OD+mK3ow0 
  学生時代暗記したが全く意味無かったな  
  必要なときは調べればいいし  
 
5 名前: 裁判官(東京都)[sage] 投稿日:2010/10/09(土) 15:08:53.32 ID:G72tpA23P 
  Unicodeからの写像がUTFなんちゃらとかいうやつだよ。  
   
  Unicodeっていう文字に番号振ったものをバイト列に直したのがUTFなんちゃら。  
 
6 名前: ファシリティマネジャー(新潟県)[] 投稿日:2010/10/09(土) 15:09:06.53 ID:+W3svZq10 
  lhaとかワケの分からん圧縮も一緒に消えてくれ。  
 
7 名前: 歌人(岩手県)[sage] 投稿日:2010/10/09(土) 15:09:09.61 ID:SqcZkyI+0 
  システムをEUCからUTF-8に切り替えた時のゴタゴタは  
  思い出したくも無い  
 
8 名前: タンメン(チベット自治区)[sage] 投稿日:2010/10/09(土) 15:10:06.66 ID:Nl3KdB7Y0 
  最近はUTF-8オンリーで切り抜けられるようになったろ  
 
9 名前: 金持ち(東日本)[sage] 投稿日:2010/10/09(土) 15:10:57.94 ID:JEoh2OOV0 
  UTF-8は、Unicodeの符号化方式だろ。二つをS_JISに並列させるな。  
 
10 名前: プロデューサー(東京都)[sage] 投稿日:2010/10/09(土) 15:11:16.26 ID:tO17NkkZ0 BE:1230990539-2BP(8168) 
  sssp://img.2ch.net/ico/yossy_folder.gif  
  >>1さん  
  ポイントちょーだい  
  半sakuされた・・・  
 
11 名前: 放射線技師(チベット自治区)[sage] 投稿日:2010/10/09(土) 15:13:30.06 ID:mePkLKeM0 
  Unicodeって麻雀牌の図柄とか意味不明なもの色々取り込んでるけど  
  誰が得するの?  
 
15 名前: 音楽家(catv?)[sage] 投稿日:2010/10/09(土) 15:36:02.24 ID:j4rUa9kr0 
  >>11  
  雪だるまもあるよ。  
  http://unicodesnowmanforyou.com/  
 
12 名前: 映画監督(チベット自治区)[] 投稿日:2010/10/09(土) 15:20:49.73 ID:O1ceLvaA0 
  MSがUTF-16をUnicodeと呼んだのが悪いのか?  
 
14 名前: 音楽家(catv?)[sage] 投稿日:2010/10/09(土) 15:32:16.41 ID:j4rUa9kr0 
  >>12  
  当初のUnicodeは文字コードと符号化方法が一緒(今のUTF-16/UCS-2が当時のUnicode)  
  だったから、Microsoftが悪いわけでも間違っていたわけでもない。  
   
  当時は65,536文字もあれば余るくらいだろと思っていたらしいが、  
  あちこちの言語で「俺のところの字も追加してくれよ」と膨張しまくって現在に至る。  
 
26 名前: かまってちゃん(北海道)[sage] 投稿日:2010/10/09(土) 16:26:09.47 ID:nRIlUR6e0 
  >>14  
  未割り当て領域を使ってサロゲートペアの拡張するとかあったよな。  
  おかげで整理どころか可変長で複雑怪奇なキチガイ仕様になっちまった。  
 
36 名前: かまってちゃん(愛知県)[] 投稿日:2010/10/09(土) 16:35:25.28 ID:GGadONXT0 
  >>14  
  Unicode表に占める、漢字とハングルの多さは異常  
  しかもハングルは、あれでも全て網羅できてないという。まあ、通常出てこない組み合わせの文字が除去されてるんだけどね  
   
 
39 名前: 新聞配達(関西地方)[] 投稿日:2010/10/09(土) 16:39:28.68 ID:qFMbcsVPP 
  >>36  
  ハングルってあんな単純な記号の組み合わせなのに、  
  そんなに種類があるのか。  
 
41 名前: かまってちゃん(愛知県)[] 投稿日:2010/10/09(土) 16:43:02.26 ID:GGadONXT0 
  >>39  
  理論上の組合せは11,172文字という  
  ハングルはパーツの組合せで出来る文字だから、パーツを組む方式の文字コードならよかったけど  
  Windowsの頃以降は、ハングルを1つの文字として1個ずつ登録する文字コードが主流になっちゃった上  
  Unicodeでは、そういう組合せ方式がなかなか難しいからか、1個ずつ登録するという無駄な方法を採ってる  
   
 
13 名前: 新車(宮城県)[] 投稿日:2010/10/09(土) 15:31:43.12 ID:Skc5BZ810 
  「Unicodeの普及によって、文字コード問題は過去のものになります」  
 
16 名前: 作家(東海)[] 投稿日:2010/10/09(土) 15:43:30.16 ID:P0/X1E8xO 
  ユニコードとかシフトJISとかガラパゴスの元凶。マジイラナイ。軍事関係にだけ残せ。他はUTF8に今すぐ統一しろ。  
 
17 名前: 添乗員(関西地方)[sage] 投稿日:2010/10/09(土) 15:45:43.41 ID:ra2bI6c10 
  EBSDICとか  
 
18 名前: 火狐厨(dion軍)[] 投稿日:2010/10/09(土) 16:04:22.44 ID:n0HmtYpb0 
  >>1  
  一番酷いのがeメールだよ。  
  未だに、shift-JISを使ってる所があるんだから。  
 
19 名前: 書家(東京都)[] 投稿日:2010/10/09(土) 16:05:05.47 ID:sEUzy7830 
  >>1  
  ごもっとも  
  文字コードの扱いほどメンドウなものはない  
 
63 名前: 裁判官(catv?)[] 投稿日:2010/10/09(土) 17:13:50.39 ID:KEhs5nHeP 
  >>17  
  久しぶりに聞いたな  
  エヒスディック、と読むのだって高専で習った。  
 
20 名前: コメディアン(チベット自治区)[] 投稿日:2010/10/09(土) 16:09:38.62 ID:JaJHmhLF0 
  バックスラッシュが円マークのプログラマの人って・・・  
 
21 名前: 沢庵漬け(埼玉県)[] 投稿日:2010/10/09(土) 16:10:21.93 ID:z6E7u90w0 
  バカすぎワロタ  
 
22 名前: 幼稚園の先生(catv?)[sage] 投稿日:2010/10/09(土) 16:15:12.20 ID:TASnaFcH0 
  Shift_JIS, EUC-JPは直に消えさるべき。  
 
23 名前: 映画監督(チベット自治区)[sage] 投稿日:2010/10/09(土) 16:19:55.56 ID:O1ceLvaA0 
  BOMさんの良いところを挙げるスレ  
 
24 名前: 劇作家(大阪府)[sage] 投稿日:2010/10/09(土) 16:23:01.30 ID:sAyrHP5W0 
  そういや昔はMacやLinuxで文字化けすること多かったけど最近はほとんど無いな  
 
25 名前: トリマー(静岡県)[] 投稿日:2010/10/09(土) 16:25:05.89 ID:AdNVIIlL0 
  昔は半角カタカナ使うとマカーにネチケット違反です!って怒られたな  
 
44 名前: タピオカ(東日本)[sage] 投稿日:2010/10/09(土) 16:48:20.43 ID:DtuTJPu60 
  >>25  
  いまでもそうだぜ  
 
27 名前: コンセプター(兵庫県)[] 投稿日:2010/10/09(土) 16:27:24.62 ID:allWrqAz0 
  shift-jisは二度と使うな  
 
28 名前: 空き管(東京都)[] 投稿日:2010/10/09(土) 16:27:43.68 ID:Pzo0WXYU0 BE:46898922-PLT(12001) 
  sssp://img.2ch.net/ico/anime_okashi01.gif  
  8バイト文字とか作ろうぜ  
 
29 名前: 書家(東京都)[] 投稿日:2010/10/09(土) 16:28:05.80 ID:sEUzy7830 
  >>28  
  あるけど  
 
32 名前: 空き管(東京都)[] 投稿日:2010/10/09(土) 16:30:32.23 ID:Pzo0WXYU0 BE:562781186-PLT(12001) 
  sssp://img.2ch.net/ico/anime_okashi01.gif  
  >>29  
  漢字1文字が最大8バイト、Unicodeの「IVS」とは? - 新常用漢字が引き起こす文字コード問題:ITpro  
  http://itpro.nikkeibp.co.jp/article/COLUMN/20100126/343783/  
   
  これか  
   
  じゃあ64バイト文字作ろうず  
 
43 名前: Opera最強伝説(東京都)[] 投稿日:2010/10/09(土) 16:44:19.38 ID:hs4qSxr80 
  >>32  
   
  http://ja.wikipedia.org/wiki/UTF-32  
   
  UTF-32およびUCS-4は、各Unicode符号位置に32ビット符号単位一つだけを使う固定長の  
  Unicode文字の符号化形式及び符号化スキームの名称である。他のUnicode変換形式  
  (英: Unicode transformation format)はすべて符号位置によって符号単位列の長さが変化する  
  可変長のUnicode変換形式であるため、UTF-32はもっとも単純なUnicode変換形式であるとみなせる。  
 
30 名前: 三菱電機社員(中部地方)[] 投稿日:2010/10/09(土) 16:29:34.58 ID:r2h4s9/+0 
  まぁそうだよね  
  そろそろ何とかしてホスィ  
 
31 名前: 歌手(神奈川県)[sage] 投稿日:2010/10/09(土) 16:29:50.89 ID:LORJX62u0 
  全角英数字を考えた奴は死ねばいいと思う  
 
33 名前: 歌手(神奈川県)[sage] 投稿日:2010/10/09(土) 16:32:07.71 ID:LORJX62u0 
  メインフレームを有り難がってる連中は文字コードの苦労を知らない  
 
34 名前: かまってちゃん(愛知県)[] 投稿日:2010/10/09(土) 16:32:46.80 ID:GGadONXT0 
  shift_jisとEUC_JPはわかるけど、iso-2022-jp使ってるホームページって何なの?  
  しかもiso-2022-jpの符号化方法を見たことあるけど、shift_jisとEUC_JPよりも符号化の方法が複雑だし  
   
 
35 名前: 運営大好き(catv?)[] 投稿日:2010/10/09(土) 16:33:08.42 ID:ZN/iDszY0 
  たまに欧文が文字化けするのが許せない  
 
37 名前: 三菱電機社員(中部地方)[] 投稿日:2010/10/09(土) 16:35:38.83 ID:r2h4s9/+0 
  バケたとしてもなんとか読解できる程度にしてほしい  
  終了。 が 糸冬3_ になるくらいの誤差に収めろやクソが  
 
38 名前: 弁護士(チベット自治区)[] 投稿日:2010/10/09(土) 16:39:23.61 ID:BtEHyJWK0 
  関連のバグが多くてウザい  
 
40 名前: 火狐厨(福岡県)[] 投稿日:2010/10/09(土) 16:39:48.22 ID:WikmcJpN0 
  もうUTFだけでよくね  
 
42 名前: 声楽家(神奈川県)[] 投稿日:2010/10/09(土) 16:44:01.91 ID:lDEn9WRq0 
  UTF-8は日本語1文字を格納するのに3バイト使う  
  豆知識な  
 
45 名前: ちんシュ大好き(大阪府)[] 投稿日:2010/10/09(土) 16:49:50.93 ID:ikCXajnV0 
  美乳  
 
46 名前: ダックワーズ(宮城県)[sage] 投稿日:2010/10/09(土) 16:50:51.64 ID:KR5DaEjP0 
  もうUTF-8以外認めるなよ  
  XMLはUTF-8がデフォのはずだからHTML6で規定しろ  
 
47 名前: 占い師(新潟県)[] 投稿日:2010/10/09(土) 16:52:48.17 ID:DyrQ+4LW0 
  EUC-JPだけは残しておいて欲しい  
 
48 名前: 彫刻家(愛知県)[] 投稿日:2010/10/09(土) 16:54:15.90 ID:fx87u+9u0 
  ダメなサイトの例  
  ttp://www.orb.com/jp/support/  
 
53 名前: 音楽家(catv?)[sage] 投稿日:2010/10/09(土) 17:02:28.61 ID:j4rUa9kr0 
  >>48  
  htmlではShift_JISになってるけど、httpレスポンスヘッダがUTF-8だもんなぁ。  
 
49 名前: 裁判官(鹿児島県)[sage] 投稿日:2010/10/09(土) 16:56:19.05 ID:rsgp94+YP 
  放置しておいてもそのうちUTF-8あたりに収束していくだろうけど、  
  ITドカタのおっさんとか、SJISとかEUC大好きだしな。  
   
 
50 名前: グラウンドキーパー(東京都)[] 投稿日:2010/10/09(土) 16:57:46.66 ID:h9mZO5Kk0 
  >>49  
  まあ流石にいまはUTF-8だよ  
  ホストがねー。汎用機厨は絶滅してほしい  
   
 
56 名前: 音楽家(catv?)[sage] 投稿日:2010/10/09(土) 17:04:15.69 ID:j4rUa9kr0 
  >>50  
  ちょっと古いホスト機だとSJISでもEUCでもなく  
  EBCDIC+メーカー独自拡張だったりするんだよなぁ。。  
 
58 名前: グラウンドキーパー(東京都)[] 投稿日:2010/10/09(土) 17:07:14.69 ID:h9mZO5Kk0 
  >>56  
  ああIBMとかね  
  最初見たときはなにかと思ったw  
 
51 名前: ファッションデザイナー(長屋)[] 投稿日:2010/10/09(土) 16:58:33.85 ID:5QTKfLhF0 
  だってC言語でunicodeとかめんどいやん  
 
52 名前: ファイナンシャル・プランナー(東京都)[] 投稿日:2010/10/09(土) 16:59:45.63 ID:5kUgMDVK0 
  そもそもこの板がSJISだし  
 
54 名前: 新聞配達(東京都)[] 投稿日:2010/10/09(土) 17:02:51.56 ID:uLIaSJm6P 
  メソッド → メャbド  
  wwwwwwwwwwwwwwwwwwwww  
 
55 名前: ダックワーズ(宮城県)[sage] 投稿日:2010/10/09(土) 17:02:57.29 ID:KR5DaEjP0 
  >HTTP 200 OK  
  >(中略)  
  >Content-Type: text/html; charset=UTF-8  
   
  ><html (中略)  
  ><meta http-equiv="Content-Type" content="text/html; charset=shift_jis" />  
   
  駄目っていうか頭がおかしい  
 
65 名前: 占い師(新潟県)[] 投稿日:2010/10/09(土) 17:16:14.18 ID:DyrQ+4LW0 
  >>55  
  シ・ 、 、ッ、鬢テ、ニ、、、 エヨ、筍「ハム、ハフ。イ隍茹゚・ケ・ニ・熙 、「、マ、マ。シ、ネニノ、 、ヌ、、、 エヨ、筍「ネ狄 、  
  マサ エヨ、 、ア、コ、テ、ニ、ア、コ、テ、ニー タクキ フソス猜 、 、キ、ニ、、、ソ、鬢キ、、。」ニテ、ヒテッ、ヒ、ス、 、 クタ、ヲ、  
  ヌ、筅ハ、ォ、テ、ソ、ャ。「、ュ、テ、ネフ テル、ッ、゙、ヌ。「、゙、ソ。「トォ、マ、荀ッ、ォ、魘 、ヒク 、ォ、テ、ニ。 ...  
  ・ノ、ハ、キ、ホ、筅ホ、ャ、「、遙「・ミ。シ・ウ。シ・ノ、ハ、キ、ホ、筅ホ、  
  フスオエ. ヨ、ヌネッケヤ、オ、゙、ケ、ャ。「・ミ。シ・ウ。シ・ノ、「、熙ホ、筅ホ、マ4w  
  スオエヨ、ォ、ォ、熙゙、ケ、ホ、ヌ。「ヘセヘオ、゚、ニソスタチ、キ、゙、キ、遉ヲ。 」フセチー、萢ワタメ、  
  ャハム、テ、ソセ遉籠釥オ。ヲソキオャネッオホソスタチ、ャノャww  
   
  ・ム・ケ・ン。シ・ネ、ホタレ、リ、ィw  
 
57 名前: 新聞配達(チベット自治区)[] 投稿日:2010/10/09(土) 17:06:29.40 ID:ovQFEqYCP 
  UTF-8[BOM]ってなんだよ  
  爆発しそうで怖いんだが  
 
60 名前: 音楽家(catv?)[sage] 投稿日:2010/10/09(土) 17:08:39.97 ID:j4rUa9kr0 
  >>57  
  バイトオーダーマーク  
 
62 名前: 新聞配達(チベット自治区)[] 投稿日:2010/10/09(土) 17:13:14.51 ID:ovQFEqYCP 
  >>60  
  ただのUTF8とBOMと2つ保存方法があるとき、どっちにすればいいの?  
  一般的なUTF8にしたいんだが  
 
67 名前: グラウンドキーパー(東京都)[] 投稿日:2010/10/09(土) 17:16:50.02 ID:h9mZO5Kk0 
  >>62  
   
  プロトコルが常にUTF-8である事を強制しているものである場合はこのシーケンスを禁止するべきで、  
  この場合ファイル先頭にこのシーケンスが現れると“ZERO WIDTH NO-BREAK SPACE”と見なされる。  
  逆にプロトコルがそれを保証しない場合このシーケンスは禁止されずファイル先頭のそれはバイト順マークと見なされる[11]。  
   
  http://ja.wikipedia.org/wiki/UTF-8  
 
69 名前: 新聞配達(チベット自治区)[] 投稿日:2010/10/09(土) 17:19:08.74 ID:ovQFEqYCP 
  >>67  
  なんだよムズいな  
 
68 名前: 音楽家(catv?)[sage] 投稿日:2010/10/09(土) 17:19:01.63 ID:j4rUa9kr0 
  >>62  
  UTF-8では基本的にBOMは不要(そもそもバイト順が変わるような仕組みではないから)。  
 
70 名前: 新聞配達(チベット自治区)[] 投稿日:2010/10/09(土) 17:19:41.69 ID:ovQFEqYCP 
  >>68  
  把握したthx!  
 
59 名前: はり師(栃木県)[sage] 投稿日:2010/10/09(土) 17:07:57.00 ID:t4hCjDO80 
  。ヲスゥ「オ・ト・゙・、・筅ネ・ル。シ・ウ・ホソ讀ュケ、゚、エネモ  
  。ヲヘョサメクユワ・「訷ネ・ル。シ・ウ・ホ・レ・レ・愠チ。シ・ホ  
  。ヲ、ロ、テ、ウ、遙」ツ郤ャ、ネニレニホシムハェ。」  
  。ヲ・ヲ・゙・ヲ・゙。戓シニヲ・ュ・爭チ・イサィソ  
  。ヲホチヘ・?ン。シ・ネナ?ニ、ヌ、筅?ハ、ッ」ア」ー・ン・、・ネ  
 
61 名前: かまってちゃん(北海道)[sage] 投稿日:2010/10/09(土) 17:12:14.91 ID:nRIlUR6e0 
  ガラケーの絵文字がらみでSJIS切れないから困る。  
  スマホだけになればいいのに…  
 
64 名前: 歌手(神奈川県)[sage] 投稿日:2010/10/09(土) 17:14:27.92 ID:LORJX62u0 
  絵文字をバカにするなんてほんとにスマートフォン使ってるのか?  
 
74 名前: かまってちゃん(北海道)[sage] 投稿日:2010/10/09(土) 17:30:31.26 ID:nRIlUR6e0 
  >>64  
  WM6。  
  そういうおまいはスマホ使ってるのか?  
 
66 名前: 小池さん[] 投稿日:2010/10/09(土) 17:16:39.23 ID:yf81wN9+0 
  システム内はどうとでもなるからまだいい。  
  ガラケーWebブラウザのほうがカオスだわ…  
 
71 名前: 監督(神奈川県)[sage] 投稿日:2010/10/09(土) 17:26:19.72 ID:KyPUPX1+0 
  マイクロソフトの馬鹿どもが余計な真似したおかげでごらんのありさま  
 
72 名前: ダックワーズ(宮城県)[sage] 投稿日:2010/10/09(土) 17:26:22.95 ID:KR5DaEjP0 
  携帯の仕事やってたときはCookieの方がふおおおおおおおおおおおおおおおおおおおおおってなったわ  
  しばらくそっち方面触ってないけど今は対応してるんかね  
 
73 名前: 登山家(東日本)[sage] 投稿日:2010/10/09(土) 17:28:37.73 ID:8oX1vtRz0 
  表記を大文字だけか小文字だけかに統一してくれよ  
 

0 件のコメント:

コメントを投稿

amazon

Zenback