http://hato.2ch.net/test/read.cgi/news/1286604313/
1 名前: 歯科衛生士(チベット自治区)[] 投稿日:2010/10/09(土) 15:05:13.13 ID://kEtYVH0 BE:712058764-S★(500000) ポイント特典
sssp://img.2ch.net/ico/u_nyu.gif
プログラマのための文字コード技術入門 (WEB+DB PRESS plus)
2010年10月09日00時00分 / 提供:本が好き!
プログラマではないけれど、日頃仕事で悩まされ続ける文字コード。Unicode、UTF-8、Shift_JISなど、
庁内のシステムでもさまざまな文字コードが入り乱れ、住民の氏名等をどう正確に表現するか、外字をどう連携するかかなど、いろいろ考えることが多い。
まずは、文字コードの基本的なことを勉強しようと探して、見つけたのがこれ。
前半部分は、それぞれの文字コードの規格について、詳しく説明してあり、素人の私でも理解しやすい内容で、とても参考になった。
後半は、実装にあたってのテクニカルな説明で、プログラマではない私には難しかったが、文字コード変換の留意点などは、
設計書のチェック等で参考にできそうだ。
それにしても、日本語を使う限り、この文字コード問題は逃れることはできないんだろうなぁ。
特に、国や他の自治体、さらには住民や企業等ともデータ連携を行なおうとしている今、
避けては通れないのが、この文字コードの問題だ。住基ネットの時も思ったけど、このあたりの課題が解決されないと、
本当の意味での電子政府、電子自治体は実現できないような気がする。
自治体間連携の標準化を検討している全国地域情報化推進協会(APPLIC)とかでも、もっとこの辺の議論を詰めて欲しいと思う。
http://news.livedoor.com/article/detail/5063108/
2 名前: ファイナンシャル・プランナー(東京都)[] 投稿日:2010/10/09(土) 15:06:14.55 ID:5kUgMDVK0
するよ
3 名前: ノンフィクション作家(島根県)[] 投稿日:2010/10/09(土) 15:06:48.62 ID:6UHkwDOr0
かな入力のみにするべき。なぜローマ字入力がデフォルトなのか。
4 名前: もう4時か(チベット自治区)[] 投稿日:2010/10/09(土) 15:07:01.45 ID:OD+mK3ow0
学生時代暗記したが全く意味無かったな
必要なときは調べればいいし
5 名前: 裁判官(東京都)[sage] 投稿日:2010/10/09(土) 15:08:53.32 ID:G72tpA23P
Unicodeからの写像がUTFなんちゃらとかいうやつだよ。
Unicodeっていう文字に番号振ったものをバイト列に直したのがUTFなんちゃら。
6 名前: ファシリティマネジャー(新潟県)[] 投稿日:2010/10/09(土) 15:09:06.53 ID:+W3svZq10
lhaとかワケの分からん圧縮も一緒に消えてくれ。
7 名前: 歌人(岩手県)[sage] 投稿日:2010/10/09(土) 15:09:09.61 ID:SqcZkyI+0
システムをEUCからUTF-8に切り替えた時のゴタゴタは
思い出したくも無い
8 名前: タンメン(チベット自治区)[sage] 投稿日:2010/10/09(土) 15:10:06.66 ID:Nl3KdB7Y0
最近はUTF-8オンリーで切り抜けられるようになったろ
9 名前: 金持ち(東日本)[sage] 投稿日:2010/10/09(土) 15:10:57.94 ID:JEoh2OOV0
UTF-8は、Unicodeの符号化方式だろ。二つをS_JISに並列させるな。
10 名前: プロデューサー(東京都)[sage] 投稿日:2010/10/09(土) 15:11:16.26 ID:tO17NkkZ0 BE:1230990539-2BP(8168)
sssp://img.2ch.net/ico/yossy_folder.gif
>>1さん
ポイントちょーだい
半sakuされた・・・
11 名前: 放射線技師(チベット自治区)[sage] 投稿日:2010/10/09(土) 15:13:30.06 ID:mePkLKeM0
Unicodeって麻雀牌の図柄とか意味不明なもの色々取り込んでるけど
誰が得するの?
15 名前: 音楽家(catv?)[sage] 投稿日:2010/10/09(土) 15:36:02.24 ID:j4rUa9kr0
>>11
雪だるまもあるよ。
http://unicodesnowmanforyou.com/
12 名前: 映画監督(チベット自治区)[] 投稿日:2010/10/09(土) 15:20:49.73 ID:O1ceLvaA0
MSがUTF-16をUnicodeと呼んだのが悪いのか?
14 名前: 音楽家(catv?)[sage] 投稿日:2010/10/09(土) 15:32:16.41 ID:j4rUa9kr0
>>12
当初のUnicodeは文字コードと符号化方法が一緒(今のUTF-16/UCS-2が当時のUnicode)
だったから、Microsoftが悪いわけでも間違っていたわけでもない。
当時は65,536文字もあれば余るくらいだろと思っていたらしいが、
あちこちの言語で「俺のところの字も追加してくれよ」と膨張しまくって現在に至る。
26 名前: かまってちゃん(北海道)[sage] 投稿日:2010/10/09(土) 16:26:09.47 ID:nRIlUR6e0
>>14
未割り当て領域を使ってサロゲートペアの拡張するとかあったよな。
おかげで整理どころか可変長で複雑怪奇なキチガイ仕様になっちまった。
36 名前: かまってちゃん(愛知県)[] 投稿日:2010/10/09(土) 16:35:25.28 ID:GGadONXT0
>>14
Unicode表に占める、漢字とハングルの多さは異常
しかもハングルは、あれでも全て網羅できてないという。まあ、通常出てこない組み合わせの文字が除去されてるんだけどね
39 名前: 新聞配達(関西地方)[] 投稿日:2010/10/09(土) 16:39:28.68 ID:qFMbcsVPP
>>36
ハングルってあんな単純な記号の組み合わせなのに、
そんなに種類があるのか。
41 名前: かまってちゃん(愛知県)[] 投稿日:2010/10/09(土) 16:43:02.26 ID:GGadONXT0
>>39
理論上の組合せは11,172文字という
ハングルはパーツの組合せで出来る文字だから、パーツを組む方式の文字コードならよかったけど
Windowsの頃以降は、ハングルを1つの文字として1個ずつ登録する文字コードが主流になっちゃった上
Unicodeでは、そういう組合せ方式がなかなか難しいからか、1個ずつ登録するという無駄な方法を採ってる
13 名前: 新車(宮城県)[] 投稿日:2010/10/09(土) 15:31:43.12 ID:Skc5BZ810
「Unicodeの普及によって、文字コード問題は過去のものになります」
16 名前: 作家(東海)[] 投稿日:2010/10/09(土) 15:43:30.16 ID:P0/X1E8xO
ユニコードとかシフトJISとかガラパゴスの元凶。マジイラナイ。軍事関係にだけ残せ。他はUTF8に今すぐ統一しろ。
17 名前: 添乗員(関西地方)[sage] 投稿日:2010/10/09(土) 15:45:43.41 ID:ra2bI6c10
EBSDICとか
18 名前: 火狐厨(dion軍)[] 投稿日:2010/10/09(土) 16:04:22.44 ID:n0HmtYpb0
>>1
一番酷いのがeメールだよ。
未だに、shift-JISを使ってる所があるんだから。
19 名前: 書家(東京都)[] 投稿日:2010/10/09(土) 16:05:05.47 ID:sEUzy7830
>>1
ごもっとも
文字コードの扱いほどメンドウなものはない
63 名前: 裁判官(catv?)[] 投稿日:2010/10/09(土) 17:13:50.39 ID:KEhs5nHeP
>>17
久しぶりに聞いたな
エヒスディック、と読むのだって高専で習った。
20 名前: コメディアン(チベット自治区)[] 投稿日:2010/10/09(土) 16:09:38.62 ID:JaJHmhLF0
バックスラッシュが円マークのプログラマの人って・・・
21 名前: 沢庵漬け(埼玉県)[] 投稿日:2010/10/09(土) 16:10:21.93 ID:z6E7u90w0
バカすぎワロタ
22 名前: 幼稚園の先生(catv?)[sage] 投稿日:2010/10/09(土) 16:15:12.20 ID:TASnaFcH0
Shift_JIS, EUC-JPは直に消えさるべき。
23 名前: 映画監督(チベット自治区)[sage] 投稿日:2010/10/09(土) 16:19:55.56 ID:O1ceLvaA0
BOMさんの良いところを挙げるスレ
24 名前: 劇作家(大阪府)[sage] 投稿日:2010/10/09(土) 16:23:01.30 ID:sAyrHP5W0
そういや昔はMacやLinuxで文字化けすること多かったけど最近はほとんど無いな
25 名前: トリマー(静岡県)[] 投稿日:2010/10/09(土) 16:25:05.89 ID:AdNVIIlL0
昔は半角カタカナ使うとマカーにネチケット違反です!って怒られたな
44 名前: タピオカ(東日本)[sage] 投稿日:2010/10/09(土) 16:48:20.43 ID:DtuTJPu60
>>25
いまでもそうだぜ
27 名前: コンセプター(兵庫県)[] 投稿日:2010/10/09(土) 16:27:24.62 ID:allWrqAz0
shift-jisは二度と使うな
28 名前: 空き管(東京都)[] 投稿日:2010/10/09(土) 16:27:43.68 ID:Pzo0WXYU0 BE:46898922-PLT(12001)
sssp://img.2ch.net/ico/anime_okashi01.gif
8バイト文字とか作ろうぜ
29 名前: 書家(東京都)[] 投稿日:2010/10/09(土) 16:28:05.80 ID:sEUzy7830
>>28
あるけど
32 名前: 空き管(東京都)[] 投稿日:2010/10/09(土) 16:30:32.23 ID:Pzo0WXYU0 BE:562781186-PLT(12001)
sssp://img.2ch.net/ico/anime_okashi01.gif
>>29
漢字1文字が最大8バイト、Unicodeの「IVS」とは? - 新常用漢字が引き起こす文字コード問題:ITpro
http://itpro.nikkeibp.co.jp/article/COLUMN/20100126/343783/
これか
じゃあ64バイト文字作ろうず
43 名前: Opera最強伝説(東京都)[] 投稿日:2010/10/09(土) 16:44:19.38 ID:hs4qSxr80
>>32
http://ja.wikipedia.org/wiki/UTF-32
UTF-32およびUCS-4は、各Unicode符号位置に32ビット符号単位一つだけを使う固定長の
Unicode文字の符号化形式及び符号化スキームの名称である。他のUnicode変換形式
(英: Unicode transformation format)はすべて符号位置によって符号単位列の長さが変化する
可変長のUnicode変換形式であるため、UTF-32はもっとも単純なUnicode変換形式であるとみなせる。
30 名前: 三菱電機社員(中部地方)[] 投稿日:2010/10/09(土) 16:29:34.58 ID:r2h4s9/+0
まぁそうだよね
そろそろ何とかしてホスィ
31 名前: 歌手(神奈川県)[sage] 投稿日:2010/10/09(土) 16:29:50.89 ID:LORJX62u0
全角英数字を考えた奴は死ねばいいと思う
33 名前: 歌手(神奈川県)[sage] 投稿日:2010/10/09(土) 16:32:07.71 ID:LORJX62u0
メインフレームを有り難がってる連中は文字コードの苦労を知らない
34 名前: かまってちゃん(愛知県)[] 投稿日:2010/10/09(土) 16:32:46.80 ID:GGadONXT0
shift_jisとEUC_JPはわかるけど、iso-2022-jp使ってるホームページって何なの?
しかもiso-2022-jpの符号化方法を見たことあるけど、shift_jisとEUC_JPよりも符号化の方法が複雑だし
35 名前: 運営大好き(catv?)[] 投稿日:2010/10/09(土) 16:33:08.42 ID:ZN/iDszY0
たまに欧文が文字化けするのが許せない
37 名前: 三菱電機社員(中部地方)[] 投稿日:2010/10/09(土) 16:35:38.83 ID:r2h4s9/+0
バケたとしてもなんとか読解できる程度にしてほしい
終了。 が 糸冬3_ になるくらいの誤差に収めろやクソが
38 名前: 弁護士(チベット自治区)[] 投稿日:2010/10/09(土) 16:39:23.61 ID:BtEHyJWK0
関連のバグが多くてウザい
40 名前: 火狐厨(福岡県)[] 投稿日:2010/10/09(土) 16:39:48.22 ID:WikmcJpN0
もうUTFだけでよくね
42 名前: 声楽家(神奈川県)[] 投稿日:2010/10/09(土) 16:44:01.91 ID:lDEn9WRq0
UTF-8は日本語1文字を格納するのに3バイト使う
豆知識な
45 名前: ちんシュ大好き(大阪府)[] 投稿日:2010/10/09(土) 16:49:50.93 ID:ikCXajnV0
美乳
46 名前: ダックワーズ(宮城県)[sage] 投稿日:2010/10/09(土) 16:50:51.64 ID:KR5DaEjP0
もうUTF-8以外認めるなよ
XMLはUTF-8がデフォのはずだからHTML6で規定しろ
47 名前: 占い師(新潟県)[] 投稿日:2010/10/09(土) 16:52:48.17 ID:DyrQ+4LW0
EUC-JPだけは残しておいて欲しい
48 名前: 彫刻家(愛知県)[] 投稿日:2010/10/09(土) 16:54:15.90 ID:fx87u+9u0
ダメなサイトの例
ttp://www.orb.com/jp/support/
53 名前: 音楽家(catv?)[sage] 投稿日:2010/10/09(土) 17:02:28.61 ID:j4rUa9kr0
>>48
htmlではShift_JISになってるけど、httpレスポンスヘッダがUTF-8だもんなぁ。
49 名前: 裁判官(鹿児島県)[sage] 投稿日:2010/10/09(土) 16:56:19.05 ID:rsgp94+YP
放置しておいてもそのうちUTF-8あたりに収束していくだろうけど、
ITドカタのおっさんとか、SJISとかEUC大好きだしな。
50 名前: グラウンドキーパー(東京都)[] 投稿日:2010/10/09(土) 16:57:46.66 ID:h9mZO5Kk0
>>49
まあ流石にいまはUTF-8だよ
ホストがねー。汎用機厨は絶滅してほしい
56 名前: 音楽家(catv?)[sage] 投稿日:2010/10/09(土) 17:04:15.69 ID:j4rUa9kr0
>>50
ちょっと古いホスト機だとSJISでもEUCでもなく
EBCDIC+メーカー独自拡張だったりするんだよなぁ。。
58 名前: グラウンドキーパー(東京都)[] 投稿日:2010/10/09(土) 17:07:14.69 ID:h9mZO5Kk0
>>56
ああIBMとかね
最初見たときはなにかと思ったw
51 名前: ファッションデザイナー(長屋)[] 投稿日:2010/10/09(土) 16:58:33.85 ID:5QTKfLhF0
だってC言語でunicodeとかめんどいやん
52 名前: ファイナンシャル・プランナー(東京都)[] 投稿日:2010/10/09(土) 16:59:45.63 ID:5kUgMDVK0
そもそもこの板がSJISだし
54 名前: 新聞配達(東京都)[] 投稿日:2010/10/09(土) 17:02:51.56 ID:uLIaSJm6P
メソッド → メャbド
wwwwwwwwwwwwwwwwwwwww
55 名前: ダックワーズ(宮城県)[sage] 投稿日:2010/10/09(土) 17:02:57.29 ID:KR5DaEjP0
>HTTP 200 OK
>(中略)
>Content-Type: text/html; charset=UTF-8
><html (中略)
><meta http-equiv="Content-Type" content="text/html; charset=shift_jis" />
駄目っていうか頭がおかしい
65 名前: 占い師(新潟県)[] 投稿日:2010/10/09(土) 17:16:14.18 ID:DyrQ+4LW0
>>55
シ・ 、 、ッ、鬢テ、ニ、、、 エヨ、筍「ハム、ハフ。イ隍茹゚・ケ・ニ・熙 、「、マ、マ。シ、ネニノ、 、ヌ、、、 エヨ、筍「ネ狄 、
マサ エヨ、 、ア、コ、テ、ニ、ア、コ、テ、ニー タクキ フソス猜 、 、キ、ニ、、、ソ、鬢キ、、。」ニテ、ヒテッ、ヒ、ス、 、 クタ、ヲ、
ヌ、筅ハ、ォ、テ、ソ、ャ。「、ュ、テ、ネフ テル、ッ、゙、ヌ。「、゙、ソ。「トォ、マ、荀ッ、ォ、魘 、ヒク 、ォ、テ、ニ。 ...
・ノ、ハ、キ、ホ、筅ホ、ャ、「、遙「・ミ。シ・ウ。シ・ノ、ハ、キ、ホ、筅ホ、
フスオエ. ヨ、ヌネッケヤ、オ、゙、ケ、ャ。「・ミ。シ・ウ。シ・ノ、「、熙ホ、筅ホ、マ4w
スオエヨ、ォ、ォ、熙゙、ケ、ホ、ヌ。「ヘセヘオ、゚、ニソスタチ、キ、゙、キ、遉ヲ。 」フセチー、萢ワタメ、
ャハム、テ、ソセ遉籠釥オ。ヲソキオャネッオホソスタチ、ャノャww
・ム・ケ・ン。シ・ネ、ホタレ、リ、ィw
57 名前: 新聞配達(チベット自治区)[] 投稿日:2010/10/09(土) 17:06:29.40 ID:ovQFEqYCP
UTF-8[BOM]ってなんだよ
爆発しそうで怖いんだが
60 名前: 音楽家(catv?)[sage] 投稿日:2010/10/09(土) 17:08:39.97 ID:j4rUa9kr0
>>57
バイトオーダーマーク
62 名前: 新聞配達(チベット自治区)[] 投稿日:2010/10/09(土) 17:13:14.51 ID:ovQFEqYCP
>>60
ただのUTF8とBOMと2つ保存方法があるとき、どっちにすればいいの?
一般的なUTF8にしたいんだが
67 名前: グラウンドキーパー(東京都)[] 投稿日:2010/10/09(土) 17:16:50.02 ID:h9mZO5Kk0
>>62
プロトコルが常にUTF-8である事を強制しているものである場合はこのシーケンスを禁止するべきで、
この場合ファイル先頭にこのシーケンスが現れると“ZERO WIDTH NO-BREAK SPACE”と見なされる。
逆にプロトコルがそれを保証しない場合このシーケンスは禁止されずファイル先頭のそれはバイト順マークと見なされる[11]。
http://ja.wikipedia.org/wiki/UTF-8
69 名前: 新聞配達(チベット自治区)[] 投稿日:2010/10/09(土) 17:19:08.74 ID:ovQFEqYCP
>>67
なんだよムズいな
68 名前: 音楽家(catv?)[sage] 投稿日:2010/10/09(土) 17:19:01.63 ID:j4rUa9kr0
>>62
UTF-8では基本的にBOMは不要(そもそもバイト順が変わるような仕組みではないから)。
70 名前: 新聞配達(チベット自治区)[] 投稿日:2010/10/09(土) 17:19:41.69 ID:ovQFEqYCP
>>68
把握したthx!
59 名前: はり師(栃木県)[sage] 投稿日:2010/10/09(土) 17:07:57.00 ID:t4hCjDO80
。ヲスゥ「オ・ト・゙・、・筅ネ・ル。シ・ウ・ホソ讀ュケ、゚、エネモ
。ヲヘョサメクユワ・「訷ネ・ル。シ・ウ・ホ・レ・レ・愠チ。シ・ホ
。ヲ、ロ、テ、ウ、遙」ツ郤ャ、ネニレニホシムハェ。」
。ヲ・ヲ・゙・ヲ・゙。戓シニヲ・ュ・爭チ・イサィソ
。ヲホチヘ・?ン。シ・ネナ?ニ、ヌ、筅?ハ、ッ」ア」ー・ン・、・ネ
61 名前: かまってちゃん(北海道)[sage] 投稿日:2010/10/09(土) 17:12:14.91 ID:nRIlUR6e0
ガラケーの絵文字がらみでSJIS切れないから困る。
スマホだけになればいいのに…
64 名前: 歌手(神奈川県)[sage] 投稿日:2010/10/09(土) 17:14:27.92 ID:LORJX62u0
絵文字をバカにするなんてほんとにスマートフォン使ってるのか?
74 名前: かまってちゃん(北海道)[sage] 投稿日:2010/10/09(土) 17:30:31.26 ID:nRIlUR6e0
>>64
WM6。
そういうおまいはスマホ使ってるのか?
66 名前: 小池さん[] 投稿日:2010/10/09(土) 17:16:39.23 ID:yf81wN9+0
システム内はどうとでもなるからまだいい。
ガラケーWebブラウザのほうがカオスだわ…
71 名前: 監督(神奈川県)[sage] 投稿日:2010/10/09(土) 17:26:19.72 ID:KyPUPX1+0
マイクロソフトの馬鹿どもが余計な真似したおかげでごらんのありさま
72 名前: ダックワーズ(宮城県)[sage] 投稿日:2010/10/09(土) 17:26:22.95 ID:KR5DaEjP0
携帯の仕事やってたときはCookieの方がふおおおおおおおおおおおおおおおおおおおおおってなったわ
しばらくそっち方面触ってないけど今は対応してるんかね
73 名前: 登山家(東日本)[sage] 投稿日:2010/10/09(土) 17:28:37.73 ID:8oX1vtRz0
表記を大文字だけか小文字だけかに統一してくれよ
0 件のコメント:
コメントを投稿