1: 2017/12/25(月) 06:08:16.97 ID:CAP_USER
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

続きはソースで

NHKニュース
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html
images


引用元: 【IT】コンピューターで全漢字使用可に 6万字コード化

スポンサーリンク
2: 2017/12/25(月) 06:16:31.64 ID:PYyQSCbE
漢字って一字で意味を持つ単語
中国はどうしてんだ

8: 2017/12/25(月) 06:43:45.16 ID:1hFrhwM1
>>2
簡体字は簡体字で使う漢字を登録済み。
繁体字も同じく登録済み。

3: 2017/12/25(月) 06:20:34.08 ID:4W2qbdqm
ユニコードで使えないなら終わり

4: 2017/12/25(月) 06:26:32.02 ID:Ac/xGhhU
草○歓喜

5: 2017/12/25(月) 06:31:22.61 ID:irOM8Cqr
龍龍
龍龍

6: 2017/12/25(月) 06:34:57.95 ID:4W2qbdqm
定義したところで新しい漢字が創作されるのが漢字という形な、定義するなら
今後増えるだろう創作文字がいくらあっても許容できる仕様でないなら、
ユニコードのコード割り当てにある明治大正昭和平成(㍾㍽㍼㍻)の次の元号文字が割り当て
コードの空きがない問題をまず考えようよ、元号が変わるのは来年だし

http://quizknock.com/heisei-owaruto-daikonran/
ユニコードは明治→大正→昭和→平成→株式会社(㍿)となっていて、株式会社のコードを捨てる?

7: 2017/12/25(月) 06:42:07.95 ID:1hFrhwM1
>>6
連番にする意味は大してない。
プログラムを組むときはコードを意識なんてしていられないし、条件分岐が必要になるから。

10: 2017/12/25(月) 06:53:23.71 ID:4W2qbdqm
>>7
1文字のためだけに他の文字コードの途中に割り付けるとかないから、
不連続すぎる割り当てとか後で変更されるようなコード
たとえば韓国のユニコード割り当てがユニコードのバージョンでコードそのものが違うように
そういうことはあってはならない、ユニコードのバージョンで条件分岐で対処すればいいだろうけど
それは明らかに変だろ、

21: 2017/12/25(月) 08:25:36.76 ID:uwemIeOO
>>10
文字コードを連番にするとヘボいプログラマが文字コードが連番であるという前提でコード書くので後で困る。

22: 2017/12/25(月) 08:34:31.35 ID:4W2qbdqm
>>21
日本語か日本語じゃない文字かを判定するときに、1文字だけ飛んだら困るだろ

11: 2017/12/25(月) 07:04:14.78 ID:7VMa6lis
フォントが対応してくれなきゃ

12: 2017/12/25(月) 07:05:07.21 ID:l2YP9E8l
中国の人名とか地名とかに使う漢字もコード化しろよ。
新聞に○辺に□とか書いてるだろ。

13: 2017/12/25(月) 07:05:07.35 ID:WBU+WGbR
結局シフトJISやEUCなどの環境がある限り、意味がない

14: 2017/12/25(月) 07:07:19.48 ID:bV8VduO/
コンピューターで

って漠然としてんなぁ

15: 2017/12/25(月) 07:09:19.70 ID:S2x8lA8r
超漢字ってあったよな

17: 2017/12/25(月) 07:32:23.96 ID:f1yolDrv
>>15
あれ、漢字は何万文字入ってるんだろ。

23: 2017/12/25(月) 08:37:39.61 ID:u7AEvU85
>>1
漢文講義するとき助かる

25: 2017/12/25(月) 08:43:35.83 ID:Koo+dNa5
俺の名字も正確なのないから、簡易字つかってるな。

27: 2017/12/25(月) 08:49:52.76 ID:b2JSO5kB
またスマホが重くなるな

29: 2017/12/25(月) 12:18:05.99 ID:WRQDj8Y0
超漢字は18万
TRONに追いついてすらいない

31: 2017/12/25(月) 16:12:39.75 ID:dw9MfVUg
>>29
外国語入れてだろ

36: 2017/12/25(月) 21:35:58.45 ID:Mi/RlUUg
>>31
というか外国の漢字も入れるべきだと思う。
日本語しか使えない文字コードだとほかのコードページと切り替えが必要になり、マルチランゲージ対応が難しくなる。

素直に考えれば、超漢字の文字コードそのままorシフトで採用でよかったんじゃないかと思う。

38: 2017/12/25(月) 22:29:39.25 ID:DCSKd2YI
>>36
超漢字の日本漢字はJIS第1 - 第4水準、補助漢字のみ
全然日本の漢字として数足りないんだけど

39: 2017/12/25(月) 22:56:44.28 ID:lz/oNolB
>>38
あと何が有るんだ

33: 2017/12/25(月) 18:09:12.04 ID:xUmKRZBA
>>1
>15年越しでようやく完了
データ作成に携わられた皆さん乙でしたm(_ _)m

34: 2017/12/25(月) 19:29:17.91 ID:bSmjCHJv
同音異義語を減らしてくれ

35: 2017/12/25(月) 20:09:57.33 ID:nyCNjF1q
三国志の武将に使われてる難しい漢字も登録されてるの?

41: 2017/12/25(月) 23:53:44.13 ID:0kGutRty
できるのが20年おせーよww
さすがお役所

42: 2017/12/26(火) 00:08:43.01 ID:oQ5BHkWw
游明朝気に入ったわ
言葉が頭に入ってくる
本当は商用フォントがいいんだろうけど

46: 2017/12/26(火) 12:15:37.30 ID:CnbcvKQ1
遅すぎる