1: 2019/07/12(金) 04:35:09.76 ID:CAP_USER
AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発(記事全文は、ソースをご覧ください。)
https://pc.watch.impress.co.jp/docs/news/1195499.html
2019年7月11日 12:12
PC Watch,Impress,インプレス,笠原 一輝
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/001_l.jpg
(画像)くずし字で書かれた古文書を手に持つ情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏
Googleは都内のオフィスにおいて、「Solve....with AI」というアジア太平洋地域の記者などを集めたイベントを開催し、Google Cloud Platform(GCP、Googleのパブリッククラウドサービス事業)などを通じて提供している各種のAIサービスやTensorFlowなどの機械学習(マシンラーニング)ベースのAIを開発するツールなどのソリューションや、その具体的な利用事例などを紹介した。
このなかで、情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター特任研究員および国立情報学研究所のタリン・カラーヌワット氏は、日本語の古文書で一般的に使われている「くずし字」を自動で読み取って現代語に翻訳(正確には翻刻)するOCR「KuroNet」を開発し、Webブラウザ上で実行可能な機械学習ライブラリとなるTensorFlow.jsとしてくずし字の文字認識が可能になるようにしたと説明した。
【お詫びと訂正】本AIの開発にはGoogleの技術も用いられていますが、AI自体をGoogleが開発したと誤解を招く表現がありましたので、お詫びして訂正させていただきます。また、このプロジェクトの作業内容は正確には翻訳ではなく翻刻と呼ぶのが正しいので、その旨付記をいたしました。
・百数十年前までは皆が読めていた「くずし字」。今は人口の0.01%以下しか読めないという現実
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/002_l.jpg
(画像)くずし字と現代語、確かに現代人からすると日本語なのに読めない
7月10日にGoogleの東京オフィスで行なわれたイベントに登壇した情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏は、「日本では1千年にわたりくずし字という筆記体の文字を使ってきた。しかし、現代の印刷システムではそれを使うことは難しく、20世紀に入って現代語へと変換が進められてきた。その結果、くずし字で書かれた数百万の古文書や古書が現存するが、それらは人口の0.01%以下の人しか読むことができない」という問題を指摘した。
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/003_l.jpg
明治時代に印刷システムの要求から筆記体のくずし字から現代語への転換が図られた
たとえば江戸時代の古典籍はくずし字と呼ばれる筆記体の日本語で書かれている。文法などは現代語と大きな違いはない(厳密に言うと主語が省略されることが多いなど微妙な違いはある)のだが、そもそも文字が識別できないので読めないという問題がある。
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/004_l.jpg
(画像)数百万のくずし字で書かれた古文書があるのに人口の0.01%以下の人しか読めないという現実
続きはソースで

https://pc.watch.impress.co.jp/docs/news/1195499.html
2019年7月11日 12:12
PC Watch,Impress,インプレス,笠原 一輝
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/001_l.jpg
(画像)くずし字で書かれた古文書を手に持つ情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏
Googleは都内のオフィスにおいて、「Solve....with AI」というアジア太平洋地域の記者などを集めたイベントを開催し、Google Cloud Platform(GCP、Googleのパブリッククラウドサービス事業)などを通じて提供している各種のAIサービスやTensorFlowなどの機械学習(マシンラーニング)ベースのAIを開発するツールなどのソリューションや、その具体的な利用事例などを紹介した。
このなかで、情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター特任研究員および国立情報学研究所のタリン・カラーヌワット氏は、日本語の古文書で一般的に使われている「くずし字」を自動で読み取って現代語に翻訳(正確には翻刻)するOCR「KuroNet」を開発し、Webブラウザ上で実行可能な機械学習ライブラリとなるTensorFlow.jsとしてくずし字の文字認識が可能になるようにしたと説明した。
【お詫びと訂正】本AIの開発にはGoogleの技術も用いられていますが、AI自体をGoogleが開発したと誤解を招く表現がありましたので、お詫びして訂正させていただきます。また、このプロジェクトの作業内容は正確には翻訳ではなく翻刻と呼ぶのが正しいので、その旨付記をいたしました。
・百数十年前までは皆が読めていた「くずし字」。今は人口の0.01%以下しか読めないという現実
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/002_l.jpg
(画像)くずし字と現代語、確かに現代人からすると日本語なのに読めない
7月10日にGoogleの東京オフィスで行なわれたイベントに登壇した情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏は、「日本では1千年にわたりくずし字という筆記体の文字を使ってきた。しかし、現代の印刷システムではそれを使うことは難しく、20世紀に入って現代語へと変換が進められてきた。その結果、くずし字で書かれた数百万の古文書や古書が現存するが、それらは人口の0.01%以下の人しか読むことができない」という問題を指摘した。
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/003_l.jpg
明治時代に印刷システムの要求から筆記体のくずし字から現代語への転換が図られた
たとえば江戸時代の古典籍はくずし字と呼ばれる筆記体の日本語で書かれている。文法などは現代語と大きな違いはない(厳密に言うと主語が省略されることが多いなど微妙な違いはある)のだが、そもそも文字が識別できないので読めないという問題がある。
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/004_l.jpg
(画像)数百万のくずし字で書かれた古文書があるのに人口の0.01%以下の人しか読めないという現実
続きはソースで

引用元: ・【AI/画像処理/古文書】AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発[07/12]
2: 2019/07/12(金) 04:39:28.03 ID:taourUqC
読めないようにしてきたんじゃないかね
10: 2019/07/12(金) 06:24:09.13 ID:z7V4WmKC
>>2
権威主義の専門家が自己の読み間違えを理屈こねて正当化定着とかさせちゃったりしてきたからね。
権威主義の専門家が自己の読み間違えを理屈こねて正当化定着とかさせちゃったりしてきたからね。
39: 2019/07/12(金) 10:07:34.49 ID:Nwhtdr6Y
>>2
幕末のちゃんとした人が書いてるのはほぼ現代語で
一部のくずし字がわかれば普通に読めるぞ
特に薩長の文書は読みやすい
ここの役人が明治政府を作って現代語をつくったのがよくわかるわ
幕末のちゃんとした人が書いてるのはほぼ現代語で
一部のくずし字がわかれば普通に読めるぞ
特に薩長の文書は読みやすい
ここの役人が明治政府を作って現代語をつくったのがよくわかるわ
4: 2019/07/12(金) 05:22:04.40 ID:/3s2Oryf
くずし字の変体仮名は似た字が多いけどちゃんと区別できてるならすごいな
129: 2019/07/15(月) 11:46:54.55 ID:hesyCvM8
>>4
ひとつのひらがなに対して、
崩す元の漢字の数が多すぎて見分けがつきにくいんだよね
ひとつのひらがなに対して、
崩す元の漢字の数が多すぎて見分けがつきにくいんだよね
8: 2019/07/12(金) 06:07:59.28 ID:rM6SITwv
まあ 読めるようになるのはいいけど 一般人が閲覧できるように
しっかりなるかが課題だな 日本はそこが弱いし 隠す傾向が強いwwww
しっかりオープンソースでそうして欲しいねw
しっかりなるかが課題だな 日本はそこが弱いし 隠す傾向が強いwwww
しっかりオープンソースでそうして欲しいねw
9: 2019/07/12(金) 06:09:52.58 ID:MDxFwwFe
直接英訳した方が早そうだな
13: 2019/07/12(金) 06:34:20.92 ID:mNaeYk7+
くずし字って英語の筆記体みたいなもんだろ
103: 2019/07/13(土) 02:16:04.87 ID:kkYsHTk/
>>13
筆記体なんて今さら覚える必要あるのかよって中坊の頃に思ってたけど
大学入ったら英語圏の先生は筆記体で板書きするから読めなかったら講義受けられねーぞって脅されてた
でも80年代にはもう博士様すらブロック体で書くと言われていた現実
筆記体なんて今さら覚える必要あるのかよって中坊の頃に思ってたけど
大学入ったら英語圏の先生は筆記体で板書きするから読めなかったら講義受けられねーぞって脅されてた
でも80年代にはもう博士様すらブロック体で書くと言われていた現実
17: 2019/07/12(金) 07:09:08.42 ID:fhu+pVUO
棋士vs将棋ソフトみたいに磯田vs翻訳ソフトを
19: 2019/07/12(金) 07:12:19.74 ID:HauSnpME
英語も筆記体見なくなったよな
22: 2019/07/12(金) 07:21:52.89 ID:Ru4lYaKe
狂喜乱舞って久々に聞いた
23: 2019/07/12(金) 07:41:11.77 ID:CXUjQHor
すごいなAI。翻訳ツールが何を開発したのか気になる
24: 2019/07/12(金) 07:54:50.06 ID:rzv8Dyz5
昔の人はよく読めてたなってほんと思う
26: 2019/07/12(金) 08:13:30.83 ID:6RY+2KLd
これは素晴らしい
文化勲章を差し上げたい
文化勲章を差し上げたい
28: 2019/07/12(金) 08:19:29.23 ID:Ju87KtXY
地味だけどこれは素晴らしい技術ですね
過去の資産を十分に生かせるようになる
焚書したり文字を捨てたりする国は滅ぶ
過去の資産を十分に生かせるようになる
焚書したり文字を捨てたりする国は滅ぶ
30: 2019/07/12(金) 08:44:25.36 ID:5773tsx3
古文書片っ端から解読して青空文庫に上げてほしい。
で口語訳もAIでやってできるようにして。
で、それらの成果物の著作権とかはどうなるんかな。
で口語訳もAIでやってできるようにして。
で、それらの成果物の著作権とかはどうなるんかな。
32: 2019/07/12(金) 09:37:24.43 ID:csupAlXt
日本人研究者は日本語をAIで解読することを邪道と思ってたとか?
あるいは文系研究者はAIで何ができるかわかっていなかったとか
ありがちな話だけどどーなの
あるいは文系研究者はAIで何ができるかわかっていなかったとか
ありがちな話だけどどーなの
35: 2019/07/12(金) 09:44:02.95 ID:xcnBq66z
>>32
どっちかいうと後者じゃないかなぁ
どっちかいうと後者じゃないかなぁ
107: 2019/07/13(土) 10:09:22.45 ID:5uZfEwj8
>>35
日本だと文系はあくまでも文系って人ばっかりだからね。
日本だと文系はあくまでも文系って人ばっかりだからね。
114: 2019/07/13(土) 15:05:04.61 ID:kx9kPjN2
>>107
高学歴って意味で言えば海外では数学と英語はできて当たり前
その上で何を専攻するかなんだろうけど…
日本は「数学ができないから文系になりました」って人が多いもんね
その延長の妄想で「英語のできない奴が理系になる」と言い出す人が多すぎ
高学歴って意味で言えば海外では数学と英語はできて当たり前
その上で何を専攻するかなんだろうけど…
日本は「数学ができないから文系になりました」って人が多いもんね
その延長の妄想で「英語のできない奴が理系になる」と言い出す人が多すぎ
119: 2019/07/13(土) 17:19:29.05 ID:akXpAOAu
>>114
はあ?
外国人は数学ができないやつ多いぞ
はあ?
外国人は数学ができないやつ多いぞ
56: 2019/07/12(金) 12:08:08.26 ID:2ZBwq/7d
>>32
日本語は 漢字 ひらがな カタカナ English 0123...9 などから成る
英語は 0123...9 abc...z ABC...Z と少ない
そして現在の書かれた文字の認識は統計アルゴリズム、つまり数学によって実装されている
数学的には、分類する種類の数が大きいほど指数関数的にサンプルデータ必要です
つまり数が必要だったから現実的じゃなかった
日本語は 漢字 ひらがな カタカナ English 0123...9 などから成る
英語は 0123...9 abc...z ABC...Z と少ない
そして現在の書かれた文字の認識は統計アルゴリズム、つまり数学によって実装されている
数学的には、分類する種類の数が大きいほど指数関数的にサンプルデータ必要です
つまり数が必要だったから現実的じゃなかった
82: 2019/07/12(金) 14:21:54.54 ID:N3EVhujM
>>32
日本人研究者は読めちゃうからイラン。苦手でも周りに読める人がいっぱいいる
困ってるのは一般人と外人で、だから外人が作ったってとこやろ
日本人研究者は読めちゃうからイラン。苦手でも周りに読める人がいっぱいいる
困ってるのは一般人と外人で、だから外人が作ったってとこやろ
84: 2019/07/12(金) 14:33:05.27 ID:ZISKyxTg
>>82
そこが研究の敷居の高さになってるから、どれだけオープンにするかだね
日本語の文献史学はどんどんノンネイティブの人が参入して欲しい
万葉集とか古いのはネタが尽きて、研究進まんのよ
そこが研究の敷居の高さになってるから、どれだけオープンにするかだね
日本語の文献史学はどんどんノンネイティブの人が参入して欲しい
万葉集とか古いのはネタが尽きて、研究進まんのよ
106: 2019/07/13(土) 07:12:47.51 ID:3cXUBq5+
>>32時代や人によってくずし字って特徴変わると思うんだけど何でも対応できるんかね?
108: 2019/07/13(土) 10:34:07.22 ID:K7zhzrqX
>>106
AIだから、学習次第じゃないの。
AIだから、学習次第じゃないの。
33: 2019/07/12(金) 09:43:28.69 ID:CHBCtbh1
ネットの認証セキュリティで日本語のくずし字を記入するサイトがあるけれども
あれもやっぱり近い将来にAIに判読されそうだな
あれもやっぱり近い将来にAIに判読されそうだな
34: 2019/07/12(金) 09:43:29.26 ID:KAjIdVl5
明治大正時代の外交文書なんか見てても
官僚が墨で自筆で書いたものは判読が結構厳しい
活字印刷は隔世の感があるね
官僚が墨で自筆で書いたものは判読が結構厳しい
活字印刷は隔世の感があるね
37: 2019/07/12(金) 09:57:04.64 ID:+fas7KGb
これが正しいAIの使い方だな。
ただ、10年位英翻訳があのままなの見ると絶望だが
ただ、10年位英翻訳があのままなの見ると絶望だが
44: 2019/07/12(金) 10:39:58.86 ID:2/+l8nzr
ぶっちゃけ、本能寺で信ちゃんやったの、俺なんだよねwww
竜馬、すまん。暗◯の首謀者な、実は俺、的な大発見来るか??
竜馬、すまん。暗◯の首謀者な、実は俺、的な大発見来るか??
コメントする