AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発 : 理系にゅーす

1: 2019/07/12(金) 04:35:09.76 ID:CAP_USER

AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発（記事全文は、ソースをご覧ください。）
https://pc.watch.impress.co.jp/docs/news/1195499.html
2019年7月11日 12:12
PC Watch,Impress,インプレス,笠原一輝

https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/001_l.jpg
（画像）くずし字で書かれた古文書を手に持つ情報・システム研究機構データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター特任研究員および国立情報学研究所タリン・カラーヌワット氏

　Googleは都内のオフィスにおいて、「Solve....with AI」というアジア太平洋地域の記者などを集めたイベントを開催し、Google Cloud Platform(GCP、Googleのパブリッククラウドサービス事業)などを通じて提供している各種のAIサービスやTensorFlowなどの機械学習(マシンラーニング)ベースのAIを開発するツールなどのソリューションや、その具体的な利用事例などを紹介した。

　このなかで、情報・システム研究機構データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター特任研究員および国立情報学研究所のタリン・カラーヌワット氏は、日本語の古文書で一般的に使われている「くずし字」を自動で読み取って現代語に翻訳(正確には翻刻)するOCR「KuroNet」を開発し、Webブラウザ上で実行可能な機械学習ライブラリとなるTensorFlow.jsとしてくずし字の文字認識が可能になるようにしたと説明した。

【お詫びと訂正】本AIの開発にはGoogleの技術も用いられていますが、AI自体をGoogleが開発したと誤解を招く表現がありましたので、お詫びして訂正させていただきます。また、このプロジェクトの作業内容は正確には翻訳ではなく翻刻と呼ぶのが正しいので、その旨付記をいたしました。

・百数十年前までは皆が読めていた「くずし字」。今は人口の0.01%以下しか読めないという現実

https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/002_l.jpg
（画像）くずし字と現代語、確かに現代人からすると日本語なのに読めない

　7月10日にGoogleの東京オフィスで行なわれたイベントに登壇した情報・システム研究機構データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター特任研究員および国立情報学研究所タリン・カラーヌワット氏は、「日本では1千年にわたりくずし字という筆記体の文字を使ってきた。しかし、現代の印刷システムではそれを使うことは難しく、20世紀に入って現代語へと変換が進められてきた。その結果、くずし字で書かれた数百万の古文書や古書が現存するが、それらは人口の0.01%以下の人しか読むことができない」という問題を指摘した。

https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/003_l.jpg
明治時代に印刷システムの要求から筆記体のくずし字から現代語への転換が図られた

　たとえば江戸時代の古典籍はくずし字と呼ばれる筆記体の日本語で書かれている。文法などは現代語と大きな違いはない(厳密に言うと主語が省略されることが多いなど微妙な違いはある)のだが、そもそも文字が識別できないので読めないという問題がある。

https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/004_l.jpg
（画像）数百万のくずし字で書かれた古文書があるのに人口の0.01%以下の人しか読めないという現実

続きはソースで

引用元: ・【ＡＩ/画像処理/古文書】AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発[07/12]

2: 2019/07/12(金) 04:39:28.03 ID:taourUqC

読めないようにしてきたんじゃないかね

10: 2019/07/12(金) 06:24:09.13 ID:z7V4WmKC

>>2
権威主義の専門家が自己の読み間違えを理屈こねて正当化定着とかさせちゃったりしてきたからね。

39: 2019/07/12(金) 10:07:34.49 ID:Nwhtdr6Y

>>2
幕末のちゃんとした人が書いてるのはほぼ現代語で
一部のくずし字がわかれば普通に読めるぞ
特に薩長の文書は読みやすい
ここの役人が明治政府を作って現代語をつくったのがよくわかるわ

4: 2019/07/12(金) 05:22:04.40 ID:/3s2Oryf

くずし字の変体仮名は似た字が多いけどちゃんと区別できてるならすごいな

129: 2019/07/15(月) 11:46:54.55 ID:hesyCvM8

>>4
ひとつのひらがなに対して、
崩す元の漢字の数が多すぎて見分けがつきにくいんだよね

8: 2019/07/12(金) 06:07:59.28 ID:rM6SITwv

まあ　読めるようになるのはいいけど　一般人が閲覧できるように

しっかりなるかが課題だな　日本はそこが弱いし　隠す傾向が強いｗｗｗｗ

しっかりオープンソースでそうして欲しいねｗ

9: 2019/07/12(金) 06:09:52.58 ID:MDxFwwFe

直接英訳した方が早そうだな

13: 2019/07/12(金) 06:34:20.92 ID:mNaeYk7+

くずし字って英語の筆記体みたいなもんだろ

103: 2019/07/13(土) 02:16:04.87 ID:kkYsHTk/

>>13
筆記体なんて今さら覚える必要あるのかよって中坊の頃に思ってたけど
大学入ったら英語圏の先生は筆記体で板書きするから読めなかったら講義受けられねーぞって脅されてた
でも80年代にはもう博士様すらブロック体で書くと言われていた現実

17: 2019/07/12(金) 07:09:08.42 ID:fhu+pVUO

棋士vs将棋ソフトみたいに磯田vs翻訳ソフトを

19: 2019/07/12(金) 07:12:19.74 ID:HauSnpME

英語も筆記体見なくなったよな

22: 2019/07/12(金) 07:21:52.89 ID:Ru4lYaKe

狂喜乱舞って久々に聞いた

23: 2019/07/12(金) 07:41:11.77 ID:CXUjQHor

すごいなAI。翻訳ツールが何を開発したのか気になる

24: 2019/07/12(金) 07:54:50.06 ID:rzv8Dyz5

昔の人はよく読めてたなってほんと思う

26: 2019/07/12(金) 08:13:30.83 ID:6RY+2KLd

これは素晴らしい
文化勲章を差し上げたい

28: 2019/07/12(金) 08:19:29.23 ID:Ju87KtXY

地味だけどこれは素晴らしい技術ですね
過去の資産を十分に生かせるようになる
焚書したり文字を捨てたりする国は滅ぶ

30: 2019/07/12(金) 08:44:25.36 ID:5773tsx3

古文書片っ端から解読して青空文庫に上げてほしい。
で口語訳もAIでやってできるようにして。
で、それらの成果物の著作権とかはどうなるんかな。

32: 2019/07/12(金) 09:37:24.43 ID:csupAlXt

日本人研究者は日本語をAIで解読することを邪道と思ってたとか？
あるいは文系研究者はAIで何ができるかわかっていなかったとか
ありがちな話だけどどーなの

35: 2019/07/12(金) 09:44:02.95 ID:xcnBq66z

>>32
どっちかいうと後者じゃないかなぁ

107: 2019/07/13(土) 10:09:22.45 ID:5uZfEwj8

>>35
日本だと文系はあくまでも文系って人ばっかりだからね。

114: 2019/07/13(土) 15:05:04.61 ID:kx9kPjN2

>>107
高学歴って意味で言えば海外では数学と英語はできて当たり前
その上で何を専攻するかなんだろうけど…
日本は「数学ができないから文系になりました」って人が多いもんね
その延長の妄想で「英語のできない奴が理系になる」と言い出す人が多すぎ

119: 2019/07/13(土) 17:19:29.05 ID:akXpAOAu

>>114
はあ？
外国人は数学ができないやつ多いぞ

56: 2019/07/12(金) 12:08:08.26 ID:2ZBwq/7d

>>32
日本語は漢字ひらがなカタカナ English 0123...9 などから成る
英語は 0123...9 abc...z ABC...Z と少ない

そして現在の書かれた文字の認識は統計アルゴリズム、つまり数学によって実装されている
数学的には、分類する種類の数が大きいほど指数関数的にサンプルデータ必要です
つまり数が必要だったから現実的じゃなかった

82: 2019/07/12(金) 14:21:54.54 ID:N3EVhujM

>>32
日本人研究者は読めちゃうからイラン。苦手でも周りに読める人がいっぱいいる
困ってるのは一般人と外人で、だから外人が作ったってとこやろ

84: 2019/07/12(金) 14:33:05.27 ID:ZISKyxTg

>>82
そこが研究の敷居の高さになってるから、どれだけオープンにするかだね
日本語の文献史学はどんどんノンネイティブの人が参入して欲しい
万葉集とか古いのはネタが尽きて、研究進まんのよ

106: 2019/07/13(土) 07:12:47.51 ID:3cXUBq5+

>>32時代や人によってくずし字って特徴変わると思うんだけど何でも対応できるんかね？

108: 2019/07/13(土) 10:34:07.22 ID:K7zhzrqX

>>106
AIだから、学習次第じゃないの。

33: 2019/07/12(金) 09:43:28.69 ID:CHBCtbh1

ネットの認証セキュリティで日本語のくずし字を記入するサイトがあるけれども
あれもやっぱり近い将来にAIに判読されそうだな

34: 2019/07/12(金) 09:43:29.26 ID:KAjIdVl5

明治大正時代の外交文書なんか見てても
官僚が墨で自筆で書いたものは判読が結構厳しい
活字印刷は隔世の感があるね