筆記体 : 理系にゅーす

1: 2019/07/12(金) 04:35:09.76 ID:CAP_USER

AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発（記事全文は、ソースをご覧ください。）
https://pc.watch.impress.co.jp/docs/news/1195499.html
2019年7月11日 12:12
PC Watch,Impress,インプレス,笠原一輝

https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/001_l.jpg
（画像）くずし字で書かれた古文書を手に持つ情報・システム研究機構データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター特任研究員および国立情報学研究所タリン・カラーヌワット氏

　Googleは都内のオフィスにおいて、「Solve....with AI」というアジア太平洋地域の記者などを集めたイベントを開催し、Google Cloud Platform(GCP、Googleのパブリッククラウドサービス事業)などを通じて提供している各種のAIサービスやTensorFlowなどの機械学習(マシンラーニング)ベースのAIを開発するツールなどのソリューションや、その具体的な利用事例などを紹介した。

　このなかで、情報・システム研究機構データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター特任研究員および国立情報学研究所のタリン・カラーヌワット氏は、日本語の古文書で一般的に使われている「くずし字」を自動で読み取って現代語に翻訳(正確には翻刻)するOCR「KuroNet」を開発し、Webブラウザ上で実行可能な機械学習ライブラリとなるTensorFlow.jsとしてくずし字の文字認識が可能になるようにしたと説明した。

【お詫びと訂正】本AIの開発にはGoogleの技術も用いられていますが、AI自体をGoogleが開発したと誤解を招く表現がありましたので、お詫びして訂正させていただきます。また、このプロジェクトの作業内容は正確には翻訳ではなく翻刻と呼ぶのが正しいので、その旨付記をいたしました。

・百数十年前までは皆が読めていた「くずし字」。今は人口の0.01%以下しか読めないという現実

https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/002_l.jpg
（画像）くずし字と現代語、確かに現代人からすると日本語なのに読めない

　7月10日にGoogleの東京オフィスで行なわれたイベントに登壇した情報・システム研究機構データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター特任研究員および国立情報学研究所タリン・カラーヌワット氏は、「日本では1千年にわたりくずし字という筆記体の文字を使ってきた。しかし、現代の印刷システムではそれを使うことは難しく、20世紀に入って現代語へと変換が進められてきた。その結果、くずし字で書かれた数百万の古文書や古書が現存するが、それらは人口の0.01%以下の人しか読むことができない」という問題を指摘した。

https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/003_l.jpg
明治時代に印刷システムの要求から筆記体のくずし字から現代語への転換が図られた

　たとえば江戸時代の古典籍はくずし字と呼ばれる筆記体の日本語で書かれている。文法などは現代語と大きな違いはない(厳密に言うと主語が省略されることが多いなど微妙な違いはある)のだが、そもそも文字が識別できないので読めないという問題がある。

https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/004_l.jpg
（画像）数百万のくずし字で書かれた古文書があるのに人口の0.01%以下の人しか読めないという現実

続きはソースで