1: 2015/07/04(土) 10:24:05.34 ID:???.net
凸版印刷|凸版印刷、江戸期以前のくずし字を 高精度でテキストデータ化する新方式OCR技術を開発
http://www.toppan.co.jp/news/2015/07/newsrelease150703_2.html
画像
http://www.toppan.co.jp/var/rev0/0000/2966/11573165137.png
「源氏物語」(絵入本,国文研所蔵)のOCRによるテキストデータ化
http://www.toppan.co.jp/var/rev0/0000/2965/11573165214.png
古典籍のテキストデータ化処理の流れ
凸版印刷株式会社(本社:東京都千代田区、代表取締役社長:金子眞吾、以下 凸版印刷)は、江戸期以前のくずし字で記されている古典籍(内容・形態の優れた古い書物のこと)の文字を判別し、テキストデータ化するOCR(光学文字認識)技術を開発しました。凸版印刷は、本技術による古典籍のテキストデータ化サービスを2015年夏より試験的に開始予定です。
本技術は、江戸期以前の書物に使われているくずし字を自動で判読し、テキストデータ化することを可能にするものです。凸版印刷は、2013年からさまざまな書籍を高い精度でテキストデータ化する「高精度全文テキスト化サービス」を提供しています。このサービスで確立したテキストデータ化技術のシステム基盤をベースに、公立学校法人公立はこだて未来大学(所在地:北海道函館市、学長:中島秀之)の寺沢憲吾准教授が開発した「文書画像検索システム」と組み合わせることで、くずし字で記されている古典籍のOCR処理を実現しました。
本技術開発に際して、2014年度に実施した原理検証実験では、くずし字で記されている書物を80%以上の精度でOCR処理することに成功し、効率のよいテキストデータ化が可能であることを実証しました。原理検証実験を行う上で、凸版印刷は、大学共同利用機関法人人間文化研究機構国文学研究資料館(所在地:東京都立川市、館長:今西祐一郎、以下 国文研)の古典籍共同研究事業センターとともに課題整理と検討を重ね、本技術の検証で使用する古典籍の選定に関する助言、および所蔵する古典籍の画像とテキスト情報の提供を受けています。
■ 開発の背景
近年、大規模災害による資料アーカイブの必要性の見直しや、専門家の減少と資料の経年劣化による文化継承の危機的状況から、歴史的資料のデジタル化やテキストデータ化が求められています。しかし、総数100万点以上ともいわれる江戸期以前のくずし字で記されている古典籍は、専門家による判読が必要とされ、テキストデータ化が遅れていました。
■ 本技術の特長
・ テキストデータ化済みの文献を、OCR処理に用いるくずし字データベースとして使用することで、テキストデータ化されていない文献を80%以上の精度でテキストデータ化することが可能
・ 専門家による判読に頼っていたテキストデータ化と比べ、大幅なコスト削減と大量処理が可能
・ テキストデータを、PDFなどさまざまなデータ形式へ変換し、利活用することが可能
■ 今後の目標
凸版印刷は、本技術による、くずし字で記された古典籍のテキストデータ化サービスを2015年夏より試験的に開始する予定です。今後、幅広い年代やジャンルの資料に対するOCR処理の精度向上を図ります。さらに本技術を発展させ、現代語への翻訳、多言語翻訳、システム公開などを通して、異分野との研究融合や教育への普及、日本文化の諸外国へむけた情報発信の進展といった新しい文化の創出に貢献していきます。
続きはソースで
http://www.toppan.co.jp/news/2015/07/newsrelease150703_2.html
画像
http://www.toppan.co.jp/var/rev0/0000/2966/11573165137.png
「源氏物語」(絵入本,国文研所蔵)のOCRによるテキストデータ化
http://www.toppan.co.jp/var/rev0/0000/2965/11573165214.png
古典籍のテキストデータ化処理の流れ
凸版印刷株式会社(本社:東京都千代田区、代表取締役社長:金子眞吾、以下 凸版印刷)は、江戸期以前のくずし字で記されている古典籍(内容・形態の優れた古い書物のこと)の文字を判別し、テキストデータ化するOCR(光学文字認識)技術を開発しました。凸版印刷は、本技術による古典籍のテキストデータ化サービスを2015年夏より試験的に開始予定です。
本技術は、江戸期以前の書物に使われているくずし字を自動で判読し、テキストデータ化することを可能にするものです。凸版印刷は、2013年からさまざまな書籍を高い精度でテキストデータ化する「高精度全文テキスト化サービス」を提供しています。このサービスで確立したテキストデータ化技術のシステム基盤をベースに、公立学校法人公立はこだて未来大学(所在地:北海道函館市、学長:中島秀之)の寺沢憲吾准教授が開発した「文書画像検索システム」と組み合わせることで、くずし字で記されている古典籍のOCR処理を実現しました。
本技術開発に際して、2014年度に実施した原理検証実験では、くずし字で記されている書物を80%以上の精度でOCR処理することに成功し、効率のよいテキストデータ化が可能であることを実証しました。原理検証実験を行う上で、凸版印刷は、大学共同利用機関法人人間文化研究機構国文学研究資料館(所在地:東京都立川市、館長:今西祐一郎、以下 国文研)の古典籍共同研究事業センターとともに課題整理と検討を重ね、本技術の検証で使用する古典籍の選定に関する助言、および所蔵する古典籍の画像とテキスト情報の提供を受けています。
■ 開発の背景
近年、大規模災害による資料アーカイブの必要性の見直しや、専門家の減少と資料の経年劣化による文化継承の危機的状況から、歴史的資料のデジタル化やテキストデータ化が求められています。しかし、総数100万点以上ともいわれる江戸期以前のくずし字で記されている古典籍は、専門家による判読が必要とされ、テキストデータ化が遅れていました。
■ 本技術の特長
・ テキストデータ化済みの文献を、OCR処理に用いるくずし字データベースとして使用することで、テキストデータ化されていない文献を80%以上の精度でテキストデータ化することが可能
・ 専門家による判読に頼っていたテキストデータ化と比べ、大幅なコスト削減と大量処理が可能
・ テキストデータを、PDFなどさまざまなデータ形式へ変換し、利活用することが可能
■ 今後の目標
凸版印刷は、本技術による、くずし字で記された古典籍のテキストデータ化サービスを2015年夏より試験的に開始する予定です。今後、幅広い年代やジャンルの資料に対するOCR処理の精度向上を図ります。さらに本技術を発展させ、現代語への翻訳、多言語翻訳、システム公開などを通して、異分野との研究融合や教育への普及、日本文化の諸外国へむけた情報発信の進展といった新しい文化の創出に貢献していきます。
続きはソースで

引用元: ・【技術】江戸期以前のくずし字を高精度でテキストデータ化する新方式OCR技術を開発 凸版印刷
【すごい!】江戸期以前のくずし字を高精度でテキストデータ化する新方式OCR技術を開発 凸版印刷の続きを読む