1: 2015/07/04(土) 10:24:05.34 ID:???.net
凸版印刷|凸版印刷、江戸期以前のくずし字を 高精度でテキストデータ化する新方式OCR技術を開発
http://www.toppan.co.jp/news/2015/07/newsrelease150703_2.html
画像
http://www.toppan.co.jp/var/rev0/0000/2966/11573165137.png
「源氏物語」(絵入本,国文研所蔵)のOCRによるテキストデータ化
http://www.toppan.co.jp/var/rev0/0000/2965/11573165214.png
古典籍のテキストデータ化処理の流れ
凸版印刷株式会社(本社:東京都千代田区、代表取締役社長:金子眞吾、以下 凸版印刷)は、江戸期以前のくずし字で記されている古典籍(内容・形態の優れた古い書物のこと)の文字を判別し、テキストデータ化するOCR(光学文字認識)技術を開発しました。凸版印刷は、本技術による古典籍のテキストデータ化サービスを2015年夏より試験的に開始予定です。
本技術は、江戸期以前の書物に使われているくずし字を自動で判読し、テキストデータ化することを可能にするものです。凸版印刷は、2013年からさまざまな書籍を高い精度でテキストデータ化する「高精度全文テキスト化サービス」を提供しています。このサービスで確立したテキストデータ化技術のシステム基盤をベースに、公立学校法人公立はこだて未来大学(所在地:北海道函館市、学長:中島秀之)の寺沢憲吾准教授が開発した「文書画像検索システム」と組み合わせることで、くずし字で記されている古典籍のOCR処理を実現しました。
本技術開発に際して、2014年度に実施した原理検証実験では、くずし字で記されている書物を80%以上の精度でOCR処理することに成功し、効率のよいテキストデータ化が可能であることを実証しました。原理検証実験を行う上で、凸版印刷は、大学共同利用機関法人人間文化研究機構国文学研究資料館(所在地:東京都立川市、館長:今西祐一郎、以下 国文研)の古典籍共同研究事業センターとともに課題整理と検討を重ね、本技術の検証で使用する古典籍の選定に関する助言、および所蔵する古典籍の画像とテキスト情報の提供を受けています。
■ 開発の背景
近年、大規模災害による資料アーカイブの必要性の見直しや、専門家の減少と資料の経年劣化による文化継承の危機的状況から、歴史的資料のデジタル化やテキストデータ化が求められています。しかし、総数100万点以上ともいわれる江戸期以前のくずし字で記されている古典籍は、専門家による判読が必要とされ、テキストデータ化が遅れていました。
■ 本技術の特長
・ テキストデータ化済みの文献を、OCR処理に用いるくずし字データベースとして使用することで、テキストデータ化されていない文献を80%以上の精度でテキストデータ化することが可能
・ 専門家による判読に頼っていたテキストデータ化と比べ、大幅なコスト削減と大量処理が可能
・ テキストデータを、PDFなどさまざまなデータ形式へ変換し、利活用することが可能
■ 今後の目標
凸版印刷は、本技術による、くずし字で記された古典籍のテキストデータ化サービスを2015年夏より試験的に開始する予定です。今後、幅広い年代やジャンルの資料に対するOCR処理の精度向上を図ります。さらに本技術を発展させ、現代語への翻訳、多言語翻訳、システム公開などを通して、異分野との研究融合や教育への普及、日本文化の諸外国へむけた情報発信の進展といった新しい文化の創出に貢献していきます。
続きはソースで
http://www.toppan.co.jp/news/2015/07/newsrelease150703_2.html
画像
http://www.toppan.co.jp/var/rev0/0000/2966/11573165137.png
「源氏物語」(絵入本,国文研所蔵)のOCRによるテキストデータ化
http://www.toppan.co.jp/var/rev0/0000/2965/11573165214.png
古典籍のテキストデータ化処理の流れ
凸版印刷株式会社(本社:東京都千代田区、代表取締役社長:金子眞吾、以下 凸版印刷)は、江戸期以前のくずし字で記されている古典籍(内容・形態の優れた古い書物のこと)の文字を判別し、テキストデータ化するOCR(光学文字認識)技術を開発しました。凸版印刷は、本技術による古典籍のテキストデータ化サービスを2015年夏より試験的に開始予定です。
本技術は、江戸期以前の書物に使われているくずし字を自動で判読し、テキストデータ化することを可能にするものです。凸版印刷は、2013年からさまざまな書籍を高い精度でテキストデータ化する「高精度全文テキスト化サービス」を提供しています。このサービスで確立したテキストデータ化技術のシステム基盤をベースに、公立学校法人公立はこだて未来大学(所在地:北海道函館市、学長:中島秀之)の寺沢憲吾准教授が開発した「文書画像検索システム」と組み合わせることで、くずし字で記されている古典籍のOCR処理を実現しました。
本技術開発に際して、2014年度に実施した原理検証実験では、くずし字で記されている書物を80%以上の精度でOCR処理することに成功し、効率のよいテキストデータ化が可能であることを実証しました。原理検証実験を行う上で、凸版印刷は、大学共同利用機関法人人間文化研究機構国文学研究資料館(所在地:東京都立川市、館長:今西祐一郎、以下 国文研)の古典籍共同研究事業センターとともに課題整理と検討を重ね、本技術の検証で使用する古典籍の選定に関する助言、および所蔵する古典籍の画像とテキスト情報の提供を受けています。
■ 開発の背景
近年、大規模災害による資料アーカイブの必要性の見直しや、専門家の減少と資料の経年劣化による文化継承の危機的状況から、歴史的資料のデジタル化やテキストデータ化が求められています。しかし、総数100万点以上ともいわれる江戸期以前のくずし字で記されている古典籍は、専門家による判読が必要とされ、テキストデータ化が遅れていました。
■ 本技術の特長
・ テキストデータ化済みの文献を、OCR処理に用いるくずし字データベースとして使用することで、テキストデータ化されていない文献を80%以上の精度でテキストデータ化することが可能
・ 専門家による判読に頼っていたテキストデータ化と比べ、大幅なコスト削減と大量処理が可能
・ テキストデータを、PDFなどさまざまなデータ形式へ変換し、利活用することが可能
■ 今後の目標
凸版印刷は、本技術による、くずし字で記された古典籍のテキストデータ化サービスを2015年夏より試験的に開始する予定です。今後、幅広い年代やジャンルの資料に対するOCR処理の精度向上を図ります。さらに本技術を発展させ、現代語への翻訳、多言語翻訳、システム公開などを通して、異分野との研究融合や教育への普及、日本文化の諸外国へむけた情報発信の進展といった新しい文化の創出に貢献していきます。
続きはソースで

引用元: ・【技術】江戸期以前のくずし字を高精度でテキストデータ化する新方式OCR技術を開発 凸版印刷
3: 2015/07/04(土) 10:35:12.91 ID:fxuX8D7f.net
くずし字をテキトー化に見えた
4: 2015/07/04(土) 10:40:08.93 ID:urgy5rk9.net
文字が読めても、意味が分かんねーよ
5: 2015/07/04(土) 10:40:38.25 ID:k0ulXMip.net
これで古文書を読む仕事だけで食ってる連中が職無しになる?
いや、これで膨大な量の古文書を一気に電子データ化して
それに対して正規表現で検索して研究が一気に進むのか???
1980年代に言語学が一気に進歩したように
かび臭い書庫に篭って読み続ける、という研究だけではなくなるな
とはいっても歴史学だったら出てきた文字、単語の統計分析だけじゃダメだけどなw
~地区の古民家で箱に入れた食器の詰め物に使われていた古い紙に書かれた文字を分析したら
食物の例として米、魚類、野菜のうち野菜の出現頻度が多かったから室町時代の主食は野菜である
なんてクソ研究を提出されても困るw
いや、これで膨大な量の古文書を一気に電子データ化して
それに対して正規表現で検索して研究が一気に進むのか???
1980年代に言語学が一気に進歩したように
かび臭い書庫に篭って読み続ける、という研究だけではなくなるな
とはいっても歴史学だったら出てきた文字、単語の統計分析だけじゃダメだけどなw
~地区の古民家で箱に入れた食器の詰め物に使われていた古い紙に書かれた文字を分析したら
食物の例として米、魚類、野菜のうち野菜の出現頻度が多かったから室町時代の主食は野菜である
なんてクソ研究を提出されても困るw
6: 2015/07/04(土) 10:41:14.76 ID:7h29sgJr.net
80%じゃ校正が必要じゃん
大量にデータ化しても校正がボトルネックになって全体の処理スピード変わりませんてオチだろ
全文検索で単語拾うとかならまだ実用になるかな
大量にデータ化しても校正がボトルネックになって全体の処理スピード変わりませんてオチだろ
全文検索で単語拾うとかならまだ実用になるかな
7: 2015/07/04(土) 10:45:13.28 ID:oJVb5zJk.net
能と純、取と所、水と各みたいに
草書だと同じ字形になってしまうのはどう処理してるんだろうか。
草書だと同じ字形になってしまうのはどう処理してるんだろうか。
8: 2015/07/04(土) 10:45:46.80 ID:ah/Zid4s.net
これが実用化されたとして、その時点であらたな解読技術や
ノウハウの蓄積は途絶することになりゃせんか?世の中の実
用益にはくその役にもたたぬが、日本社会の奥深さを支える
解読職人が死にたえる・・・
ノウハウの蓄積は途絶することになりゃせんか?世の中の実
用益にはくその役にもたたぬが、日本社会の奥深さを支える
解読職人が死にたえる・・・
11: 2015/07/04(土) 10:55:45.66 ID:oJVb5zJk.net
>>8
実際、現状でも博物館なんかで近代の文豪の書簡を見てもちょっと読めないしな。
実際、現状でも博物館なんかで近代の文豪の書簡を見てもちょっと読めないしな。
24: 2015/07/04(土) 12:21:44.60 ID:D652X3FG.net
>>8
自動判別に関するノウハウは受け継がれるわけで、
むしろ属人化することなく残ることになると思うよ。
自動判別に関するノウハウは受け継がれるわけで、
むしろ属人化することなく残ることになると思うよ。
9: 2015/07/04(土) 10:47:43.30 ID:juHCtG12.net
80%じゃなぁ。ないよりましだけれど。
たぶん、人間が読んで入力した方が速いんじゃないか?
たぶん、人間が読んで入力した方が速いんじゃないか?
10: 2015/07/04(土) 10:54:55.56 ID:va/IZkZG.net
くずし字も読めよるようになりたいが、戦前の新聞読むのにも往生するからな。
まず国語教育で旧漢字復活と正仮名遣い復活をしてほしいもんだわ。
まず国語教育で旧漢字復活と正仮名遣い復活をしてほしいもんだわ。
12: 2015/07/04(土) 10:56:54.94 ID:2MdzFTOl.net
価値のないもの、自活できないものは
淘汰されるのが自然の掟。
野生でいきられないトキを保護する
のは自然に逆らう行為。
淘汰されるのが自然の掟。
野生でいきられないトキを保護する
のは自然に逆らう行為。
13: 2015/07/04(土) 11:08:08.49 ID:kfRID5qm.net
古文書は虫食いが多いからな
それと読みにくい20%を読めるのがプロなんじゃないの
それと読みにくい20%を読めるのがプロなんじゃないの
14: 2015/07/04(土) 11:12:16.74 ID:3rmvpkw5.net
万葉仮名?
16: 2015/07/04(土) 11:18:01.19 ID:XcTxhyd0.net
えw古文書も識別すんの?凄過ぎるじゃん
ここは「過ぎる」を使っても許されるレベルなはず
ここは「過ぎる」を使っても許されるレベルなはず
18: 2015/07/04(土) 11:26:33.80 ID:aGUTRadn.net
変態仮名とかもかね
江戸時代の日記程度ならこれ身につけると大概読めるからなぁ
原本が和紙な分だけ長持ちするとは言え、OCRできるならするにこしたことないし
江戸時代の日記程度ならこれ身につけると大概読めるからなぁ
原本が和紙な分だけ長持ちするとは言え、OCRできるならするにこしたことないし
19: 2015/07/04(土) 11:27:04.60 ID:n85AnuQD.net
80%は低いけど、これから解析者のノウハウを少しずつ詰め込んでいって改善するんだろ。
技能の伝承も必要だけど、万が一途絶える可能性を考えたらデジタル化をしておくのは良い事だと思う。
技能の伝承も必要だけど、万が一途絶える可能性を考えたらデジタル化をしておくのは良い事だと思う。
21: 2015/07/04(土) 11:40:09.96 ID:rzhmyyk9.net
古い土地登記簿の崩し字も読めるようにしてください
22: 2015/07/04(土) 11:51:55.19 ID:5F9PEdpy.net
つーか、2,3年柏書房のテキストやっとったら馬鹿でも読めるわ
本当に解読困難なのは「女筆」やろ
本当に解読困難なのは「女筆」やろ
23: 2015/07/04(土) 12:14:10.07 ID:Z+gbW9zP.net
変換ソフトも必要だな
28: 2015/07/04(土) 13:15:15.44 ID:dIFLkQir.net
平安時代に流行った散らし書きは認識できるのかな
30: 2015/07/04(土) 13:35:25.68 ID:2QNEPNb1.net
80%じゃ5文字に1文字は間違うってことだな
校正が無きゃ読めんから解読班が失職することはなさそうだ
あ、そのためか
校正が無きゃ読めんから解読班が失職することはなさそうだ
あ、そのためか
37: 2015/07/04(土) 15:26:33.29 ID:iLbbyipr.net
>>30
だが早晩、失業することになりそうだ。
新たにテキスト化した古文書からもフィードバックを受けるので、その精度は向上する
ことが期待できる。
だが早晩、失業することになりそうだ。
新たにテキスト化した古文書からもフィードバックを受けるので、その精度は向上する
ことが期待できる。
31: 2015/07/04(土) 13:44:04.00 ID:wyL/Slr9.net
こういう流れるような字を当時の人は 腰に墨と筆を持っていて
和紙を片手に持って すらすらと書いていたのが凄い
こんな風に書けるようになりたいな
和紙を片手に持って すらすらと書いていたのが凄い
こんな風に書けるようになりたいな
32: 2015/07/04(土) 14:02:30.16 ID:R0ISzzb3.net
現代文字に書き起こしても わからん 昔の人はこういう言葉をしゃべってたのか?
話し言葉と書き言葉が違ってたのだろうか?江戸末期の女性が話してるのを蓄音機で
録音したのを聞いたことがあるけど 今と遜色なかった
話し言葉と書き言葉が違ってたのだろうか?江戸末期の女性が話してるのを蓄音機で
録音したのを聞いたことがあるけど 今と遜色なかった
35: 2015/07/04(土) 14:23:17.09 ID:aGUTRadn.net
>>32
そりゃ口語と文語って言葉は今でもありますし
そりゃ口語と文語って言葉は今でもありますし
33: 2015/07/04(土) 14:11:21.95 ID:f4ANqQLU.net
> 専門家の減少と資料の経年劣化による文化継承の危機的状況から
こんなの実用化したらますます読める専門家が減るだろ
劣化が問題ならそのまま画像で残しときゃいいじゃない
こんなの実用化したらますます読める専門家が減るだろ
劣化が問題ならそのまま画像で残しときゃいいじゃない
35: 2015/07/04(土) 14:23:17.09 ID:aGUTRadn.net
>>33
オリジナルを残すのは当然同意します
ただ、自炊でもそうですが文字検索ができるようになるのは便利ですよ
オリジナルを残すのは当然同意します
ただ、自炊でもそうですが文字検索ができるようになるのは便利ですよ
34: 2015/07/04(土) 14:23:16.47 ID:Wpl34V+s.net
現代語に変換まで出来る辞書を含んでたら優秀。
38: 2015/07/04(土) 15:37:02.07 ID:+1Rn+S11.net
当て字バリバリだから筆記体で表現してる分かち書きの効果をOCRで取り除いてしまうと
本当にわけがわからんただの文字集合になるんじゃないかな
本当にわけがわからんただの文字集合になるんじゃないかな
39: 2015/07/04(土) 15:38:55.14 ID:is7EQ/rb.net
紙需要の減少で印刷会社は窮地だからいろいろ手を出してるなあ。
40: 2015/07/04(土) 15:41:59.76 ID:9vmpIzE6.net
崩し文字って崩し方にルールあるのか。
楷書と行書では筆順違う字もたくさんあるんでしょ。
人によっても筆順なんて揺らぐだろうし。
実際人間も文脈から判断して読んでる字もたくさんあるんじゃないのか。
楷書と行書では筆順違う字もたくさんあるんでしょ。
人によっても筆順なんて揺らぐだろうし。
実際人間も文脈から判断して読んでる字もたくさんあるんじゃないのか。
36: 2015/07/04(土) 14:35:44.84 ID:IGSh8EcN.net
俺の字は判別出来ないだろうな、俺自身読めないのだから。
Canon キヤノン レーザービームプリンター複合機 Satera MF4870DN
posted with AZlink at 2015.7.4
Not Machine Specific
キヤノン
売り上げランキング: 5022
キヤノン
売り上げランキング: 5022
コメントする