理系にゅーす

理系に関する情報を発信! 理系とあるものの文系理系関係なく気になったものを紹介します!

テキスト

    このエントリーをはてなブックマークに追加 mixiチェック
1: 2019/06/09(日) 08:37:14.21 ID:CAP_USER
10ドル足らずの費用でAIに国連総会の偽スピーチを書かせることができる
https://jp.techcrunch.com/2019/06/08/2019-06-07-for-less-than-10-anyone-can-make-an-ai-write-a-fake-un-speech/
2019年6月08日
TechCrunch

画像:偽の国連スピーチを作り出すために使ったAI実験の結果
https://techcrunch.com/wp-content/uploads/2019/06/Screen-Shot-2019-06-07-at-8.04.00-AM.png

 国連の研究員たちが、わずか8ドル足らずの費用とMLモデルの13時間の訓練により、国連総会のスピーチのそっくりさんを作るプログラムを開発した。

 MITのTechnology Reviewに載ったその研究は、これもまた、今がディープフェイク(deepfake)の時代であることを示唆する例の一つであり、テキストの贋作がビデオの贋作に劣らぬ脅威でありうることを示している。
 簡単安価に作れるから、ビデオよりも始末に負えないかもしれない。

 研究員のJoseph BullockとMiguel Luengo-Orozは、1970年から2015年までの間に国連総会で行われた政治家たちのスピーチの、英語による書き起こしを使って、
 機械学習のアルゴリズムのためのタクソノミー(分類集)を作った。

 その目標は、気候変動やテロなどさまざまな話題に関するスピーチの形をしたテキストを生成できる、言語モデルを訓練することだった。

 彼らのソフトウェアは、タイトルとなる話題のあるセンテンスを一つか二つ与えるだけで、一つの話題につき50から100ワードのテキストを生成できた。

 目標は、一般的な話題でも、あるいは国連事務総長が行った特定の声明でも、それらをもとに本物そっくりのスピーチを作れることを示すこと。
 そして最終的には、そのソフトウェアが政治的に微妙な話題に関してはスピーチに脱線(主題からの逸脱)を含めることができるか、確認することだった。

 やや安心できるのは、一般的で抽象的な主題ほど、アルゴリズムは良い仕事をしたことだ。

続きはソースで

ダウンロード (2)

引用元: 【AI】10ドル足らずの費用でAIに国連総会のスピーチ(のそっくりさん)を書かせることができる[06/08]

10ドル足らずの費用でAIに国連総会のスピーチ(のそっくりさん)を書かせることができるの続きを読む

    このエントリーをはてなブックマークに追加 mixiチェック
1: 2018/01/05(金) 11:54:02.65 ID:CAP_USER
新たなメルセンヌ素数を探している「グレート・インターネット・メルセンヌ数検索(GIMPS)」が、既知の素数として最大のものとなる50番目のメルセンヌ素数を見つけました。新たな素数は「2 77,232,917-1」で、「M77232917」と呼ばれています。

50th Known Mersenne Prime Discovered
https://www.mersenne.org/primes/press/M77232917.html

関連画像
https://i.gzn.jp/img/2018/01/05/largest-known-prime-number/01.png


メルセンヌ素数とは、「2のべき乗より1小さい自然数」であるメルセンヌ数の中でも素数のものを指します。

GIMPSによると50番目のメルセンヌ素数「M77232917」は2324万9425桁の数字で、これまで最長だった49番目のメルセンヌ素数「M74207281」の2233万8618桁と比べて、約100万桁大きくなっています。

以下のZIPファイルには、「M77232917」の書かれたテキストファイルが入っています。
ZIPファイルのサイズは11MBほどですが、テキストファイルは22.6MBあります。

http://www.mersenne.org/primes/digits/M77232917.zip
関連画像
https://i.gzn.jp/img/2018/01/05/largest-known-prime-number/02.png

続きはソースで

GIGAZINE
https://gigazine.net/news/20180105-largest-known-prime-number/
ダウンロード (1)


引用元: 【数学】〈テキストファイルで22.6MB〉「史上最大の素数」約2年ぶりに更新、50番目のメルセンヌ素数で桁数は2324万9425桁

【数学】〈テキストファイルで22.6MB〉「史上最大の素数」約2年ぶりに更新、50番目のメルセンヌ素数で桁数は2324万9425桁の続きを読む

    このエントリーをはてなブックマークに追加 mixiチェック
1: 2017/07/29(土) 09:17:22.95 ID:CAP_USER9
東北電力と弘前大学(青森県)は7月28日、人工知能(AI)技術を使い、津軽弁の音声を標準語のテキストに変換し、要約する研究を8月に始めると発表した。東北電力が持つ音声データ、弘前大学の言語分野に関する知見を組み合わせ、認識精度を検証。医療現場などで事業化を検討するという。

 音声認識・言語処理技術を使い、東北電力コールセンターの通話音声データをテキスト化・自動要約し、実用的な文章として理解できるかを検証する。

続きはソースで

http://www.itmedia.co.jp/news/spv/1707/28/news118.html
http://image.itmedia.co.jp/news/articles/1707/28/kf_tsugaru_01.jpg
ダウンロード (1)


引用元: 【とうほぐ】津軽弁をAIで標準語に 東北電力と弘前大が研究スタート……医療や行政現場で活用へ [無断転載禁止]©2ch.net

津軽弁をAIで標準語に 東北電力と弘前大が研究スタート……医療や行政現場で活用への続きを読む

    このエントリーをはてなブックマークに追加 mixiチェック
1: 2015/07/04(土) 10:24:05.34 ID:???.net
凸版印刷|凸版印刷、江戸期以前のくずし字を 高精度でテキストデータ化する新方式OCR技術を開発
http://www.toppan.co.jp/news/2015/07/newsrelease150703_2.html

画像
http://www.toppan.co.jp/var/rev0/0000/2966/11573165137.png
「源氏物語」(絵入本,国文研所蔵)のOCRによるテキストデータ化
http://www.toppan.co.jp/var/rev0/0000/2965/11573165214.png
古典籍のテキストデータ化処理の流れ


凸版印刷株式会社(本社:東京都千代田区、代表取締役社長:金子眞吾、以下 凸版印刷)は、江戸期以前のくずし字で記されている古典籍(内容・形態の優れた古い書物のこと)の文字を判別し、テキストデータ化するOCR(光学文字認識)技術を開発しました。凸版印刷は、本技術による古典籍のテキストデータ化サービスを2015年夏より試験的に開始予定です。

 本技術は、江戸期以前の書物に使われているくずし字を自動で判読し、テキストデータ化することを可能にするものです。凸版印刷は、2013年からさまざまな書籍を高い精度でテキストデータ化する「高精度全文テキスト化サービス」を提供しています。このサービスで確立したテキストデータ化技術のシステム基盤をベースに、公立学校法人公立はこだて未来大学(所在地:北海道函館市、学長:中島秀之)の寺沢憲吾准教授が開発した「文書画像検索システム」と組み合わせることで、くずし字で記されている古典籍のOCR処理を実現しました。

本技術開発に際して、2014年度に実施した原理検証実験では、くずし字で記されている書物を80%以上の精度でOCR処理することに成功し、効率のよいテキストデータ化が可能であることを実証しました。原理検証実験を行う上で、凸版印刷は、大学共同利用機関法人人間文化研究機構国文学研究資料館(所在地:東京都立川市、館長:今西祐一郎、以下 国文研)の古典籍共同研究事業センターとともに課題整理と検討を重ね、本技術の検証で使用する古典籍の選定に関する助言、および所蔵する古典籍の画像とテキスト情報の提供を受けています。

■ 開発の背景

 近年、大規模災害による資料アーカイブの必要性の見直しや、専門家の減少と資料の経年劣化による文化継承の危機的状況から、歴史的資料のデジタル化やテキストデータ化が求められています。しかし、総数100万点以上ともいわれる江戸期以前のくずし字で記されている古典籍は、専門家による判読が必要とされ、テキストデータ化が遅れていました。

■ 本技術の特長

・ テキストデータ化済みの文献を、OCR処理に用いるくずし字データベースとして使用することで、テキストデータ化されていない文献を80%以上の精度でテキストデータ化することが可能

・ 専門家による判読に頼っていたテキストデータ化と比べ、大幅なコスト削減と大量処理が可能

・ テキストデータを、PDFなどさまざまなデータ形式へ変換し、利活用することが可能

■ 今後の目標

 凸版印刷は、本技術による、くずし字で記された古典籍のテキストデータ化サービスを2015年夏より試験的に開始する予定です。今後、幅広い年代やジャンルの資料に対するOCR処理の精度向上を図ります。さらに本技術を発展させ、現代語への翻訳、多言語翻訳、システム公開などを通して、異分野との研究融合や教育への普及、日本文化の諸外国へむけた情報発信の進展といった新しい文化の創出に貢献していきます。

続きはソースで

images
 

引用元: 【技術】江戸期以前のくずし字を高精度でテキストデータ化する新方式OCR技術を開発 凸版印刷

【すごい!】江戸期以前のくずし字を高精度でテキストデータ化する新方式OCR技術を開発 凸版印刷の続きを読む

    このエントリーをはてなブックマークに追加 mixiチェック
1: 2015/06/28(日) 12:31:41.21 ID:???.net
「脳波からのテキスト再現」に成功
引用元:WIRED 2015.6.23 TUE
http://wired.jp/2015/06/23/brain-to-text-tech/

簡単な文章を音読しているときの脳波を分析することで、元のテキストを再現する実験が成功した。
研究が進めば、話すことができない人が、システムを使って会話をすることが可能になるかもしれない。

インフォマティクス、神経科学、医療の研究者からなるチームが、音読するときの脳波を分析し、元のテキストを再現することに初めて成功した。
こうした技術が進展すれば、話すことができない人が、システムを使って「話す」ことができるようになるかもしれない。

ニューヨーク州にあるオールバニ・メディカルセンターとドイツのKIT研究所が協力して行ったこの研究では、皮質脳波記録(ECOG)技術を使って、ボランティアのてんかん患者7人の前頭葉と側頭葉をモニターし、発話に関係する脳波を特定することに成功した。
この研究では、針によってニューロンから直接信号を記録する、頭骨の切開が必要な手技も用いられている。

続きはソースで

ダウンロード


▽関連リンク
Karlsruher Institut fur Technologie(独語)
Spracherkennung aus Gehirnstromen(Speech Recognition from Brain Activity)
Interdisziplinarem Forscherteam gelingt es erstmals aus Aktivitatsmustern auf der Gehirnoberflache gesprochene Satze zu rekonstruieren.
http://www.kit.edu/kit/english/16890.php



引用元: 【神経科学】脳波を分析することで元のテキストを再現する実験に成功/米独研究

脳波を分析することで元のテキストを再現する実験に成功/米独研究の続きを読む

    このエントリーをはてなブックマークに追加 mixiチェック
1: こたつねこ◆AtPO2jsfUI 2014/03/13(木)10:23:16 ID:SdtfBUDEg

コピペも見抜ける? STAP細胞問題で活躍、テキスト比較ツール「デュフフ」とは

新型万能細胞「STAP細胞」論文に不自然な点が相次いで指摘されている問題に関連し、テキストの差分を比較できる日本語対応ツール「difff」(デュフフ、正式表記は半角カナ)が脚光を浴びている。フォームに2種類のテキストを入力するだけで、両テキストの異なる部分に色を付けて分かりやすく表示。“コピペ”を見抜くのにも役立つ。

STAP細胞問題では、理化学研究所の小保方晴子氏の博士論文が米国立衛生研究所のWebサイトに掲載されている文章と酷似しているとの指摘があり、2つの文書を「difff」を使って比較したURLがTwitterなどで出回った。

difffは、2つのテキストの差分を検出して表示するサイトで、内部ではUNIXのdiffコマンドを利用しているとのこと。開発した@meso_cacaseさんは生物学の研究者。大学院生だった2004年、論文執筆時に共著者による修正がすぐ分かるツールとして、生物学の研究とは無関係に自分のために開発したという。

↓全文を読む場合は以下をクリック↓
http://www.itmedia.co.jp/news/articles/1403/12/news121.html

ITmedia ニュース 岡田有花 2014年03月12日 19時01分

≡゚ω゚) ITMediaは画像にリンクできないから画像は省略したよ~。



【STAP細胞】STAP細胞問題で活躍、テキスト比較ツール「デュフフ」とは?の続きを読む

このページのトップヘ