理系にゅーす

理系に関する情報を発信! 理系とあるものの文系理系関係なく気になったものを紹介します!

音声

    このエントリーをはてなブックマークに追加 mixiチェック
1: 2019/05/12(日) 21:13:05.13 ID:CAP_USER
■自分の名前に反応する能力、人間の赤ちゃんより高い

人は、ざわざわした場所でも、なぜか自分の名前を聞き取ることができる。科学者が「カクテルパーティー効果」と呼ぶ、不思議な能力だ。

 その能力がイヌにも備わっていることが、最新の研究でわかった。しかも、人間の赤ちゃんよりずっと優れているという。

 米メリーランド大学の研究者らが実験を行い、このほど学術誌「Animal Cognition」に論文が掲載された。それによると、イヌは周囲の雑音と同程度か、それ以上の大きさで自分の名前が呼ばれれば、気付くことができるという。

 知らない声でスピーカー越しに名前を呼ばれても、やはりイヌは気付くことができた。したがって、名前を呼んだ人の身振りや、声の調子などの手掛かりに反応しているのではないようだ。

 使役犬や盲導犬、介助犬は、飼い主ではない人からの緊急の指示を、騒々しい状況で聞かなければならないことがある。そのため、こうしたイヌを訓練する人たちにとって貴重な知見だと研究チームは述べている。

 そして、イヌの飼い主にも大事な情報だ。にぎやかな場所で飼い犬の注意を引くには、名前を呼ぶのがいいということになる。

「手でサインを送る方がいいと言う人もいます。ですが、イヌは周囲の状況を知ろうと、頻繁に室内を見回しているので、サインを見逃してしまいます」。カナダ、ブリティッシュコロンビア大学の心理学名誉教授、スタンリー・コーレン氏はこう話す。氏は今回の研究には参加していない。

「ですから、この研究に従えば、『それよりも、名前を呼べば雑音の中でもイヌに届く』ということです」

■雑音の中でも聞き取れるか

 今回の研究のために、認知科学者のアムリタ・マリカルジュン氏らのチームはイヌの飼い主に呼びかけ、幅広い犬種を募集。ペットのイヌに加え、盲導犬や介助犬、セラピードッグ、捜索救助犬といった使役犬をメリーランド州各地から集めた。

 実験では、飼い主とイヌに実験ブースの中央にいてもらい、その両側にスピーカーを1台ずつ置いて、イヌがスピーカーを見るには頭を90度横に向けなればならないようにした。

次いで、イヌが聞いたことのない女性の声を再生。そのイヌの名前か、音節数と強勢パターンが同じ別のイヌの名前を繰り返し流した。声には、コーヒーショップの喧騒と同程度の背景ノイズを加え、騒音のレベルを3段階で大きくしていった。

 そして、自分の名前が流れたスピーカーの方をイヌが向くかどうか、どれだけ長く音声を聞いているかに注目した。その結果、イヌは自分の名前が流れるとより注意を向け、背景ノイズがあってもある程度は名前を聞き取れることがわかった。

 背景ノイズの大きさが2段階目までなら、イヌは自分の名前を聞き分けられたが、名前を呼ぶ声よりもノイズの方が大きいと、気付くことができなかった。

https://cdn-natgeo.nikkeibp.co.jp/atcl/news/19/050900266/ph_thumb.jpg

続きはソースで

ナショナルジオグラフィック日本版サイト
https://natgeo.nikkeibp.co.jp/atcl/news/19/050900266/
images (1)


引用元: 【動物】犬は雑音の中でも自分の名前を聞き取れる、新研究[05/11]

犬は雑音の中でも自分の名前を聞き取れる、新研究の続きを読む

    このエントリーをはてなブックマークに追加 mixiチェック
1: 2019/03/28(木) 06:11:08.39 ID:CAP_USER
■名探偵コナン』のアノ発明品が現実に

もはや国民的アニメと呼んでも良いだろう『名探偵コナン』。その中でお馴染みなのが、主人公・江戸川コナン(実は高校2年生の工藤新一が、悪の組織によって小学1年生に変えられてしまった姿)が私立探偵・毛利小五郎の体を借りて事件の真相を暴くシーンだ。

コナンは彼を睡眠薬で眠らせると、胸に付けた「蝶ネクタイ型変声機」を使って、自分の声を毛利小五郎そっくりに変換する。そして自らつきとめた事実を語って、問題を解決するのである――あたかも毛利小五郎が事件の謎を解いたかのようにして。

もちろん名探偵コナンはフィクション作品だが、多くのフィクション作品と同様に、劇中に登場するテクノロジーに現実のテクノロジーが追い付こうとしている。そう、この蝶ネクタイ型変声機さながらの「声の変換」を実現する技術が登場しているのだ。

まずはこちらのデモ映像をご覧いただこう。

(中略)

自分や誰かの声を任意に変化させることを「音声モーフィング」と呼び、いまAI技術をこの分野に応用しようという取り組みが盛んになっている。

そしてModulateがこのサービスを実現するのに活用したのが、「GAN(Generative Adversarial Networks、競争式生成ネットワーク)」と呼ばれる最新のAI技術だ。

■悪用防止の対策はあるものの…

GANについては、以前フェイクニュースに関する記事でも取り上げたことがある。簡単に説明すると、目標とするコンテンツを自動生成するAIと、そのコンテンツが本物かどうか見破るAIを用意し、その間でコンテンツ生成と真偽鑑定の「競争」を何千何万回と繰り返させることで、より自然で本物に近いコンテンツを生成できるようにするという手法である。

GANはいま、映像コンテンツ生成の分野で大きく注目されており、その威力を見せつけるものとして、同じくオバマ前大統領をサンプルとした(なぜか彼はデモの素材として人気らしい)有名なフェイク動画がある。

■動画
You Won’t Believe What Obama Says In This Video! 😉 https://youtu.be/cQ54GDm1eL0



この中で偽のオバマ氏は、「キルモンガー(映画『ブラックパンサー』に登場する悪役)は正しい」「トランプ大統領は大バカ者」など、本物がまったく言いそうにないセリフを口にしている。

そのため彼をよく知る人であれば、「何かおかしい」というフェイクの可能性を疑うことだろう。しかし彼の性格や表現のスタイルについてよく知らないという場合は、これがフェイクかどうか見破るのは至難の業に違いない。

そうした高品質のフェイク映像をつくり出せるAI技術を活用しているのが、Modulateのサービスというわけだ。となれば悪用が心配されるところだが、当然ながら同社もそのような使い道は推奨しておらず、たとえばオンラインゲームなどで使用するアバターに好きな声を喋らせるといった活用法を想定しているそうである。

最近は他のユーザーとマイクを通じてコミュニケーションできるオンラインゲームも増えているが、いくらアバターを可愛らしい女性にしても、野太い声では自分が中年男性だとばれてしまう(もちろんその逆のパターンもあるだろう)。そこでアバターを自分好みに着飾るのと同様に、声も好きなようにカスタマイズできれば、というわけだ。

■動画
Modulate: Unlock Your Voice https://youtu.be/lJBJOnryOLU



https://amd.c.yimg.jp/amd/20190326-00063693-gendaibiz-000-1-view.jpg
 
■オレオレ詐欺がさらに横行? 

人間がいかに音声によるコミュニケーションに騙されやすいか、振り込め詐欺、つまり「オレオレ詐欺」の被害が一向に無くならない日本に住む私たちには、痛いほどわかっているだろう。そんな状況でModulateのような音声モーフィングサービスが普及すれば、さらに詐欺行為が横行してしまう不安はないのだろうか。

実際に、気になる研究結果が出ている。アラバマ大学バーミンガム校コンピューターサイエンス学部の研究によると、人間の脳は、よく似た人間の音声の聞き比べができない可能性があるそうだ。

この研究を指揮した、主任研究者のNitesh Saxena博士は、同校のニュースリリースにおいて「人間は音声モーフィングを使用した攻撃に対し、根本的に脆弱な存在である可能性がある」と指摘している。

この研究では、オリジナルの声と変換によってつくられた声を被験者に聞かせ、その際に脳がどのような反応を示すかを、機能的近赤外分光法(fNIRS)という手法を使って観測した。

すると違う人の音声を聞かせた際には、脳の動きに違いが見られたものの、オリジナルの音声と、変換によってそれに似せた音声を聞かせた際には、脳内で同じ処理が行われていたそうである。つまりあくまで音声だけをインプットとした場合、人間の脳はオリジナルの声と、変換によってつくられた声に対して、脳のレベルで聞き分けができていないわけだ。

続きはソースで

https://amd.c.yimg.jp/amd/20190326-00063693-gendaibiz-000-1-view.jpg

https://gendai.ismedia.jp/articles/-/63693
images


引用元: 【AI】まるで『名探偵コナン』…遂に誕生した万能「変声機」の凄さと怖さ[03/26]

まるで『名探偵コナン』…遂に誕生した万能「変声機」の凄さと怖さの続きを読む

    このエントリーをはてなブックマークに追加 mixiチェック
1: 2019/03/01(金) 14:15:20.52 ID:CAP_USER
鳥やイルカなど、音声のやり取りを行う動物は多く存在しますが、人間のように即時的で複雑な会話を行う動物は限られています。そんな中、人間にように複雑な会話を行う「歌うマウス」を研究することで、人間の脳が会話をどのように処理しているのかというメカニズムが明かされる可能性が出てきています。
https://i.gzn.jp/img/2019/03/01/songs-of-singing-mice/00.jpg

Motor cortical control of vocal interaction in neotropical singing mice | Science
http://science.sciencemag.org/content/363/6430/983

This singing mouse’s brain could reveal keys to snappy conversation | Science | AAAS
https://www.sciencemag.org/news/2019/02/singing-mouse-s-brain-could-reveal-keys-snappy-conversation

The Songs of Singing Mice May Help Unlock How the Brain Processes Conversation | Technology Networks
https://www.technologynetworks.com/neuroscience/news/the-songs-of-singing-mice-may-help-unlock-how-the-brain-processes-conversation-316156

人間の脳は、他の人のスピーチに含まれる情報をエンコードし、それに対し即座に応答します。マーモセットというサルは、話者を順番に交代するスタイルの人間のようなコミュニケーションを取りますが、やり取りは人間よりもゆっくりとした速度です。

しかし、「Alston’s singing mouse」と呼ばれるマウスは速いスピードで複雑な会話が行えるとして、ニューヨーク大学メディカルセンターの研究者がその脳の働きを調査しました。Alston’s singing mouseのオスは敵を攻撃する時やメスのマウスを魅了する時に歌を歌いますが、この行動は他のマウスと大きく異なると論文の筆頭著者であるMichael Long准教授は語っています。一般的なラボのマウスは短く、無秩序な、超音波の音声を発しますが、Alston’s singing mouseは相手が発話者を特定できるような構造的なシグナルを発することができ、その音声はおよそ100の音色から生み出される比較的長いものとなっています。

Alston’s singing mouseの音声がどんなものなのかは、以下のムービーから確認できます。

Male Alston's singing mouse (S. teguina) singing to female in estrus - YouTube
https://youtu.be/Cwjjxj6ambY


続きはソースで

https://i.gzn.jp/img/2019/03/01/songs-of-singing-mice/02.jpg
https://i.gzn.jp/img/2019/03/01/songs-of-singing-mice/02.jpg

https://gigazine.net/news/20190301-songs-of-singing-mice/
ダウンロード


引用元: 【動物】「歌って会話するネズミ」が人の脳のメカニズム解明のカギとなる[03/01]

「歌って会話するネズミ」が人の脳のメカニズム解明のカギとなるの続きを読む

    このエントリーをはてなブックマークに追加 mixiチェック
1: 2019/01/30(水) 20:09:45.43 ID:CAP_USER
コロンビア大学でニューロエンジニアリングについて研究するニマ・メスガラニ准教授が、脳の信号を「耳で聞いて理解可能な会話音声」に変換するシステムを作成しました。このシステムを用いれば口に出さなくても脳の信号を読み取るだけで、何を考え話そうとしているかが理解できるようになります。

Towards reconstructing intelligible speech from the human auditory cortex | Scientific Reports
https://www.nature.com/articles/s41598-018-37359-z

Columbia Engineers Translate Brain Signals Directly into Speech | Zuckerman Institute
https://zuckermaninstitute.columbia.edu/columbia-engineers-translate-brain-signals-directly-speech

メスガラニ准教授がコンピューターを用いて脳波を直接理解可能な会話音声に変換するシステムを開発しました。このシステムは、これまでに前例のないレベルで脳波から人の話し言葉を生成することが可能です。システムは音声合成器と人工知能を活用したものとなっており、コンピューターが脳と直接通信するための新しい方法につながる技術として期待が集まっています。

メスガラニ准教授のシステムは、筋萎縮性側索硬化症(ALS)患者や脳卒中から回復した人など、脳は機能しているものの上手く話すことができない人が外界とのコミュニケーション能力を取り戻すための大きな助けとなる可能性があります。なお、メスガラニ准教授の研究結果は科学誌のScientific Reportsで公開されています。

脳波を直接理解可能な会話音声に変換するための研究でリーダーを務めたメスガラニ准教授は、「我々の声は、周囲の友人や家族および世界中の人々とつながるための役に立つものです。よって、怪我や病気で自分の声が出せなくなってしまうということは、とても悲しいことです。しかし今回の研究により、我々はその力(声を出すということ)を取り戻すための方法を見つけたということになります。正しい技術を使えば、1度声が出せなくなってしまった人であっても、再び聞き手に理解してもらうことが可能な会話が行えるようになるということを示すことができました」と、研究の意義について語っています。

過去数十年にわたる研究から、人間が言葉を発する際、もしくは何か話すことをイメージする時でさえ、人間の脳には明らかな活動パターンが現れることが明らかになっています。また、反対に誰かの話を聞く時、もしくは聞くことを想像する時にも、脳でははっきりと認識可能な信号パターンが現れます。これらのパターンを記録し、その内容を解読するという研究はこれまでにも行われてきました。

メスガラニ准教授も同じように脳の信号から話そうとしていた内容を解読するという研究を行ってきた人物で、同分野における初期の研究では脳の一次聴覚野から記録した信号を分析して会話内容を再構成しようとするコンピューターモデルの作成を行っています。しかし、このアプローチでは理解しやすい会話音声を生成することが困難であったため、メスガラニ准教授ら研究チームは別の手法に挑戦することとなります。

以下の画像をクリックすると、メスガラニ准教授らが開発したシステムによる、「脳の活動パターンを分析して生成した音声」が再生できます。少し聞き取りづらいものの、英語で0から9までの数字を読み上げていることがわかります。
https://zuckermaninstitute.columbia.edu/sites/default/files/m5_dnn_vocoder.mp3

続きはソースで

https://gigazine.net/news/20190130-translate-brain-signals-speech/
ダウンロード


引用元: 脳の信号を読み取り「耳で聞いて理解可能な会話音声」に変換するシステムが誕生[01/30]

脳の信号を読み取り「耳で聞いて理解可能な会話音声」に変換するシステムが誕生の続きを読む

    このエントリーをはてなブックマークに追加 mixiチェック
1: 2019/01/29(火) 18:33:54.34 ID:CAP_USER
音声をレーザーでこっそり送信、MITの研究チームが開発
数メートル離れたところから特定の個人に的を絞り、周囲の人には聞こえないような方法で静かにメッセージを送信する。マサチューセッツ工科大学(MIT)の研究チームが、そんなレーザーの利用方法を開発した。

この手法ではまず、光を吸収した空気中の水蒸気が音波を形成する「光音響効果」を利用する。研究チームは、レーザー光線を利用して、60デシベル(およそBGMやレストランでの会話レベルの音量)の音を2.5メートル離れたところに立っている人に的を絞って送信した。

研究チームは次に、レーザー光線の出力を変調してメッセージを符号化した。これによって、より静かで明確にメッセージを伝えることができた。研究チームはこの手法を使って、音楽や録音されたスピーチなどをすべて会話時の音量(60デシベル)で発信した。

続きはソースで

https://www.technologyreview.jp/nl/lasers-can-send-a-whispered-audio-message-directly-to-one-persons-ear/
ダウンロード (4)


引用元: 【通信技術】音声をレーザーでこっそり送信、MITの研究チームが開発[01/29]

音声をレーザーでこっそり送信、MITの研究チームが開発の続きを読む

    このエントリーをはてなブックマークに追加 mixiチェック
1: 2019/02/15(金) 06:41:34.54 ID:CAP_USER
【2月10日 AFP】
もし、ある政治家が普段は絶対しそうにない発言をしたり、ハリウッドのスター女優が、あり得ないB級アダルトビデオに出演したりする映像を目にしたら、あなたは映像機器の問題を疑うかもしれない──。しかし、未来の「フェイクニュース」は、実はそのようなものになるのではとの考えがある。

 近年の人工知能(AI)の進化で、実際の映像を巧みに加工する「ディープフェイク」動画のクオリティーは、より精巧になっている。そして、その影響から、新たな種類のデマや虚報が破滅的な結果をもたらす危険性も同様に高まりつつあるのだ。

「しっかりとした筋書きのディープフェイクをタイミング良く広めることができれば、選挙結果を覆したり、暴動寸前の都市で混乱生じさせたりすることが可能になる。また、敵対する相手の残虐行為を主張する反政府派の声を強化したり、社会の政治的分断を悪化させたりすることもできるだろう」

 米シンクタンク「外交問題評議会(Council on Foreign Relations)」のブログでそう警告するのは、米テキサス大学(University of Texas)のロバート・チェスニー(Robert Chesney)教授と、メリーランド大学(University of Maryland)のダニエレ・シトロン(Danielle Citron)教授だ。

 だが、AIと安全保障問題を専門とするシンクタンク、新米国安全保障センター(CNAS)の上級研究員、ポール・シャーラー(Paul Scharre)氏は、これからの選挙では対立候補を陥れたり、実際の映像をうそであると人々に思いこませたりするために、ディープフェイク動画が活用されることはほぼ防げないと指摘する。

 見た目に信用できそうなフェイク動画が拡散すれば、「人々は自分が信じたい方、自分が求めている主張に合った方を選ぶことになる。これはひどく気がかりだ」とシャーラーは話す。

■チャップリンの復活は喜ばしいが…

 動画の加工は数十年前から行われており、無害な遊びや、時にはエンターテインメントにもなる。映画業界では「チャーリー・チャップリン(Charlie Chaplin)のように死去した有名俳優をスクリーンに復活させることもできると期待が寄せられている」と、米カーネギーメロン大学(Carnegie Mellon University)の研究者、アーユシュ・バンサル(Aayush Bansal)氏は言う。

 だが、「誰であろうと、なんでも言わせることができる。これほど恐ろしいことはない」と指摘するのは、ディープフェイクの検出を専門に研究するニューヨーク州立大学オールバニ校(University at Albany, State University of New York)コンピューターサイエンス学教授のシーウェイ・リュウ(Siwei Lyu)氏だ。

「そのようなことが可能になれば、真実とうその見分けがつかなくなってしまう。情報が本物かどうか信頼できないという状態は、情報が全くないのと同じくらいひどい状態だ」

 米下院のアダム・シフ(Adam Schiff)氏と他2人の議員は最近、米政府のディープフェイク対策について調べるため、ダン・コーツ(Dan Coats)国家情報長官に質問状を送付した。

続きはソースで

http://afpbb.ismcdn.jp/mwimgs/3/2/1000x/img_3252769c6c4fbdb1d2113013023c3c6e121861.jpg
http://www.afpbb.com/articles/-/3210420
ダウンロード (3)


引用元: 【AI】ディープフェイク動画の衝撃、AIで作られる「高品質なデマ」[02/10]

ディープフェイク動画の衝撃、AIで作られる「高品質なデマ」の続きを読む

このページのトップヘ