- 週間ランキング
例えば、病欠した部下に電話をかけると、後ろから聞こえてくる人混みの音や楽しいメロディから、彼が仮病で遊園地に来ていることを察してしまう、なんてことがあるかもしれません。
上司の頭の中には、部下が訪れている場所の風景が瞬時に思い描かれることでしょう。
刑事ドラマでも、犯人の電話から汽笛が聞こえて港の倉庫にいると特定されるなんて場面が描かれることもあります。
こうした音からその周辺の環境を推測する能力を科学技術によって補強できれば、現実の犯罪捜査などの場面でも活躍できるかもしれません。
今回、ユハオ・カン氏ら研究チームは、AIを使ってこれを実現しようとしました。
なんと彼らは、環境音からかなり正確にその風景を予測するAIを開発したのです。
人間の脳波を元に、人間が思い浮かべている風景を画像生成するAIなども既に存在していますが、この新しく開発されたAIは、周囲の環境音を元にその音が録音された風景を予測し、画像生成することができるのです。
「環境音から元の風景を予測するAI」を生み出すため、研究チームは最初、北米、アジア、ヨーロッパの都市のYouTube動画とその環境音を収集しました。
そして風景の静止画像とそれに対応する10秒間の環境音クリップを作成しました。
次に、これら様々な場所の「画像と環境音クリップのペア」を用いてAIをトレーニングし、環境音だけで、オリジナルの風景を正確に予測できるようにしました。
そして、このAIの性能をテストするため、録音された100個の環境音から、その風景を予測するようAIに指示し、オリジナル画像と比較しました。
その結果、AIが生成した画像とオリジナルの風景では、空、緑、建物の割合が相関関係にあると分かりました。
実際、2つの画像を比較すると、近くに存在する建物だけでなく遠くのビル、自動車の交通量、川や海の存在、通路などの要素がかなり似ていました。
さらに生成された画像は、晴れ/曇り、昼/夜などの照明条件も反映しており、これはAIが、夜間における交通量の減少や夜行性の昆虫の鳴声などを参考にした可能性を示しています。
今回の実験では、AIがかなり正確に元の風景を予測できると分かりました。
これを利用するなら、「犯人の電話音声から居場所を特定する」なんてことも簡単に行えるようになるかもしれません。
最後の実験では、人間の審査団がオリジナルの環境音を聞き、「それを元にAIが生成した画像」と「無関係の風景を撮影した画像2枚」の中から、環境音と対応している画像を選ぶよう指示されました。
その結果、審査団は、80%の確率でAIが生成した画像を選択しました。
この結果は、環境音を聞いた時の人間の予測とAIの予測が似ていることを示しています。
研究チームも、「音から情景を思い描く能力は人間特有のものですが、この実験結果は、AIが人間の感覚能力に近づく可能性を示している」と述べています。
このAIは、単に事件の捜査などに使用できるだけではありません。
AIの予測能力は、私たち人間が持つ「環境音から風景を予測する能力」に近く、AIの研究を続けることで、人間特有の能力を理解するのに役立つ可能性があるのです。
今後研究チームは、人間特有の能力をもっと深く理解したり、AIでより正確に再現したりしたいと考えています。
しかし、懸念点もあります。
この壮大な目的が果たされる前に、悪用される恐れがあります。
ネット上には限られた情報だけで住所を特定してしまう恐ろしい人々(いわゆる「特定班」)が潜んでいます。
例えば過去には、あるYouTuberの動画に鳥の鳴声が含まれており、特定の地域にしか生息しない鳥だったことから、住所特定に繋がったケースがありました。
もし、そうした特定班がこのAIを悪用したら、住所特定は一層簡単になることでしょう。
将来、「SNSにアップされた動画のちょっとした環境音から住所を特定する」なんてことも可能になるかもしれないのです。
参考文献
Researchers Use AI To Turn Sound Recordings Into Accurate Street Images
https://news.utexas.edu/2024/11/27/researchers-use-ai-to-turn-sound-recordings-into-accurate-street-images/
AI generates accurate images of streets by listening to their soundtrack
https://newatlas.com/ai-humanoids/ai-street-images-sound/
元論文
From hearing to seeing: Linking auditory and visual place perceptions with soundscape-to-image generative artificial intelligence
https://doi.org/10.1016/j.compenvurbsys.2024.102122
ライター
大倉康弘: 得意なジャンルはテクノロジー系。機械構造・生物構造・社会構造など構造を把握するのが好き。科学的で不思議なおもちゃにも目がない。趣味は読書で、読み始めたら朝になってるタイプ。
編集者
ナゾロジー 編集部