AIが「想像」するサウンドスケープを体験するWebサイト
人は一枚の風景写真から、その場にいたら聞こえてくるであろう音を想像することができます。例えば海辺の写真からはさざなみの音を、渋谷のスクランブル交差点の写真からは雑踏や信号の音などを想像するでしょう。「Imaginary Soundscape」は、このような人であれば無意識に想像するサウンドスケープをAIに想起させるプロジェクトとして2017年に開始し、これまで多くの方に体験していただきました。
今回、「Imaginary Soundscape」のアップデートを行い、マッチングアルゴリズムを改善すると共に、サウンドライブラリーを大幅に拡張しました。これにより、Street Viewやユーザーのアップロードした画像に対して以前よりも細かいニュアンスを汲み取ったマッチングを行うことができるようになりました。さらに、UIも改善し、これまでの英語表記に加え日本語表記も追加することでより多くのユーザーの方に楽しんでいただけるようになりました。
実際にこちらのリンクよりお試しいただけます。 (https://imaginarysoundscape.net/)
これまで、Imaginary SounscapeではSoundNetをベースとしたモデルを使用し、入力となる画像をモデルに入力し、出力された特徴量(画像の特徴を表す高次元のベクトル)に近い特徴量を持つサウンドファイルをライブラリから検索することで画像と音のマッチングを実現していました。このような、画像と音という異なるドメインを持つ情報同士を組み合わせる技術はマルチモーダル技術と呼ばれ、本プロジェクトを開始した当時はまだまだ発展途上の領域でした。
その後、このマルチモーダル技術は2021年にOpen AIによって発表された技術「CLIP」によって大きな発展を遂げます。CLIPは、画像とテキストの関係性を学習させることで、入力テキストから画像を検索したり、逆に入力画像からテキストを検索することができます。CLIPが発表されて以降、多くのマルチモーダル技術が発表され、発展してきました。
AIにサウンドスケープを想起させる本プロジェクトにおいても、CLIPで発表されたマルチモーダルな学習方法を採用し新たにモデルを学習させることで、より興味深い体験を引き出せるのでないかと考え、今回のアップデートに取り組みました。
今回のアップデートでは、Open AIによって開発されたCLIPで使われているContrastive Pre-Trainingと呼ばれる学習方法を取り入れています。CLIPは、webから画像とテキストのペアを大量に収集し、Contrastive Pre-Trainingを行うことによってその関係性を学習しています。このContrastive Pre-Trainingでは、画像とテキストに対してそれぞれEncoderと呼ばれる特徴量抽出器を用意し、学習データとして用意した画像とテキストデータをそれぞれこのEncoderに入力します。その後、画像とテキストはそれぞれ特徴量(高次元ベクトル)へと変換されます。実際の学習ステップでは、この特徴量を元に画像とテキストの類似度を計算し、似ている画像とテキストは類似度が高くなるように、逆に異なる画像とテキストは類似度が低くなるようにEncoderを学習させます。この学習を終えると、モデルは画像とテキストの関係性を理解することができるようになります。CLIPでは400億にも及ぶ画像とテキストのペアデータを収集し学習を行うことによって、汎用的な性能を持つモデルを構築することに成功しています。
Imaginary SoundscapeではこのCLIPの仕組みを応用し、画像とテキストではなく画像と音の関係性をAIに学習させています。大量の動画データを画像と音に分解し、そのペアを学習データとしてCLIPと同様の仕組みで学習させることで、入力とした画像に近い音を選んだり、逆に入力とした音に近い画像を選ぶことができるようになりました。
また、今回新たに様々なジャンルのサウンドファイルをライブラリに追加しました。これにより、Street Viewの画像以外にユーザーによってアップロードされる様々なジャンルの画像に対しても、よりふさわしい音を選ぶことが可能になりました。
今回のアップデートでは、最新のマルチモーダル研究をImaginary Soundscapeに取り入れることで、ユーザー体験の向上を目指しました。画像と音のマッチング精度が向上したことでより適切な音が選ばれるようになり、AIによるサウンドスケープの想起のクオリティを上げることができました。画像と音の関係性という、人間にとっても感覚的で定量化が難しかった領域をAIが扱うことができるようになってきたことで、より一層私たちの想像性も刺激され、新たな表現が生み出されることが期待されます。
本プロジェクトで開発した深層学習モデルはCLIPとも互換性を持つため、例えばテキストと音のマッチングなど、更なる表現への応用が可能であり多くのポテンシャルを秘めています。また実際に、画像と音楽のマッチングや動画と音楽のマッチングといった発展的な応用へ向けて現在取り組んでいます。今後も、こうした作品制作を通じてAIを用いた人間の創造性の拡張に取り組んで参ります。
なお、本プロジェクトを通じて培った画像と音の関連性を定量化する技術を、「Img2Sound(イメージtoサウンド)」エンジンとしてライセンス提供しています。
Akira Shibata (Qosmo, Inc.)
Nao Tokui (Qosmo, Inc.)
Robin Jungers (Qosmo, Inc.)
Bogdan Teleaga (Qosmo, Inc.)
Ryosuke Nakajima (Qosmo, Inc.)
Tomoyuki Yanagawa
こちらのプロジェクトはQosmo Music & Sound AIを使用しています。