Emergent Rhythm — リアルタイムAI音楽生成ライブセット (AI DJ Project #3)

リアルタイムAI音響合成とAI画像生成を用いたライブ・パフォーマンス

『Emergent Rhythm』は、リアルタイムAI音楽生成モデルを用いたオーディオ・ビジュアルDJパフォーマンスである。アーティスト/DJの徳井は、複数のAIモデルをステージ上で操り、その場でリズムやメロディーを生成。生成されたオーディオ・ループを組み合わせることで音楽的展開を構成する。

本作品は、AIを用いた音楽制作、DJパフォーマンスの未来を探る一連の試み、AI DJ Projectの第三弾として制作された。AIと一曲づつ交互に選曲するBack-to-back DJパフォーマンスとしてスタートした本プロジェクトは、MIDIベースの音楽生成モデルをリアルタイムに用いた第二弾を経て、音響合成を用いた本作品へと進化した。本パフォーマンスで演奏中に聞こえてくるのは、すべて純粋なAI生成音となる（一般的な意味でのシンセサイザーもドラムマシンも存在しない）。

音響合成には、Generative Adversarial Networks(GANs)を利用。スペクトログラムを生成するモデルとスペクトログラムを音声ファイルに変換するボコーダーの二つのモデルを利用し、リアルタイム以上のスピードでの生成を実現した。
Emergent Rhythmというタイトルが示唆するように、本パフォーマンスの焦点は複数のAIモデル間の、そしてアーティストとのインタラクションから創発する音楽的、視覚的な「リズム」、周期的なパターンにある。ビジュアルに関しては、過去から未来へといった時間的な周期性だけでなく、宇宙から細胞、原子構造といった極大から極小までの複数のスケールを跨いて共通するパターンの周期性に着目。Stable Diffusionモデルを用いて100万枚以上の画像を生成して利用した。
ビジュアルのテーマに沿って、音楽の他にさまざまな自然物・人工物の環境音などからループを抽出して音響合成用の学習データとして利用している。また、Tokuiが開発をリードし、他のアーティストのために公開しているAIオーディオプラグイン、Neutoneを用いて複雑な音響効果を生み出すことにも成功した。

既存の曲を選曲するDJセッションから、その場で曲を生成し、観客の反応に合わせて展開を生み出すライブパフォーマンスへ。今回の公演『Emergent Rhythm』では、人間のDJは、Disk JockeyではなくAJ、つまり「AI Jockey」となり、AIが生成するオーディオストリームをリアルタイムで手なずけ、乗りこなすことが期待される。AIが生み出す独特のサウンドと音楽生成が可能にする新しい自由度を手にしたAI Jockeyが、観客にユニークで別世界のような音体験を提供する。

Performance
2022.12.8 MUTEK.JP (Shibuya Stream Hall)

Articles
– note – Making of “Emergent Rhythm” — リアルタイムAI音響合成を用いたライブ・パフォーマンスの裏側
 – note – 画像生成AIを活用したオーディオビジュアル表現 – MUTEK.JPでの開発事例

Credits
Concept, Machine Learning & Performance: Nao Tokui (Qosmo)
Visual Programming: Ryosuke Nakajima (Qosmo)
Visual Programming: Keito Takaishi (Qosmo)
Dancer: Masumi Endo
Movement Director: Maiko Kuno