最新のAIオーディオ技術を音楽クリエーターの手に
Neutoneは、最新のAIモデルを使い、革新的な音楽表現を生み出すためのプラグインを軸として、AI開発者・リサーチャーと音楽クリエーターの距離を縮めるための新しい取り組みです。このプラグインはDigital Audio Workstation (DAW) 上で動作し、深層学習を使ったDSP(デジタル音処理)モデルをリアルタイムで駆動させることができます。これまでアーティストやクリエーターにとっては敷居の高かったAIの利用を、汎用的なプラグインを通じて、簡単に創作プロセスに導入することができます。また、AIの研究者やエンジニアは、本プラットフォームを通じて、新規に開発されたモデルを、簡単に音楽・サウンドクリエーターと共有することができるようになります。
これまでAIモデルを音楽制作に活用するには大きなギャップが存在していました。Pythonプログラミングは汎用的なコンピューターの多くで実行可能ですし、PyTorchなどの新しいライブラリーの登場により、AIプログラミングの複雑性は次第に下がってきました。それでも、このようなスキルをミュージシャンやクリエーターが持っているケースは稀で、既成のコードでも自分の環境で実行するには大きな技術的障壁があり、利用できる人はプログラミング経験のあるごく一部の方に限られていました。
またAIモデルの学習にはデータの収集やモデルの学習などに長い時間がかかります。それを解決するためにGPUを使って処理を加速することができますが、そのようなハードウェアや、それを駆動するためのマシンなどは高価であるだけでなく、セットアップするには経験値が求められます。
更に、そのようにして生成されたAIモデルも、汎用的な音楽制作ソフトウェアーで使うためのインターフェースは用意されていないため、創作に活かせる幅には制限が多く、またこれまでの技術ではそのようなモデルはリアルタイムで動かすことに対応していないケースがほとんどで、パフォーマンスなどの用途には向かないということが前提となっていました。
Neutoneプロジェクトの根幹にはVST/AudioUnit形式のプラグインがあります。Qosmoが独自に開発した本プラグインはPyTorchで開発されたオーディオ信号処理モデルを汎用的なマシン上で動作するAbleton LiveやLogicなどのDAW上でリアルタイムに動作させることができます。既に多数のAI音声変換モデルが本プラグイン向けに発表されており、プラグイン内のレポジトリーよりダウンロードできます。
執筆時点で利用可能なモデルの一部を下記に示します:
・RAVE.amen – 入力音をAmen Breakに変換
・RAVE.evoice 及び RAVE.jvoice – 入力音を声に変換
・RAVE.kora – 入力音をkora (アフリカのハープ)に変換
・DDSP.violin – 入力音をバイオリンに変換
・DDSP.sax – 入力音をサックスに変換
・DDSP.shakuhachi – 入力音を尺八に変換
・convld-overdrive.random – 深層学習を使ったオーバードライブ
・temporalconv.reverb – 深層学習を使ったリバーブ
Neutoneモデルレポジトリーページ
この仕組みにより、一般的には事前にプログラムされた機能を提供することに限られているオーディオプラグインと違い、ロードするモデルによって全く異なるアウトプットを得ることが可能になります。この仕組によって、Neutoneはあらゆる研究者・開発者が新たなAIモデルをクリエーターに使用してもらうためのプラットフォームとして機能することができます。
現在公開されているモデルの多くは入力音の音色を変換する技術を使っています。ここ数年でこれらのAI技術には大きな発展が見られ、特にRAVEやDDSPと呼ばれる技術を使うことで48kHzのサンプリングレートのハイクオリティーな音の生成を汎用的なCPUでリアルタイムで行うことができるようになりつつあります。
音色変換モデルの学習・生成プロセス
これらのモデルは数時間の学習用音源を学習し、入力音に対する再現力を評価しながら構築されます。従来のモデルとは異なり、入力音への反応の良さなどにはモデルによって得手不得手があるものの、変換時に入力される入力音の種類に依らず同じモデルを使用できる点も大きな利点です。
本プラグインのプロトタイプ開発時のデモをご覧いただくと。RAVEで学習されたドラム音声モデルに対して、声を入力している例を下記に示します。「ドコドコドコ」「ツクツク」などの声の表現に合わせて出力のドラム音も変化していることがわかります。歌声をMIDIに変換し楽器を操る技術などは以前から存在していましたが、このように声のニュアンスを捉え直接的に他の音に変換できる技術は革新的で、新らしい表現を生み出せるポテンシャルを秘めています。
Qosmoでは、RAVE技術を開発したIRCAMからのライセンス提供を受けてNeutone向けのモデルを開発しているほか、本技術を含む音色変換技術を企業向けにもライセンス提供しています。詳細はこちらから。
Neutoneプロジェクトは、研究者とクリエーターの距離を縮め、技術の創造活動への応用を後押しすることを目的としていますが、その活動はまだ始まったばかりです。様々な研究者の方が自身の開発したモデルをNeutoneプラットフォーム上で公開することを可能にするため、開発者向けSDKをGitHub上に公開しています。
開発者向けSDK:https://github.com/QosmoInc/neutone_sdk
Neutoneモデル開発者向けSDK
NeutoneはAIモデルをホストするためのプラットフォームを提供しますが、中身のAIモデルはこれから参加される研究者・エンジニア・アーティストの皆さんと作っていきたいと考えています。特にAIモデルの開発に興味のある研究者・エンジニアやテストに興味があるアーティストの方々は、NeutoneのDiscordチャネルにご参加ください。
「Neutone」Discordチャネル:https://discord.com/invite/zaUbtyxDRZ
Akira Shibata
Nao Tokui
Robin Jungers
Bogdan Teleaga
Andrew Fyfe
Christopher Mitcheltree
Naotake Masuda
RAVE algorithm was developed by Antoine Caillon and Philippe Esling, STMS Laboratory (IRCAM, CNRS, Sorbonne University, Ministry of Culture and Communication) and licensed by IRCAM