AIを用いたグラフィックデザインの実験
2019年3月15日~29日に東京ミッドタウン・デザインハブにて、開催された第78回企画展「AIと共創するグラフィックデザイン」。2017年よりQosmoは、近未来におけるグラフィックデザインの発展と可能性を探ることを目的に、公益社団法人日本グラフィックデザイナー協会(JAGDA)と共同で機械学習を用いた実験を行ってきました。

その成果の一部を発表したこの展覧会では、ある決められたルールでAIがイメージをつくっていく過程を記録したポスターやAIが生成するアルファベット書体、楽譜の学習による作曲を展示。またJAGDA年鑑に掲載された作品をAIが様々な特徴によって分類を行ったビジュアル作品も発表されました。
《バウハウスの積み木》は、バウハウスで学んだドイツ人デザイナーアルマ・シードホフ・ブッシャーがデザインしたバウハウスの積み木を3Dモデル化し、AIが学習を進めながら、3次元の仮想空間にオブジェクトを生成していく様子をアニメーションポスターに落とし込んだ作品です。このプロセスの中での創作性は、無数の組み合わせの可能性を評価する、組み合わせの空間を探索する課程にあります。創造性とは何かという疑問に新しい角度から光をあてています。





《バウハウスの積み木》は、アルゼンチンの作家ボルヘスの短編『バベルの図書館』から着想を得ています。物語の舞台は、アルファベットのあらゆる組み合わせを網羅した、組み合わせ的にありうる本がすべて収蔵されているという、架空の図書館。主人公の司書は、この宇宙にある原子の数をはるかに超える数の本が収蔵されているこの広大な図書館の中で、意味のある本を探すことに一生をかけています。
文章、音楽、そしてグラフィックを生成するAIは、ありえる文字、音符、デザイン要素の組み合わせの中で、美しいもの・面白いものを探すという点において、この司書のような存在といえるかもしれません。
では、AIはどのように「美しい」「面白い」を判断するのでしょうか。囲碁や将棋のようにルールが明確な世界とは異なり、抽象的な作品の「良さ」を定量的に評価することは非常に難しいです。現在のAIの考え方では、過去の作品のパターンとの直接/間接的な類似の度合いにより、作品の善し悪しを評価するのが一般的です。そのプロセスにおいて、シェークスピアらしい文章、バッハらしいメロディーは作れるかもしれません。しかしそのプロセスから、新しい表現を生み出すことは可能といえるでしょうか。

この作品では、作品の善し悪しとは異なる評価かつAIにとって定量的に評価することが簡単な評価軸にしたがい、組み合わせの空間のなかで「良い」ものを探すことを試みています。具体的には、一般的な画像認識の学習済みモデルを用い、積み木を組み合わせて作った画像がどのくらい○○(飛行機、傘、うさぎなどの事物)らしく見えるかという評価が利用されています。システムの中で、積み木の選択とその配置は一定の長さの数列で表現されます。配置を表現した「遺伝子」のようなものと考えてみてください。ランダムに複数の遺伝子を生成し、その中で少しでもより○○のように見えると評価された遺伝子同士を掛け合わせ、次の世代の遺伝子(=新しい積み木の配置)を作られていきます。この「世代交代」を重ねることで、徐々により○○らしくなっていくことが期待されるのです。これは進化の仕組みを模倣した最適化手法の一つで、遺伝的アルゴリズムと呼ばれます。こうして生成されたグラフィックは、AIによる「見立て」の結果とも言えるでしょう。人の目で理解できる見立てもあれば、到底そうは見えない場合もあります。積み木の見た目の特性からか、AIは飛行機のような無機物を見立てることは比較的得意だったようです。こうした予想を超えるAIの見立ては、人間の想像力を刺激する材料を与えてくれます。
主人公の魔法によって、古い羊皮紙の上に音符が次から次へと浮き上がってくる。この作品は、そんなファンタジー映画のワンシーンから着想を得ています。Generative Adversarial Network(GAN)の手法を使い、楽譜を生成することを試みました。
GANでは、学習データを真似してデータを生成するネットワーク(Generator)と、入力されたデータが学習データに含まれる「本物」なのか、それともGeneratorが生成した「偽物」なのかを見分けようとするネットワーク(Discriminator)の二つのニューラルネットワークを用いています。この仕組みでは、この二つが相互に互いを出し抜こうと学習することにより、高い精度での生成が可能になります。この技術を使い、実在しない人の顔が写真並みの精度でリアルに生成できることも話題となっています。(参照サイト)。GANのGeneratorは、乱数列を入力として、学習したデータを模倣するデータを生成します。似た数列を入力すれば、似たデータが生成されることになるわけです。今回は、入力の乱数列を線形補間し、徐々に変化する楽譜を生成しています。こうして生成された楽譜は、時に元の楽譜の特徴を忠実に反映しつつ、音楽的におかしな楽譜にもなりえます。


英語で楽譜はMusical Score、あるいは単にMusicと呼ばれます。この作品では、楽譜というグラフィック表現を通して、そこから生まれるMusicを生成することに挑戦しています。
この作品は、Generative Adversarial Network(GAN)の手法を使って、フォントを生成するという試みです。

入力の乱数列を線形補間で少しずつ変えていくことで、徐々に変化するフォントが生成されます。学習元のフォントの特徴が直接的に反映されているような見覚えのあるフォントとフォントの合間に、不思議な造形のフォントが顔をだす瞬間が見どころです。
CVC-MUSCIMA dataset : Alicia Fornés, Anjan Dutta, Albert Gordo, Josep Lladós. CVC-MUSCIMA: A Ground-truth of Handwritten Music Score Images for Writer Identification and Staff Removal. International Journal on Document Analysis and Recognition, Volume 15, Issue 3, pp 243-251, 2012. (DOI: 10.1007/s10032-011-0168-2).
この作品では、画像の分類方法を学習したAIが、2013年から2017年までの5年間のJAGDAの年鑑『Graphic Design in Japan』の掲載作品(1,500点以上のポスター、ロゴなど)を、さまざまな特徴を考慮し分類を行っています。AIによる認識は、基本的な色や形による分類から内容を判断したより高いレベルでの分類まで5段階で調整でき、表示方法も2D/3Dマトリックス表示、3次元空間表示の3タイプと様々な視点から、過去のアーカイブの閲覧が可能となります。

AIはグラフィック作品をどう見るのか。各作品を画像認識用モデルに入力して得られる高次元の特徴量を、3次元/2次元に圧縮し、画面上にマッピングしています。画像認識のモデルは、学習済みの畳み込みニューラルネットワークとして一般的な、VGG16モデルを用いました。色やかたちといった物理的な特徴を反映するとされる低レベル(入力に近い)のレイヤーの出力から、事物のカテゴリーを反映する上位のレイヤーの出力まで、複数のレイヤーの出力(=特徴量)を切り替えてマッピングすることで、AIがさまざまな角度で作品を解析、解釈しているのが分かります。


注意すべきなのは、ここで使っているAIは、あくまでも一般的な画像認識用のモデルであり、書かれている文字を読むこと等はできないという点。当然、作品の意味やコンテクストを理解することもできません。しかし、この作品では、それらを超越(無視)したところで、人間がこれまで気づかなかった作品間の意外な類似性・関連性が見えてきます。
JAGDA インターネット委員会
Qosmo, Inc.
徳井直生 (Qosmo, Inc.)
Robin Jungers (Qosmo, Inc.), 堀川淳一郎
堂園翔矢 (Qosmo, Inc.)
安江沙希子 (Qosmo, Inc.)
堀川淳一郎
Qosmo, Inc.
徳井直生 (Qosmo, Inc.)
天野真 (Qosmo, Inc.)
安江沙希子 (Qosmo, Inc.)
大石亜希子
JAGDA インターネット委員会
株式会社ヤマハミュージックジャパン
JAGDA インターネット委員会
徳井直生 (Qosmo, Inc)
JAGDA インターネット委員会
Qosmo, Inc.
徳井直生 (Qosmo, Inc.)
Robin Jungers (Qosmo, Inc.)
安江沙希子 (Qosmo, Inc.)