ジェネレーティブ座談会 Vol.1

参加メンバー:鹿野/長崎/丸山

冒頭

WOWでは新しいプロジェクトをスタートします。これまでとは違ったアプローチでサウンドとビジュアルの表現に取り組むべく、私たちはまず対話の中で表現を模索することにしました。

鹿野
新しいプロジェクトを立ち上げるに当たって、まずは雑談の中から方向性を探っていきたいと思います。2006年にWOWは「Motion Texture」というプロジェクトを手掛けましたが、それは映像をリアルタイムで作れるということを映像デザイナーはどう捉えていくかという問いだったわけです。そして10年経った今、リアルタイムの映像をほぼ自由に作れるような状態になって一応技術的には達したとしても、あの時の問いの答えがまだ出せていないと感じていて、それを作っていきたいと考えています。

その時に非常に重要になってくるのが「音」だと思います。そこに存在して動き続けている映像と音を合わせる時に、以前は作ってあったものを流していましたが、リアルタイムに音も作りたい。音と絵をその場で次々と生成させることで、環境に対して何か影響を及ぼしたり、何か情報を伝えたりできないかということを、探っていきたいと思っています。人との接点の部分における音楽と映像の自動生成プロジェクト、ということになりますね。

そこで、音のプロフェッショナルとユーザーインターフェイス(UI)のプロフェッショナルである2人に集まってもらいました。まずはサウンドデザインが今どういう状況にあるのか、特に長崎君が取り組んでいるのがどういうものなのかを聞かせてください。

長崎
実際に作っている音を聴いてもらいながら話そうと思うんですが、自分がやっている特徴的な仕事として、UIの操作音があります。UIはビジュアルを目で見ることはできるんですけど、それに音を付けるとなると、タイミングの問題だったり質感の問題だったりで既存の音がちょっと合わなくて、オリジナルで作るしかないんですね。  

 

 

長崎
UIの音のサンプルをいくつか再生してみますね。ユーザーの操作に合わせて鳴る音ですが、しっかり鳴るものから、短いもので0.1秒。映像でいうと3フレームぐらいの音をひたすら作るということをやっています。

DSC_0398

丸山
映像で、3フレで何か表現しろと言われても無理ですね。

長崎
何でそんなに短いかというと、UIの制限から来ているんです。ユーザー操作を受け付ける仕組みはアプリだったりプロダクトだったりいろいろありますが、ほとんどは操作を受け付けてから、ごく短い時間内に素早く反応しますよね。その反応時間が、0.03〜0.1秒くらいで次の動作が始まる。一緒に操作音も鳴らしたいとなると、プロダクトの場合は特に、音に使える時間がとても短いんです。これはもう試行錯誤で、1つの音を作るのに50〜100個くらい作って、音の高さを変えたり別の音を混ぜたり、1カ月ぐらい時間を掛けてブラッシュアップしていきます。

丸山
3フレという短さ、大量に作って時間を掛けてブラッシュアップしていく作業というのは、UIでいうところのアイコンに近いですね。

長崎
確かに、求められる機能も、聞いてすぐに何が起こっているか分かるということなので、アイコン的ですね。

鹿野
UIのデザインをする時に、そういう操作音は意識していますか?

丸山
以前はまったく意識していませんでした。鳴らない前提で作るものもあります。鳴らさなくても理解できるというのが一番いいですよね。そこに音が入ることによって、それがより強固になるというのが理想ですね。

DSC_0444

長崎
UIデザイナーと一緒にUIの設計をする中で分かったんですが、丸山さんが言うようにUIのデザインをしている時は、どうやら具体的な音までは想定していないみたいなんです。そこに後付けで音を足していくので、その時点でグラフィックを変えたり設計を変えたりというのは難しくて、なるべく合うように工夫する必要がありますね。

操作と連動する音ということでは、2014年に「コメ展」(※1)に参加して、ハンドルを回すと脱穀したり精米したりという体験ができる装置の音を作りました。インタラクティブの作品に音を付けるにはちょっと工夫が必要で、自分が何かをした結果に対してきちんと音が返ってこないと、ただ単に効果音が鳴っているという認識しかされないので、体験に対してのフィードバックをきちんと返すためにプログラミングが必要になってくるんです。

鹿野
音に対してのプログラミング、ですか。

長崎
単に再生するんじゃなくて、音の鳴らし方をプログラミングするんです。脱穀機の音って基本的にエンジン音なんですが、ハンドルの回し方によってボリュームだけじゃなく徐々に回転数が上がっていくような音を出すには、ちょっと地味ですけどプログラムじゃないとできません。そのエンジン音に米粒の音も加えて、自分が精米している時にお米が作られているんだなというのが、体験として残るようにデザインしています。それには、ハンドルの手応えと音の変化のバランスをうまく取る必要もあります。

 

※1 コメ展 “働かざるもの、食うべからず”
21_21 DESIGN SIGHTにて佐藤卓氏・竹村真一氏ディレクションの企画展として開催。コメが紡ぐ日本独自の文化や生命をテーマとし、さまざまな作家が独自の視点で作品を出展した。

鹿野
まさにインタラクションありきで、音を動きにぴったり合わせていくという感じなんですね。

長崎
こういうインタラクションで音が鳴るものでは、考え方として、何で音が鳴っているのかがすごく重要です。何が振動して何が動いているからこういう音が出るというのが、架空の世界の中でも設計できていないと音がイメージできないんですね。ここが面白いところで、どの辺に動力源があって、どういうスピードで回転しているのかというのを、架空でもいいから作っていくんです。

鹿野
音の背後にある世界を構築して、音を鳴らしていく。

丸山
UIだと最初にコンセプトを決めて、そのルールにのっとってデザインを進めていくんですけど、その最初のコンセプトに近いですかね。

長崎
そうですね。物がぶつかり合う世界なのか、それともすっとすり抜ける世界なのか。ボタンを押した時にどんな音がするのかということも、そのコンセプトを聞いてから設計するんです。ぶつかり合う世界で、どういう材質のものがぶつかり合うから、これは「カチッ」という音がするんだなと。

丸山
音をデザインしてもらう時に、いかにその情報を渡すか渡さないかで出てくる音も全然違うんですね。

鹿野
なるほど。こういうふうにプログラムで制御する仕事というのは多いんですか。

長崎
はい。さっき聞いてもらったUIの効果音も、基本的には指での操作など、何かをきっかけに発生する状況に合わせて再生するプログラムを作ります。

鹿野
サウンドファイルを作るんじゃなくて、鳴り方のアルゴリズムを含めて考えるということですね。それを踏まえつつ、リアルタイムな映像生成に対して音を考える時に、どういうアプローチがあるかを考えていきたいんですが、映像に対してあるべき音が自動的に作られていくということはあり得るでしょうか。

長崎
以前、鹿野さんと一緒に手掛けた「Light Rain」(※2)のような音楽を自動で作れないかと思って、いくつか試したものがあります。仕組みとしては、「種」となる音にバリエーションをつけて展開していくというものです。2音か3音くらいのフレーズを基に、そのスピードを変えたり高さを変えたり、いろんな方法で形を変えながら曲を構成していく。モチーフを作って、それを展開していくというのは音楽を作る基本的な手法(※3)なんですけど、それをそのまま愚直にやっています。

 

 

※2 Light Rain
wowlabが2009年に制作したインタラクティブインスタレーション。作品のBGMは、ピアノのフレーズをアルゴリズムにより展開して作られた。

※3 音楽を作る基本的な手法
「作曲の基礎技法」(アルノルト・シェーンベルク著)に詳しい。

lightrain2

鹿野
そのモチーフを変えると生成される音も変わるんですね。

長崎
そう、まさにそこが問題なんです。こうしてコンピュータで一つのものからバリエーションを作り出していくと、そのモチーフを作るのが一番難しい。コンピュータには「動機」がないので、種が生み出せないんです。それができれば、そこから展開するテクニックはいろいろあるんですけど、例えば「夕方になったからこういう感じの音にしたい」という動機をどうやって生み出せるか。

鹿野
コンピュータに動機がないって面白いですね。確かに、道具だから。

長崎
僕らはこういうふうに見せたいとか、こういう世界観を作りたいとかいう動機があって、何らかの表現方法を考えるじゃないですか。そこをどうしたらいいかが難しい。

鹿野
コンピュータの動機って、どういうものなんだろう。

長崎
分からないですけど、メモリが一杯になったから何かを破棄するみたいなことが動機かもしれないですね。

DSC_0021

鹿野
CPUが熱くなっているから、とか。

長崎
そうです。ファンを回さなきゃ、みたいな動機から種が生まれてくるかもしれませんし。ちょっと突飛な例ですけど、それぐらいやっていくと何か見えてくる気もするんです。いわゆる作曲ソフトだと、パラメータの幅の中でランダムに動いていくというのは結局組み合わせに過ぎなくて、確かにいくらでもできるし、例えばジャズを作ればそれっぽくは聞こえるんですけど、あまり感動はない。

鹿野
そういったものではないアプローチの方が面白いだろうと。

長崎
そういうのは音楽の世界だと古くから試されていて、1950年代にジョン・ケージ(※4)などの現代音楽家が、偶然性や不確定な要素を持つ音楽をいろいろ実験して、ある程度ランダムにできるような環境を整えて、あとはリスナーに任せるという手法を生み出したんですね。 まさにいま、ほとんどのジェネレーティブ(※5)がそうなっていると思うんですけど、ランダムの幅を決めておいて、その中でいろいろできるというのはすでに60年ぐらいの歴史があって、さらにそういう作品は増え続けている。今回のプロジェクトに当たって考えたのは、自動生成というからには、モチーフから自動生成したいなということです。

鹿野
なるほど。素材をたくさん人間が用意しておいて、それを基にコンピュータがバリエーションを作るのではなく、コンピュータに動機付けをさせる。うーん……これは大きなチャレンジですね。リアルタイムの映像を作る時も、あらかじめ用意されている図形や写真の組み合わせから作り出すとか、環境の持っている情報から作り出すとかいうのはあるけど、それはあくまでも作者が仕組みを作っておいて、それにのっとっているだけですからね。その動機を持たせるためには、どういう方法があり得るでしょう。

長崎
音楽で盛んに取り組まれているものとしてディープラーニング(※6)がありますけど、苦戦している印象があります。音楽って、イントロが始まったら次はAメロが来るだろうとか、歌が盛り上がってきたからそろそろサビだとか、そういう約束事みたいなことで聴いている部分もあって、それを無視して作ると、何か違う感じを受けてしまう。「こうなってほしかったのに違った」というガッカリ感が影響するんじゃないかという論考もありました。

鹿野
それはビジュアルの自動生成でもありえますね。今回チャレンジしなければならないのは、人が規定した範囲内でのバリエーションではなく、人が想像していない範囲をどんどん自律的に進んでいくようなビジュアルなんですが、きっとめちゃくちゃになると思うんですよね。 音楽と一緒で、人間にとって心地いいとか面白いとかきれいだと思うものは、そんなカオスの世界では生み出せないだろうという予想はつきます。だから、自動生成していくものと、自然界でいうところの物理法則のような抗えない大きなルールとの組み合わせになるのかなと思っていて、それをどういうふうにこれからアプローチしていけるか。どうですか?

丸山
えーと……すみません(苦笑)

鹿野
難しいね。自分でも何を言ってるのか分からなくなってきた(笑)  

 

※4 ジョン・ケージ
米国の音楽家でありキノコ研究家。実験音楽家として前衛芸術に大きな影響を与えた。

※5 ジェネレーティブ(Generative art)
コンピュータのアルゴリズムや数学的・機械的・無作為的自律過程によってアルゴリズム的に生成・合成・構築される作品。

※6 ディープラーニング(deep learning)
システムがデータの特徴を学習して事象の認識や分類を行う機械学習の手法。

DSC_0070

丸山
音楽のセオリーがあるようにもちろんビジュアルにもセオリーがあって、いま鹿野さんが言った自然界の美しさの中にルール、規則性があるから、それにのっとっていけば、まずはその美しさを単純に表現しやすいというのがあるのかなと思います。でも、例えばディープラーニングで「絵を○○風にしてみました」というような作例はたくさんあるわけで、そうではないアプローチを探さないといけないわけですよね。

鹿野
まさに今回のプロジェクトの意義はそこにあると思っていて、まず人が規定した範囲内でのバリエーションを自動生成とは呼ばないことにしよう、と。それが生み出された動機自体も何かしらの学習によって作り出されて、自律的に制御しながら次々と生み出されていくんだけれども、それがぐちゃぐちゃのカオスではなくて、人の琴線に触れるような美しさや調和を持っている。そのために人はどれくらい関与すべきなのか、というところになると思います。

それが、ひたすら学習させた結果として出てくるのではなくて、コンピュータのある程度の自立性に基づいている、というものをどうやって作っていくか。そして、それがどういうものを生み出すのかを知りたい。 結果、「これはつまらない」ということになるかもしれません。人の持っている多様性の方が圧倒的だという答えでもいいんだけど、それでも10年前にやったシミュレーションとバリエーションから人間がチョイスするという自動生成から一歩進んで、思いも寄らないような設計図が次々と生まれて枠組み自体が変わっていくような表現を目指して、まずはスタートしましょう。