某VTuberに影響され、Suno AIと言うサービスを触ってみました。 これはMidjourneyの音楽版とも言えるサービスで、歌詞をプロンプトに打ち込むと曲を作ってくれるというもの。

どうやら潮流としてはTikTok出身の人物のベンチャーのようで、音楽とジャケットイメージとなる画像を生成し、それを共有することができるというアイデアは成程流行りのショート動画文化とも親和性が合いますし、とても面白いと思います。 基礎技術はBarkというのが元々あって、それを進化させたものを使っているらしい。

驚いたのは本当に曲として成立していることです。TextToSpeechの精度が2023年後半に入って急速に良くなっている、という感はあったのですが、音楽、つまりTextToMusicの領域はまだ先かなと思っていました。少し前にもGoogleのMusicMLやMetaのMusicGenがありましたが、音楽的にはイマイチなものだったからです。

特に重要なのがコード進行(和声)が成立していることや、メロディから生まれる緩急といった部分で、こういった部分を再現するのは難しいと思っていました。ところが、これは上手いことやっている。 ちょっと聴いていると、当然既存楽曲を学習した感はすごいあります。大手じゃないベンチャーだからこそできることで、恐らくYouTubeあたりの古今東西の音楽を学習させまくったのでしょう。これは物凄く議論が出てくるところだと思います。

とは言え、上手いのがプロンプトから既存のボーカルを合成音声に置き換える部分で、驚くべきものがあります。非常に上手くマッチしており、本当にこんな曲があっても良いな、と思えるくらい。

私の推測ですが、私の衝撃に比してこのサービス自体は手軽さとすごさの割に盛り上がってないので盛り上がらない気がします。権利・法的なリスクなどが1つの要因かと思いますが、Discordコミュニティに中国系の人が少ないためです。これは良くも悪くも近年のテックトレンドを見る為の重要な指標の1つだと肌感覚で思っていて、今はアメリカ、ロシア、インド系、その他発展途上国の方が注目しており、最近日本・韓国人が目を付けた、ってくらいの印象でしょうか。 色々とグレーな部分があるサービスだなとは思いますが、音楽にもAIの黒船がやってくる日は遠くないかもしれないですね。

個人的にはこういったツールは色々な活用方法があると思います。音楽が作れない人は新しい自分の感性に気付いたり、作詞を通じて表現力を上げることができるでしょう。

ミュージシャンにとっては自分の考えた歌詞の独特なコード進行や、思いもよらないメロディを思いついたりするのに役立つと思います。例えばラップを考えれば、「韻を最後に踏まないと駄目」みたいな先入観が働くと、そういったメロディしかヒューリスティックに思いつかないことがありますが、AIはそういうこと考えないで上手く当てはめることを優先するので、思いもよらないメロディーが思いつき、そこから「これだ!」っていうメロディを盗めたりすると思います。

あるいは発音の良いボーカルがあるので、こういったものを素材にして実験し、新たな音の表現を見つけることにも役立つかもしれませんね。