近年は、古典的な人工知能では扱いにくかった理論が不明だった問題が、膨大な学習データがある場合には深層学習(deep learning)により解決に近づける場合が多く、その手法が break-through として人気の手法になっています。(簡単に言えば、任意の次元のベクトルXからベクトルYへの非線形写像を、沢山のデータから逐次近似して学習する方法で、もともとは音声認識などのパターン認識分野から興った手法です。)
このため、AI というと学習が必要と誤解している人が多くなりましたが、実はAI には他にも様々な手法があり、このシステムでは、自動作曲には確率モデルと最適解探索を用い、自動作詞では機械学習と確率モデルを用いています。
音楽作曲では音楽理論が確立している一方で、多様かつ均質で十分な量の学習データがないのがその理由です。
つまり、大量の均質なデータで深層学習すると、与えたデータと見分けがつかないほどそっくりな作品が作れるかも知れませんが、それは表面的な贋作作成になりそうだし、ユーザの嗜好・志向を反映しにくく、音楽理論は無視されるでしょう。
人の音楽創造を手伝うツールとしての自動作曲は、ユーザの感性を反映しつつ、職人のように音楽理論を守って音楽を実現する、という方が良いのではないか、と考えたのがこのシステムです。
人工知能の方法論を人間に喩えると、理論中心の座学教育と、真似するだけの現場学習に大きく対比できます。
近年は、理論を教えないでも大量のデータにより人間の真似ができるようになる後者の方法論が話題に登るのですが、音楽創作の立場で言えばそれは巧みな自動「贋作」技術に当たります。
機械が行う「真似」は、出来が精巧な割には、原理を全く理解していないので応用が利かないのですが、人間なら贋作が巧みならば技術も高度に理解・習得していそう、と思いこんでこれこそ人工知能だ、と報道されてしまうのが盲点です。
ChatGPTでは、ネットから膨大な話題を取り込んで、どんな質問にもまことに尤もらしい人間と間違うような見事な回答をしてくれるのですが、物事の原理に基づいているわけではないので、真偽は怪しくて、数学の問題などは自信たっぷりに間違う例がNHKLなどでも紹介されていますね。
今後は、学習データからどういう本質を学ぶのか、如何にして表面的な人間模倣を出す売ることができるのか、などが重要になるでしょうね。
自動運転を例に取ると、車から見える画像と人間の運転操作の関係を大量の対データから学習すれば、車は何の理解もしないでも人間同様の細かい動きができるでしょう。
しかし、そのような経験だけから人間の運転の背後にある交通法規を獲得し、人の安全を優先する価値観を学び、ルールや常識に基づく判断は別の方法論で与えることが必要です。
人間の作曲家の作曲創造では、交通法規に相当する西洋音楽の規則を理解し守ることがベースにあって、それを多くの音楽例からの経験で磨いて、さらに他人がやっていない独創的な作品を生み出せるようになるわけです。
Orpheus では、音楽理論は機械に任せ、創作的なセンスの部分はユーザに任せる方式と言えるでしょう。
現在のシステムでは、自動作詞機能のみデータから学習していますが、他は音楽理論に基づいています。
つまり、限られた量の運転データをまねる方式より、交通法規と地図を頼りにする方式です。
将来は両者方式が融合するでしょう。
|