システム開発部の月月です。
エンジニアブログ第50回を迎える今回はGoogleのAI開発組織「Google DeepMind」が発表した、
動画に合わせてオーディオ生成が可能な「V2A」についてご紹介します。
昨今は動画を作成できる生成AIの開発に様々な企業が取り組み研究を推し進めています。
ところが、現時点ではそれらによって生成された動画はほぼ無音のものばかりです。
「V2A」は生成AIによって作られた動画や無音の動画に合わせてBGMやリアルな効果音、キャラクターのセリフなどを生成する技術です。
例えばギターを演奏している動画を生成AIに作成させた場合、従来は無音の動画が生成されるのみでした。
「V2A」に生成AIが作った無音のギター演奏動画と「ライブステージでソロパートを演奏するギタリスト」のようなテキストプロンプトを与えることで、
映像とプロンプトからイメージされる楽器の演奏音が生成されます。
また、昔のモノクロ無音映画に対して今回紹介した「V2A」や他の生成AIを利用することで、
シーンに合った音声を生成したり映像に自然な着色を行ったりといったことも可能となりました。
革新的な技術に思える「V2A」技術ですが、
高品質な音声を生成するためには高品質な映像を入力する必要があったり、
人間が喋っている映像に合わせてテキストを音声変換させる「リップシンク」もまだ改善すべき点が多かったりと
まだまだ解決すべき問題を抱えているとのことです。
テキストやソースコードのみならず、イラストや動画、音声に至るまで、
生成AIの携わる領域が飛躍的に拡張されてきていますね。
幅広いプロダクトにAI技術が活発に活用されるような未来もそう遠くない気配がします。
それでは次回をお楽しみに!