お電話でのお問い合わせ

03-3589-6753

【エンジニアブログ】第50回 Enjoy&Engineer

画像に alt 属性が指定されていません。ファイル名: system-img-1024x217.png
Enjoy&Engineer

システム開発部の月月です。

エンジニアブログ第50回を迎える今回はGoogleのAI開発組織「Google DeepMind」が発表した、
動画に合わせてオーディオ生成が可能な「V2A」についてご紹介します。


昨今は動画を作成できる生成AIの開発に様々な企業が取り組み研究を推し進めています。
ところが、現時点ではそれらによって生成された動画はほぼ無音のものばかりです。


「V2A」は生成AIによって作られた動画や無音の動画に合わせてBGMやリアルな効果音、キャラクターのセリフなどを生成する技術です。


例えばギターを演奏している動画を生成AIに作成させた場合、従来は無音の動画が生成されるのみでした。


「V2A」に生成AIが作った無音のギター演奏動画と「ライブステージでソロパートを演奏するギタリスト」のようなテキストプロンプトを与えることで、
映像とプロンプトからイメージされる楽器の演奏音が生成されます。


また、昔のモノクロ無音映画に対して今回紹介した「V2A」や他の生成AIを利用することで、
シーンに合った音声を生成したり映像に自然な着色を行ったりといったことも可能となりました。



革新的な技術に思える「V2A」技術ですが、
高品質な音声を生成するためには高品質な映像を入力する必要があったり、
人間が喋っている映像に合わせてテキストを音声変換させる「リップシンク」もまだ改善すべき点が多かったりと
まだまだ解決すべき問題を抱えているとのことです。


テキストやソースコードのみならず、イラストや動画、音声に至るまで、
生成AIの携わる領域が飛躍的に拡張されてきていますね。
幅広いプロダクトにAI技術が活発に活用されるような未来もそう遠くない気配がします。

それでは次回をお楽しみに!

【エンジニアブログ】第49回 Enjoy&Engineer

画像に alt 属性が指定されていません。ファイル名: system-img-1024x217.png
Enjoy&Engineer

イノベーション事業部の茶々丸です。

第49回では先月5月中旬にGoogleが発表したAIを活用した検索機能「AI Overview」について紹介します。


こちらの機能は昨年にGoogleが新しい機能として試験提供していたSGE(Search Generative Experience)という機能の正式版にあたります。


「AI Overview」は通常のGoogle検索結果にさらにプラスして、検索結果上にAIによる回答を表示する機能となります。
現在は米国のみで提供されている機能のため日本での提供開始時期はまだ明らかになってはいませんが、近い将来提供されることでしょう。


しかしこの「AI Overview」現状まだ問題となっている部分もあります。


・問題点
例えばGoogle検索にて

cheese not sticking to pizza
(チーズがピザにくっつかない)

と検索した際、「AI Overview」からの回答は

You can also add about 1/8 cup of non-toxic glue to the sauce to give it more tackiness
(無毒の接着剤を1/8カップほどソースに加えると、チーズがピザにくっつきやすくなる)

というような、とんでもない回答を提供してしまう多くの事例があるということです。

たしかにこのまま世界的に提供されてしまっては些か問題がありますね。この問題を受けGoogleからの声明は「多くの事例は稀な質問によるもの。フィードバックに感謝し、システムの改善に努めていく」とのことであり、Googleの今後に期待ですね。

ただ上記ピザの事例に関してはCM撮影などで飲食物を美味しそうに撮る手法としてシズル動画撮影といった手法があり、ピザもその昔はチーズを美味しそうに見せるために伸び具合を強調するためボンドを混ぜたというお話もあります。

「AI Overview」による回答はウェブソースの情報と言語モデルを組み合わせて行われていることもあり、ウェブソースというのは非常に厄介だと思います。

上記のような事例が行われていたというお話を大衆が認知すればするほど、ネットに情報は溢れていくもので、結果とんでもない回答が生まれてしまう要因になってしまうように感じられます。

AIが今後どういった進化を辿っていくにせよAIに頼りきりの世界ではなくAIを良き友人として、正しい知識を人間がAIに、またAIが人間にと、互いに深めていけるような世の中になっていくと良いですね。

それでは次回をお楽しみに!

【エンジニアブログ】第48回 Enjoy&Engineer

画像に alt 属性が指定されていません。ファイル名: system-img-1024x217.png
Enjoy&Engineer

システム開発部の月月です。

今回は『Project Guideline』についてお話します。



Project Guidelineとは、視覚障がいを持つランナーが伴走者の助けなしに一人で自由に走ることを目標としたGoogleの研究開発プロジェクトです。

Project Guidelineは画像認識技術を用いて、地面に引かれた線を見分けます。
そして今ランナーが走っている位置を瞬時に判断し、音声でランナーに伝えます。
その音声により、ランナーは線から外れることなく走り続けることができるという仕組みです。


こうした仕組みは2023年にオープンソースとして公開され、
主に視覚障がい者向けのアクセシビリティ分野に取り組む方々が利用しやすいようになっています。


Project Guidelineではその実用に向け世界各地でテストを重ねており、
日本でも今年、横浜にて複数回に渡る体験会を開催中です。

過去にはこの技術を用いて、視覚障がいを持つランナー6人により42.195kmの駅伝レースを完走した実績もあり、
ハンディキャップを持つ方々にとって世界を広げる大きな助けとなっていることは間違いありません。

このような技術が進歩している大きな理由として、スマホの処理能力向上が挙げられます。

撮影、画像・空間認識、音声の出力といった機能を軽量なスマホが一手に引き受けてくれるため、
ランナーの走行を阻害することなく快適に走ることが可能となったわけです。

AIやARといったソフトウェア技術と高性能スマホというハードウェア技術の結晶が、
『Project Guideline』と言えるでしょう。

それでは次回をお楽しみに!

【エンジニアブログ】第47回 Enjoy&Engineer

画像に alt 属性が指定されていません。ファイル名: system-img-1024x217.png
Enjoy&Engineer

イノベーション事業部の茶々丸です。

今回の第47回では当ブログでも度々話題になっているGoogleが提供する生成系AIのGemini(旧Bard)について紹介します。


ここ数年の間に画像生成AIという単語をよく耳にするようになりました。

ChatGPTには有料プランにはなりますが、DALL-EというOpenAI社からリリースされた画像生成AIを用いて画像生成を行うことができます。


一方Geminiでは現在無料で誰でも画像生成を行うことができます。


・画像生成方法
生成方法としてはいたってシンプルでGeminiの下部にあるプロンプト(指示)にテキストを入力するのみですが、現状ではいくつか条件があります。

①プロンプト(指示)の内容は英語で行う
②アスペクト比の指定はできない
③現在のバージョンでは人物を画像生成することはできない

今回は例として、以下の内容でGeminiに指示をしてみました(是非実際にお試しください)

Please generate an image of a Gundam standing in Shinjuku, Tokyo.
(東京の新宿に立つガンダムの画像を生成してください)

Could you please change the time of day in the generated image to night?
(生成した画像ですが時刻を夜に変更していただけますか?)

Could you please make the generated image face off against a Zaku?
(生成した画像ですがザクと対峙させていただけませんか?)

と、最初に生成された画像から対話形式でさらに変更を加えていくことも可能です。
ですが実際に生成して頂いた画像を見てもらえばわかりますが、ガンダムなどの具体的なものほど「それっぽい何か」が生み出されているかと思います。これは今後に期待ですね。


ですが抽象的なもの、たとえば

Generate an image of the sunset on the coast
(海岸に沈む夕日の画像を生成してください)

と、指示を送ることでまるで写真のような画像を生成してくれます。
対話形式で自分のお好みの画像を生み出せるようにGeminiを調整していくのも楽しいかもしれませんね。

それでは次回をお楽しみに!

Mediaメディア掲載実績

歯科医院経営・総合情報誌アポロニア21/月刊「BIGLIFE21」/月刊「美楽」/楽天コミュニケーションズ㈱様/他

【Biglife21】様WEB記事はこちら
お客様の本音を集める新クラウドサービス「JOYボイス」を提案する

WEB記事を読む

Contactシステム開発・クラウドサービス・SES お気軽にお問い合わせください