スタッフブログ | 株式会社エンジョイ

【エンジニアブログ】第53回 Enjoy&Engineer

2024年10月15日スタッフブログ

画像に alt 属性が指定されていません。ファイル名: system-img-1024x217.png — Enjoy&Engineer

イノベーション事業部の茶々丸です。
「Googleレンズ」にまたもや新しい機能が加わりました。Google LLCの今のトレンドなのかどんどん色んな機能が追加されていきますね。それでは紹介していきましょう。

・機能詳細
Google 検索アプリ内でレンズを開き、シャッターボタンを長押しして動画を撮影しながら音声による質問が可能になりました。また動画だけならず、写真を撮る際にも同様に音声による質問が可能なようです。

どちらの機能も現状では英語による音声にしか対応していませんが、当ブログでも度々紹介しているGoogleの生成AIモデル「Gemini（ジェミニ）」が動画と質問を解析し、回答を生成するようです。

Googleのエンジニアリング担当バイスプレジデントであるRajan Patel氏曰く「動画を一連の画像フレームとしてキャプチャし、それをカスタムGeminiモデルに渡しています。そうすることで、AIが複数のフレームを連続的に理解し、ウェブに基づいた回答を生成します」といった説明をされているようです。

今はまだ携帯端末という形での小型のサポート端末という存在ではありますが、いよいよもって動画というリアルタイムの処理にも対応するようになってきたこともあって、色々なSF作品に出てくるような人間とほぼ見た目の変わらない人型アンドロイドや現代日本でも最も身近な青色のネコ型ロボットなど、夢にまで見た存在が現実味を帯びてきたように感じられます。

青色のネコ型ロボットは22世紀（西暦2101年～2200年）の未来からやってきているわけですが、このまま技術が進歩していけばもっと近い将来になりそうですね。

Googleだけでなく、色々な企業がAI技術に日夜従事する現代社会、さらなる革命的な一石を投じるのは誰になるのか、今後も注目ですね。

それでは次回をお楽しみに！

【エンジニアブログ】第52回 Enjoy&Engineer

2024年9月15日スタッフブログ

システム開発部の月月です。
今回は「Project Astra」についてご紹介していきます。

Project Astraとは常在型のAIとしてカメラの映像をスキャンして常に周囲の状況を理解する技術です。
スマートフォンやスマートグラスのカメラを通じて見える物体やシーンを理解し、音声コマンドにより会話できるAIアシスタントとして活用されます。

Project Astraは、窓から見える景色を解析して現在の居場所を理解したり、視界に入っている物の名前や用途を教えてくれたり、PC画面上で作成中のコードを読み取って分析してくれたりといった高度な認識能力を持っています。

ユーザーが見聞きする世界をProject Astraと共有して、その情報をAIの力で分析してもらうことで人々の思考や行動を助けてもらうイメージでしょうか。

活用例としては、自分ではどこに置いたか分からなくなってしまった物の場所を思い出させてくれたり、日常やビジネスにおけるタスク管理を助けてくれたり、その他にも多岐にわたるシーンでの活躍が期待されます。

今はまだ普及度の高くないスマートグラスのようなウェアラブルデバイスが今よりもっと普及した時にこそ、Project Astraは強力なアシスタントとして人々の助けになることでしょう。

それでは次回をお楽しみに！

【エンジニアブログ】第51回 Enjoy&Engineer

2024年8月15日スタッフブログ

イノベーション事業部の茶々丸です。
当ブログにて昨年度からもちょくちょく話題となっている「Googleレンズ」について、またも新たな機能が追加されるようで今回の第51回でも紹介させて頂きます。

「Googleレンズ」はこの度デスクトップ版Chromeでも、モバイル版のようにウェブの画像などを検索できるようになるようです。
以前第45回などで紹介させて頂いた「かこって検索」がデスクトップ版Chromeでも出来るようになったといった具合のようです。

・機能詳細
ブラウザ上のアドレスバー部分にGoogleレンズアイコンが新たに追加されるようでそちらを押下すると、Googleレンズで検索する範囲を選択できる状態となります(スクリーンショットを取る際に指定した一部範囲を切り取るのと同じような感覚ですね)
この状態で、表示されているブラウザ上にある画像、たとえば猫の画像を範囲として選択することで、ブラウザ右部にGoogleレンズでの検索結果が表示されます。
現状まだアドレスバー部分にデフォルトでGoogleレンズアイコンは追加されていませんが、ブラウザ上で右クリック➡Googleで画像を検索からでも同様の機能を使用できます。

またこちらも今後追加される機能のようですが、上記のように手動でブラウザ上の画像の一部を切り取って検索するのではなく、画像の中のたとえばカバンを押下するだけで自動的にカバンに関わる部分が選択されGoogleレンズでの検索結果が表示されるといった便利な機能もあるようです。

さらにさらに、表示されたGoogleレンズでの検索結果にマルチ検索機能を使って検索を絞り込んだり、追加の質問をすることも可能で、質問の内容によっては、AIによる概要が表示される機能も実装されるようです。

ますます便利になっていく検索機能に今後も目が離せませんね。
私的には迷子の猫などの画像を基に、SNSの画像付きの投稿や街中の監視カメラの映像から、リアルタイムに移動経路を辿り早期発見に繋がるようなシステムが「Googleレンズ」に搭載されているAIを用いて開発されたりすることを願ってしまいます。

それでは次回をお楽しみに！

【エンジニアブログ】第50回 Enjoy&Engineer

2024年7月15日スタッフブログ

システム開発部の月月です。

エンジニアブログ第50回を迎える今回はGoogleのAI開発組織「Google DeepMind」が発表した、
動画に合わせてオーディオ生成が可能な「V2A」についてご紹介します。

昨今は動画を作成できる生成AIの開発に様々な企業が取り組み研究を推し進めています。
ところが、現時点ではそれらによって生成された動画はほぼ無音のものばかりです。

「V2A」は生成AIによって作られた動画や無音の動画に合わせてBGMやリアルな効果音、キャラクターのセリフなどを生成する技術です。

例えばギターを演奏している動画を生成AIに作成させた場合、従来は無音の動画が生成されるのみでした。

「V2A」に生成AIが作った無音のギター演奏動画と「ライブステージでソロパートを演奏するギタリスト」のようなテキストプロンプトを与えることで、
映像とプロンプトからイメージされる楽器の演奏音が生成されます。

また、昔のモノクロ無音映画に対して今回紹介した「V2A」や他の生成AIを利用することで、
シーンに合った音声を生成したり映像に自然な着色を行ったりといったことも可能となりました。

革新的な技術に思える「V2A」技術ですが、
高品質な音声を生成するためには高品質な映像を入力する必要があったり、
人間が喋っている映像に合わせてテキストを音声変換させる「リップシンク」もまだ改善すべき点が多かったりと
まだまだ解決すべき問題を抱えているとのことです。

テキストやソースコードのみならず、イラストや動画、音声に至るまで、
生成AIの携わる領域が飛躍的に拡張されてきていますね。
幅広いプロダクトにAI技術が活発に活用されるような未来もそう遠くない気配がします。

それでは次回をお楽しみに！

スタッフブログ一覧

【エンジニアブログ】第53回 Enjoy&Engineer

【エンジニアブログ】第52回 Enjoy&Engineer

【エンジニアブログ】第51回 Enjoy&Engineer

【エンジニアブログ】第50回 Enjoy&Engineer

カテゴリー

最近の投稿

News新着情報

INFORMATION

STAFF BLOG

Mediaメディア掲載実績

Contactシステム開発・クラウドサービス・SES お気軽にお問い合わせください