システム開発部の月月です。
今回は昨年12月に米Googleが発表した『Gemini(ジェミナイ)』についてご紹介します。
Geminiは最先端のマルチモーダル生成AIを謳っています。
マルチモーダル生成AIとは、テキスト、画像、音声、動画、コードなど、複数のデータタイプに対応し、それらを組み合わせて処理する能力を持った生成AIです。
従来の生成AIの多くは画像やテキストなど単一のデータタイプを扱うのが一般的でしたが、複数のデータタイプを扱うことでより複雑なタスクに対応することができます。
○Geminiの特徴
Gemini(ジェミナイ)の特徴は、以下の3つです。
・洗練された推論能力
大量のデータの中で判別が難しい情報を抜き取るなど、複雑なテキストや資格情報を理解する能力に長けています。
・マルチモーダル性
先述の通り、テキスト、画像、音声などを同時に理解することができます。
数学や物理学などの複雑な内容であっても、細かいニュアンスを読み取る能力が高くなっているそうです。
・コーディング能力
Python、Java、C++、Goなどのプログラミング言語でコードの説明や理解、生成が可能となっています。
生成するコードは従来のAIより高性能となっていることがベンチマークテストで示されています。
例として以下のような用途が期待されています。
・テキストと画像を組み合わせて、映画やアニメのストーリーボードを作成
・音声とテキストを組み合わせて、会話型AIの回答を生成
・画像とコードを組み合わせて、新しいソフトウェアをデザイン
『Gemini(ジェミナイ)』はGoogle BirdやPixel 8 Proなどに搭載され、それらを通じて活用することができます。
今後もGeminiの進化とそれがもたらす社会の変化に注目が集まりますね。
それでは次回をお楽しみに!