最新GoogeAI「Gemini」とは?ChatGPTと比べて何がすごいのか?

簡単に言うと、Geminiは文章だけでなく、画像や音声なども理解できるAIモデルです。

Gemini(ジェミニ)とは
最大の特徴は、テキスト以外の情報も正確に認識し、倫理的に判断できるところです。
従来のAIは、「テキスト」「画像」「音声」などの要素をバラバラに学習して組み合わせていました。
一方、Geminiは「テキスト」「画像」「音声」など様々な要素を一度に認識することができます。
また、Python、Java、C++、Goなどのプログラミング言語でコードの説明や理解、生成することも可能になっています。

現在Geminiには3つのバージョンがあります。
Gemini Ultra...専門的・複雑な処理に向いている。2024年に開発者や企業向けに公開。
Gemini Pro...汎用的なタスクの処理に向いている。GoogleのAIボット「Bard」の英語版に搭載。
Gemini Nano...スマホなど小型デバイス用。Google Androidスマホの「Pixel 8 Pro」に搭載。
Gemini は「Ultra」、「Pro」、「Nano」 の3つで展開されているため、データセンターからモバイル デバイスまであらゆる環境で動作するとしています。

Geminiで実現されるマルチモーダル
マルチモーダルとは、「画像だけ」「テキストだけ」などと各要素をバラバラに認識、処理するのではなく、人間と同じように「画像」「文字」「音声」「動画」といった複数の要素を同時に扱う能力です。
Geminiはゼロから、マルチモーダルであることを前提に設計されています。

GeminiとChatGPTの違い
Geminiの一番の特徴はなんといってもマルチモーダル機能です。テキスト、画像、オーディオ、ビデオなどの混合データを処理して理解することができます。さまざまなデータタイプから得た情報を同時に処理することで、視覚的な手がかりとテキストデータの両方から引き出した応答を生成するなど、複雑なタスクの処理が可能になります。

対するChatGPT はテキストベースの処理を得意としていますが、2023年9月に発表されたGPT-4Vでは、マルチモーダルタスクを扱うことが可能です。ただし、内部的な実装がどうなっているかについては公表はされていません。
既存技術を組み合わせることでマルチモーダルを実現していることも考えられます。

それに対し、 Gemini はマルチモーダルな情報を扱うことを前提に根本から設計されており、トレーニング段階からマルチモーダルのデータセットを使って学習させることで、入力と出力でネイティブにマルチモーダルな情報を取り扱えるモデルになっています。

GeminiはどんなGoogleのサービス・製品に使われている?
・Google Pixel
Google Pixel シリーズのモデル「Pixel 8 Pro」では、Geminiが搭載されたことで、録音機能が大きくアップデートされています。Pixelシリーズの録音アプリと言えば、書き起こし機能が搭載されていることが特徴の1つでしたが、さらにGeminiが搭載されたことで要約機能が追加されました。10分程度の録音データを10秒ほどで要約することができます。

・Google Bard
BardとGeminiの統合により、より高度な会話型AIを利用できるようになりました。さまざまなマルチモーダルデータへの拡大、新しい地域や言語も追加対応される予定です。現在Bardに搭載されているのはGeminiProですが、最先端の AI 体験を提供する「Bard Advanced」も有料にてリリースされています。

・Vertex AI
従来、機械学習モデルの構築・開発をするとなると、各目的ごとに細分化されたツールを組み合わせて行う必要がありました。そこでGoogleが開発したAI開発のプラットフォー「Vertex AI」を活用することで、同じプラットフォーム上でデータの取り込みから、分析・実装までのフローを一貫して行えるようになりました。これにより、開発者は短時間で、より簡単にモデルを構築することが可能になりました。そんな便利なVertex AIにも、Geminiが使用されています。


ChatGPTの登場から、AIツールは著しく進歩しています。最先端のAI技術を知っておくことで、店舗経営の業務効率をあげたり
日々の生産性を各段に上げることにも繋がると思っています。

※参考
<Google AI Gemini公式サイト>
https://ai.google/gemini-ecosystem