AIモデル「Gemini 2.0」の「Multimodal Live API」でテキストや音声、動画を組み合わせたリアルタイム回答を可能にする仕組みとは：アプリ開発例も動画で紹介

Googleは、「Google AI Studio」と「Gemini API」で利用できる「Gemini 2.0」の「Multimodal Live API」を公式ブログで紹介した。

» 2024年12月27日 08時00分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　Googleは2024年12月23日（米国時間）、「Google AI Studio」と「Gemini API」で利用できる「Gemini 2.0」の「Multimodal Live API」を公式ブログで紹介した。

　Gemini 2.0のMultimodal Live APIは、「ビジュアル入力を使ってテキストや音声で質問すると、コンテキストを認識してテキスト、音声、動画を組み合わせた回答がリアルタイムで返ってくる」といったAI（人工知能）インタラクションを可能にする。Googleは、このAPIにより、リアルタイムデータを利用して、周囲の世界に反応するアプリケーションを構築できると述べている。

Multimodal Live APIの仕組みと特徴　何ができる？

　Multimodal Live APIは、WebSocketを利用したステートフルAPIであり、低レイテンシのサーバ間通信を容易にする。関数呼び出し、コード実行、検索のグラウンディングなどのツールや、1つのリクエスト内での複数ツールの組み合わせをサポートし、1つのプロンプトに対する包括的な応答を可能にする。開発者はこのAPIを用いて、より効率的で複雑なAIインタラクションを作成できる。

　Multimodal Live APIの主な特徴は以下の通り。

双方向ストリーミング：テキスト、音声、動画データの同時送受信を可能にする
1秒未満のレイテンシ：最初のトークンを600ミリ秒で出力し、反応時間を人間の期待に合わせることで、シームレスな応答を実現する
自然な音声会話：割り込みや音声行動検知など、人間のような音声のやりとりをサポートし、AIとのよりスムーズな対話を可能にする
動画理解：動画入力を処理、理解する機能を提供し、音声と動画の両方のコンテキストを組み合わせて、より情報に基づいてニュアンスに富んだ応答を可能にする。このコンテキスト認識は、インタラクションに新たな豊かさをもたらす
ツールの統合：単一のAPI呼び出しでの複数ツールの統合を容易にし、APIの機能を拡張して、ユーザーに代わって複雑なタスクを解決するアクションを実行できるようにする
選択可能な音声：さまざまな感情を伝えられる表現力の高い5種類の音声を選択できる。これにより、よりパーソナライズされた魅力的なユーザー体験を実現する

マルチモーダルライブストリーミングの活用

　Multimodal Live APIは、リアルタイムでインタラクティブなさまざまなアプリケーションを可能にする。Googleは、このAPIを効果的に適用できるユースケースの例として、以下を挙げている。

リアルタイム仮想アシスタント：ユーザーの画面を観察し、リアルタイムでユーザーに合ったアドバイスを提供し、探しているものがどこにあるかを教えてくれたり、ユーザーに代わってアクションを実行したりするアシスタント
適応型教育ツール：Multimodal Live APIは、生徒の学習ペースに適応できる教育アプリケーションの開発をサポートする。例えば、生徒のリアルタイムの発音や理解度に基づいて練習問題の難易度を調整する言語学習アプリを作成できる

　さらにGoogleは、Multimodal Live APIを利用したアプリケーションのデモ動画も紹介している。

マイク、カメラ、画面入力をストリーミングするスターターWebアプリケーション（提供：Google）

Geminiと天気についてチャットできるアプリケーション。場所を選択し、その場所の天気についてGeminiベースのキャラクターから説明を受けられる。いつでも説明に割り込んで質問できる（提供：Google）

Google、最新のAIモデルファミリー「Gemini 2.0」を発表　AIコーディングエージェント「Jules」など最新の取り組みを紹介
Googleは、エージェント時代に向けた最新のAIモデルファミリー「Gemini 2.0」を発表し、その最初のモデルの試験運用版リリースや、Gemini 2.0を用いたAIエージェントの研究開発など、関連する一連の取り組みも紹介した。
Google、Geminiで「Googleレンズ」や「AI Overview」を強化　撮影した動画に基づく検索や音声検索に対応
Googleは、検索専用にカスタマイズされた「Gemini」モデルを活用し、検索機能を強化したと発表した。
Google、「Gemini 1.5」搭載の「NotebookLM」の「音声概要」機能をアップデート　何ができるようになった？
Googleは、資料調査や文書作成などに利用できるパーソナライズされたAIアシスタント「NotebookLM」の「音声概要」機能のアップデートと、同アシスタントのビジネス向けバージョン「NotebookLM Business」を発表した。