Google DeepMindは、最も進化したAI推論モデルである「Gemini 2.5 Deep Think」を発表しました。このモデルは、複数のアイデアを同時に探索し、それを元に最適な回答を選択することができるとしています。
サブスクリプションサービスの「Google Ultra」(月額250ドル)を利用しているユーザーは、金曜日からGeminiアプリでこの新モデルにアクセスできるようになります。
Gemini 2.5 Deep Thinkは、2025年5月に行われたGoogle I/Oで最初に発表され、同社初の公開マルチエージェントモデルです。このシステムは、並行して質問に取り組むAIエージェントを複数生成し、単一のエージェントよりも大きな計算リソースを消費しますが、より良い回答を生成する傾向があります。
Googleは、今年の国際数学オリンピック(IMO)で金メダルを獲得する際に、Gemini 2.5 Deep Thinkのバリエーションを使用しました。
また、GoogleはIMOで使用したモデルを特定の数学者や学者に公開する予定です。このAIモデルは、通常の消費者向けAIモデルが数秒から数分で処理するのに対し、「数時間かかる」とされています。このIMOモデルは研究努力を促進し、学術利用のためのマルチエージェントシステムの改善に向けたフィードバックを得ることを目的としています。
Googleによれば、Gemini 2.5 Deep Thinkは、I/Oで発表した内容に対して大きな改善がなされています。また、同社は「新しい強化学習技術」を開発し、Gemini 2.5 Deep Thinkがより良い推論経路を活用できるようにしていると述べています。
「Deep Thinkは、創造性、戦略的計画、段階的な改善が必要な問題に取り組む手助けができる」と、GoogleはTechCrunchと共有したブログ投稿で述べています。
また、Gemini 2.5 Deep Thinkは、「人類の最後の試験(HLE)」でトップクラスのパフォーマンスを達成したとも報告されています。この試験は、数学、人文科学、科学に関する数千のクラウドソーシングされた質問へのAIの回答能力を測定します。Googleは、Gemini 2.5 Deep ThinkがHLEで34.8%のスコアを達成したとし、xAIのGrok 4は25.4%、OpenAIのo3は20.3%であったと報告しています。
さらに、Gemini 2.5 Deep Thinkは、LiveCodeBench6という競技コーディングタスクの難易度が高いテストでも他のモデルを上回りました。Googleのモデルは87.6%のスコアを出したのに対し、Grok 4は79%、OpenAIのo3は72%でした。
Gemini 2.5 Deep Thinkは、自動的にコード実行やGoogle検索と連携し、従来のAIモデルよりも「はるかに長い応答」を生成することができるとされています。
Googleのテストでは、このモデルが他のAIモデルに比べてより詳細で美しいウェブ開発タスクを生成したと報告されています。同社は、このモデルが研究者を支援し、「発見への道を加速させる可能性がある」としています。
最近、複数のAIラボがマルチエージェントアプローチに収束しているようです。Elon MuskのxAIも、いくつかのベンチマークで業界最高のパフォーマンスを達成したと言われるマルチエージェントシステム「Grok 4 Heavy」を発表しました。OpenAIの研究者ノアム・ブラウンも、今年の国際数学オリンピックで金メダルを獲得した際に使用した未発表のAIモデルもマルチエージェントシステムであるとポッドキャストで言及しました。また、Anthropicの研究エージェントもマルチエージェントシステムを利用しており、詳細な研究ブリーフを生成しています。
とはいえ、マルチエージェントシステムの運用は従来のAIモデルよりもコストがかかるため、テクノロジー企業はこれらのシステムを最も高価なサブスクリプションプランの背後に保持する可能性が高いです。xAIやGoogleがそのような選択をしているのがその一例です。
今後数週間、GoogleはGemini 2.5 Deep Thinkを選ばれたテスターにGemini APIを通じて提供する計画です。同社は、開発者や企業がそのマルチエージェントシステムをどのように利用できるかをよりよく理解したいと考えています。
画像の出所:techcrunch