Google、科学、工学、コード向けにGemini 3 Deep Thinkを強化


科学技術
2026-02-16T12:11:58+01:00

最終更新日: 2026年02月16日
  • Gemini 3 Deep Think は、科学、研究、エンジニアリングに重点を置いた高度な推論モードとして更新されました。
  • このモデルは、Humanity's Last Exam、ARC-AGI-2、Codeforces、IMO 2025 などのベンチマークで優れた結果を達成しています。
  • 現在、Google AI Ultra 加入者向けの Gemini アプリおよび Gemini API 経由の早期アクセスでご利用いただけます。
  • 初期の使用例には、数学論文のレビュー、半導体の最適化、3D プリント用オブジェクトの設計などがあります。

ジェミニ3ディープシンク

Googleはアクセルを踏み込むことにした ジェミニ3ディープシンク深層推論に特化した人工知能モデル。このバージョンは、 ジェミニファミリー、それは、 科学、研究、工学上の問題データが不完全な場合問題の境界は曖昧であり、必ずしも単一の正しい答えがあるわけではありません。

ジェネラリストモデルと比較して、 Deep Think は、研究チームに近い働き方を提唱しています。: より長く考え、複数のルートを並行して探索する そして、最終的な答えを出す前に矛盾点を排除します。Googleの目標は、システムが単に説得力のある「音」を出すことではなく、数学的証明の検証、実験結果の解釈、物理的な部品の設計といった高度なタスクに厳密さをもたらすことです。

オープンエンド問題向けに設計された推論モード

ジェミニ3ディープシンクが開発されました科学者や研究者と緊密に協力して多肢選択式試験とはほとんど似ていない課題に取り組むという考えのもとで。実際の研究では、 ノイズの多いデータ、中途半端な仮説、変化する目的Google がこのモードの真価を発揮させたいのはまさにこの点です。

Deep Thinkは内部アーキテクチャにおいて、 拡張推論または「並列思考」複雑なクエリに直面した場合、モデルは複数の推論ラインを生成し、それらを相互に評価し、論理的に矛盾する部分を除外します。このアプローチは、典型的な「単一の思考ライン」とは異なり、ホワイトボード上で議論を重ねて確実な解決策を見つけるグループに似ています。

同社自身が説明しているように、この戦略により、当初から要件が明確に定義されていない問題にも対応できるようになります。Deep Thinkは、単にギャップを埋めるのではなく、 問題の可能な解釈を提案し、データとの整合性を確認する コンテキストが工場から「クリーン」に提供されていない場合に重要な、検証手順を提案します。

グーグルは、その意図は統合することだと主張している。 実践的な工学応用を伴う深い科学的知識言い換えれば、モデルは抽象理論の領域にとどまるのではなく、意思決定、シミュレーション用のコードの作成、実験のパラメータの調整に役立つものでなければなりません。

ベンチマークパフォーマンス: 人類最後の試験からコードフォースまで

アップデートをサポートするために、Googleはいくつかの 現在の状況に対するより厳しいテスト AIの。 人類最後の試験非常に難しい問題をまとめたベンチマーク 数学、科学、工学ジェミニ3号ディープシンクは 外部ツールを使用せずに48,4%GPT-5.2や クロード・ソネット/オーパス そういったタイプのタスクでは。

En ARC-AGI-2測定するために設計されたパズルのセット 抽象化と一般化の能力このモデルは、 84,6%Googleが示す数値は、ARC Prize Foundationによって検証されています。この種のテストは、「記憶された知識」を評価するだけでなく、指示が変化したときにシステムがどの程度パターンを検出できるかを評価します。

競技プログラミングの分野では、ディープシンクは CodeforcesのEloレーティングは3455これは、人間のトップレベルのプロファイルに匹敵するレベルです。この指標は、AIが次のようなことができるという考えを裏付けています。 複雑な現実世界のコーディング問題を解決する時間制限と典型的なコンテストの罠があります。

このアップデートでは、 2025年国際数学オリンピックで金メダルレベルDeepMindの社内評価では、約81,5%の正解率を達成しました。さらに、このモデルはオリンピックの筆記試験においてメダルレベルの成績を達成しました。 2025年の物理と化学そして周りのマーク CMTベンチマークで50,5% 理論凝縮物質物理学の。

これらすべてから、かなり明確なイメージが浮かび上がります。Gemini 3 Deep Thinkは、クローズドエンドの質問だけでなく、 長期にわたる推論、中間ステップ、内部検証繊細なテスト、計算、シミュレーションを行う際に不可欠な要素です。

ハードサイエンス:数学、物理学、化学など

このアップデートの焦点は、ディープシンクのツールとしての役割を強化することです。 高度な科学技術数学では、Googleと ディープマインド 彼らは以前、ジェミニベースのシステムで達成可能なことを実証していた。 IMOでの金メダルの結果また、ICPC などの競技会でかなりの割合の問題を解くこともできます。

ジェミニ3ではそのラインが拡張されます。モデルは計算だけに限定されず、 長時間のデモンストレーションを追跡し、弱点を見つける 代替テスト方法を提案します。わずかな論理エラーが何ページにも及ぶ作業を無効にするような分野において、この機能は論文、論文、技術レポートをレビューするチームにとって明らかに価値があります。

物理学と化学の分野では、ディープシンクは次のような進歩を見せている。 競争問題と筆記試験しかし興味深いのは、研究室や産業界への応用です。これらの分野では、複雑な現象を数学モデルに翻訳し、パラメータを調整し、次に何を測定するかを決定する作業が多く行われています。このモデルは、 物理的な直感、方程式、実験データを結びつける 文脈が広範囲になっても筋道を失うことなく。

CMTベンチマークのようなベンチマークでのパフォーマンスは、AIが容易に動き始めていることを示唆している。 高度な理論物理学これは、自然言語と緻密な数学的定式化や相互参照が融合する分野です。これにより、材料、量子光学、数値シミュレーションに重点を置くヨーロッパの研究グループに日常的なサポートを提供できるアシスタントの育成が可能になります。

DeepMindは、Deep Thinkの「エージェント」構成も研究しており、モデルは応答するだけでなく、 作業サイクルを計画し、自分の手順を確認する そして、結果に応じて戦略を調整し、特に敏感な領域における論理エラーや幻覚を減らすことを目指します。

実例:論文レビュー、半導体、3D設計

結果表以外にも、Googleはアップデートに以下の情報も加えている。 Gemini 3 Deep Thinkが現在何ができるかを示す初期の使用例最も話題になっているのは ラトガース大学の数学者、リサ・カーボンシステムを使用してレビューした 高度に技術的な数学の記事 通常のトレーニング データにはほとんど存在しない領域です。

同社によれば、 ディープシンクは微妙な論理的欠陥を特定することができた気づかれなかった 人間によるピアレビュー中に行われる。このタイプのサポートは査読者の作業を代替するものではないが、 欧州の科学雑誌や研究グループにとって興味深いかもしれない追加の検証層 高度に専門化された原稿を扱う人。

もう一つの事例は デューク大学のワン研究室新素材の開発に焦点を当てた。チームはDeep Thinkを使って 結晶成長プロセスを最適化する 従来の方法では困難だった100マイクロメートルを超える厚さの半導体膜を得ることを目標に、AIは実験的な「レシピ」を提案し、半導体製造に役立つ材料の開発を加速させた。 次世代電子機器.

応用工学の分野では、 アヌパム・パタクGoogle社内のプラットフォームとデバイスの研究開発を担当する。ここではDeep Thinkが活用されている。 物理コンポーネントの設計を加速する概念的な部分と具体的な技術的パラメータへの変換の両方をサポートします。これは、機械的または電子的なプロトタイプを繰り返し作成する欧州企業にとって非常に重要なものです。

特に印象的なデモは、このモデルの能力を示している。 スケッチを3Dプリント可能なオブジェクトに変換するシステムは図面を解釈し、形状を推測し、モデルを生成し、部品の印刷に必要なファイルを生成します。実際には、簡単なスケッチを見せてすぐに使える設計図を受け取るようなもので、工業デザインスタジオや小規模なハードウェア工房での反復作業の手間を省くことができます。

視覚、長期文脈、マルチモーダルタスク

Gemini 3 Deep Thinkのアップデートはテキスト処理に限ったものではない。Googleは、このモデルが次のようなタスクにおいて改善されたことを強調している。 視覚と論理的推論を組み合わせるの解釈など 複雑なフローチャート、図、科学的なグラフAI は画像を「見る」だけでなく、それを推論チェーンに統合して一貫した決定を下します。

この機能は、例えば、 科学論文の図、技術図面、測定機器のスクリーンショットユーザーにすべてをテキストで説明するよう求める代わりに、システムは視覚的な表現を直接操作し、それをコンテキストの残りの部分と相互参照することができます。

Googleが強調したもう一つの点は、 長いコンテキストDeep Thinkは、欧州のプロジェクト報告書から膨大な技術資料まで、数百ページに及ぶ文書を、見失うことなく処理できます。これにより、 異なる変数のクロス集計、実験のバージョンを比較したり、同じレポートの異なるセクションに隠れた不一致を検出したりすることができます。

大学、研究開発センター、スペインやヨーロッパの企業のエンジニアリング部門では、このビジョン、テキスト、広範なコンテキストの組み合わせが実際のワークフローに適合します。レポート、プレゼンテーション、実験データ、コード、ダイアグラムが同じプロジェクト内に共存し、完璧に整理されることはほとんどありません。

ディープシンクは、 パーソナルアシスタント さまざまな形式を切り替えて散在する情報を構造化できるため、チームが競争上の電話や規制の配信に時間との戦いで取り組んでいる場合に特に役立ちます。

したがって、Deep Think は、形式間を移動して散在する情報を構造化するのに役立つアシスタントとして位置付けられます。これは、チームが競争の呼びかけや規制の配信に時間との戦いで取り組んでいる場合に特に役立ちます。

全体的に、新しい ジェミニ3ディープシンク 難問解決のために設計されたツールプロファイルを提示します。より深い推論、トップレベルのテストにおける確かな結果、そして科学論文のレビューから半導体製造、印刷可能な部品の設計に至るまでの実用的な例が組み合わされています。スペインやヨーロッパの研究チームやテクノロジー企業にとって、関心は驚異的な数値ではなく、 このタイプの AI を、制御、検証、測定可能な結果に重点を置いて、実際のプロセスに統合します。.