- Claude Opus 4.6 では、ベータ版で最大 1 万トークンのコンテキスト ウィンドウが導入され、スケジュール設定や長時間のエージェント タスクにおける役割が強化されています。
- このモデルは、Terminal-Bench 2.0、Humanity's Last Exam、GDPval-AA、BrowseComp などのベンチマークをリードし、いくつかの特定のテストでは GPT-5.2 や Gemini 3 Pro を上回っています。
- これには、適応的思考、努力レベル、コンテキストの圧縮、Claude Code のエージェント チーム、Excel と PowerPoint の改善などの機能が組み込まれています。
- 100 万トークンあたり 5 ドル / 25 ドルの価格 (エントリー/エグジット) を維持し、Web、API、主要クラウド経由で利用でき、セキュリティとサイバーセキュリティの制御を強化します。
の到着 クロード・オプス 4.6 これは、ハイエンドの人工知能モデルをめぐる競争における新たな一歩となる。 Anthropic は以前のバージョンをベースに、さらに進化させました。 企業が最も求める分野: 信頼性の高いプログラミング、長期タスク、大量の情報の処理 システムが途中で頓挫することなく。
Opus 4.6は単なるチャットボットではなく、 仕事の協力者 同じ問題に何時間も取り組み、自身のコードをレビューし、リポジトリ全体を探索し、長大な文書を分析する能力を備えています。しかも、一貫した価格体系を維持しながら。 すでに人類学的モデルを扱っている人にとっては大きな驚きはない 大きな雲を抜けて。
Claude Opus 4.6 とは何ですか? なぜ重要なのですか?
の立ち上げ クロード・オプス 4.6 これはOpus 4.5の直接的な進化として提示されており、特に印象的な新機能が1つあります。 ベータ段階では最大100万トークンのコンテキストウィンドウこれにより、以前ははるかに小さな断片に分割する必要があった会話、コード リポジトリ、レポートを取り込んで推論できるようになり、途中で重要な指示が失われるリスクが軽減されます。
アントロピックはこのモデルを次のように定義している。 これまでで最も先進的なシステムこれは、単純な単発の対応以上の対応が必要なチーム向けに設計されています。 長期プロジェクト 初期調査からソリューションの実装まで、処理対象の素材が数冊の小説やリポジトリ全体のサイズであっても一貫性を維持するエージェントとして機能します。
競争の激しい分野では、同社はそれを次の企業と同等の地位に位置付けている。 OpenAIのGPT-5.2 o Google Gemini 3 Proまた、複数の技術テストにおいて、新モデルは競合製品を上回る性能を示したと主張しています。ベンチマークは必ずしも実際の使用状況を完全に反映しているわけではありませんが、Opus 4.6がどのようなタスクで優れた性能を発揮することを目指しているかを示す指標となります。
ヨーロッパの企業、専門会社、テクノロジー系スタートアップにとって、このアプローチは非常に特殊なニーズに適合します。 複雑な知識作業を自動化する 特にコストが厳しく、納期がますます短くなる状況では、スタッフを増やす必要はありません。
主な機能: コーディングからオフィスワークまで
新しいモデルの柱の一つは、 プログラミングとコードのデバッグOpus 4.6は、大規模なコードベースをナビゲートし、内部依存関係を理解し、変更をレビューし、 以前のバージョンでは見逃されていたエラーを検出するAnthropic は、このモデルはコードを生成するだけでなく、自身の作業をレビューして修正することもできると主張しています。
純粋な開発を超えて、モデルは次のような処理をするように訓練されている。 財務分析、高度な調査、文書、スプレッドシート、プレゼンテーションの操作これには、レポートからデータを抽出し、それを Excel で処理し、結論を生成し、結果を一貫したプレゼンテーションで提示するなど、複数のタスクをチェーンで組み合わせる機能が含まれます。
企業の日常業務において、このような継続的な流れこそが、「好奇心旺盛な」AIアシスタントと、本当に 繰り返し作業にかかる時間を節約Anthropic が表明した目標は、Opus 4.6 が小さな個別のクエリだけでなく、作業ブロック全体を処理できるようにすることです。
このモデルは、コラボレーションプラットフォームや企業の生産性向上スイートなど、複数のリクエストが順番に実行されるマルチタスク環境でも機能するように設計されています。このような状況では、以前に実行された処理を記憶しておくことが、何度も説明を繰り返す手間を省く上で非常に重要です。
1万トークンのコンテキストウィンドウと長期記憶
最も話題になった技術的変化は クロード・オプス 4.6 彼の 最大100万トークンのコンテキストウィンドウ 開発者プラットフォーム上で。具体的には、大規模なコードファイル、契約書、技術文書、チャットログなどを、以前は面倒な作業だった人工的なブロックに分割することなく、作業できることを意味します。
この能力の飛躍的向上は、根本的な問題、いわゆる 「文脈の腐敗」セッションが長引くにつれて、多くのモデルは矛盾が生じ始め、以前の決定を忘れたり、最初の指示に従わなくなったりします。公開されたデータによると、Opus 4.6は、数十万語の中に隠された特定の情報を見つけなければならないテストにおいて、以前の世代よりもはるかに高い成功率を達成し、大幅に改善されています。
重要なのは、より多くのテキストを「保存」できるということではなく、 効果的に使うAnthropic は、このモデルは、監査、デューデリジェンス、広範囲にわたる法的レビュー、システム移行、欧州のコンサルタント会社や企業部門でよく行われるタスクなど、非常に長いやり取りでも論理的な一貫性を維持すると主張しています。
特に長時間のセッションの場合、システムには コンテキストの圧縮会話が定義されたしきい値に近づくと、モデルは最も古い部分を自動的に要約し、それを要約バージョンに置き換えます。これにより、最初に合意された主要な要素を失うことなく、作業を続行するためのスペースが解放されます。
適応的な思考と努力レベル:開発者のコントロール強化
このモデルに加えて、アントロピックは、 クロード開発者プラットフォーム AIの推論方法を調整する。いわゆる 適応的思考 これにより、システムは、単純な「拡張モードのはい/いいえ」スイッチで操作するのではなく、タスクに応じてどの程度の推論の深さを適用するかを決定できるようになります。
さらに、次のものが定義されています。 努力の4つのレベル 開発者はリクエストに応じて、低、中、高、最大といった4段階の調整が可能です。この「努力」コントロールにより、 インテリジェンス、レイテンシー、コスト些細なクエリの場合、最大限のリソースを費やすのは意味がありませんが、重要なタスクや複雑なプロジェクトの場合、モデルにさらに考える余地を与えることは価値がある場合があります。
これらのオプションは、欧州のSaaS、ERP統合、大企業の社内プラットフォームなど、毎日数千件ものAPI呼び出しが実行される環境で特に役立ちます。モデルが各リクエストにどれだけの労力を費やすかを決定できるため、本当に必要なときに品質を犠牲にすることなく、AIコストを管理しやすくなります。
並行して、プラットフォームには以下の機能が追加されます。 自動コンテキスト圧縮 これらのツールは、トークン制限に達した際の突然の中断を防ぎ、非常に長い作業セッションを維持するのに役立ちます。このようなきめ細かな管理は、高度なモデルを既存のシステムに統合する際にしばしば重要になります。
エージェントチームと大規模なコードベースでの作業
ソフトウェア開発の分野では、アントロピックは クロード・コード いわゆる エージェントチーム 現在調査中です。単一のエージェントを連続的に前進させるのではなく、複数のエージェントを投入するというアイデアです。 仕事を並行して分担する複数のサブエージェント そして、小規模なエンジニアリング チームのように結果を調整します。
このアプローチは、 大規模なリポジトリすべてのコードを線形的にレビューするのは非効率的です。サブエージェントは、さまざまなモジュールを処理し、相互参照を検索し、システムがデータをどのように移動するかを分析し、自動テストをレビューし、それらの結果を統合して一貫した結果を得ることができます。
と組み合わせて 1万トークンウィンドウこのシステムでは、少なくとも理論上は、プロジェクト全体をアップロードし、モデルに弱点、不整合、リスク領域を特定させることが可能です。ファイルを一つ一つ分解する必要はありません。スペインやEUで複雑な製品を管理している開発チームにとって、これは数日間の手作業によるレビュー作業の削減につながります。
Opus 4.6では、 コードレビューとデバッグモデルがプロセス中に自身のエラーを検出し修正する能力に重点を置いています。この動作が日常的に利用されるようになれば、開発者がAIによって提案されたコードのレビューに費やす時間を削減できます。
ベンチマーク:Claude Opus が優れている点 4.6
アントロピックは、 クロード・オプス 4.6 一連の 標準テスト モデルが直接の競合相手と比較して優れた成果を上げている。最もよく引用される例の一つは ターミナルベンチ 2.0は、コンソール環境でのエージェントプログラミングと自律作業に焦点を当てており、このモデルはランキングのトップに位置しています。
En 人類最後の試験Opus 4.6は、様々な分野からの複雑な問題を組み合わせた多分野にわたる推論テストにおいても、同社が提供したデータによると、他の最先端モデルよりも優れた成績を収めています。この種の評価は、単独の演習ではなく、より現実世界の状況に近い問題に対処するAIの能力を測定することを目的としています。
もう XNUMX つの関連する指標は、 GDP値-AA、次のような分野における価値の高い専門的タスクのパフォーマンスを評価します。 金融と法律この場合、Opus 4.6は市場で次に優れたモデルであるGPT-5.2よりも約 144 Eloポイント、そして前作よりもさらに大きな差で改善されています。
このモデルは、 ブラウズコンプオンラインで見つけにくい情報を見つけることに焦点を当てたテスト。ベンチマークは常に鵜呑みにすべきではないものの、データセットは特に強力なモデルを示している。 専門的な仕事、複雑な分析、精密な検索、欧州の銀行、コンサルタント会社、法律事務所、テクノロジー企業にとって重要な分野です。
Excel、PowerPoint、そしてオフィスワークへの飛躍
Opus 4.6はコードだけに焦点を当てているわけではありません。Anthropicは、次のような統合を強化しました。 事務AIが非技術系プロフェッショナルにとって日常的なツールになりつつある分野です。 エクセル新しいバージョンでは、次のような高度な機能も含め、一貫性を損なうことなく、より長く複雑なタスクを処理できます。 条件付き書式、データ検証、または複数段階の変更 大きなシートに。
このモデルは、アクションを実行する前に計画を立てることができるため、相互に関連した数式が多数含まれるワークブックを扱う際に連鎖的なエラーを防ぐことができます。さらに、 乱雑なデータ、合理的な構造を推測し、さらなる分析や視覚化の基盤を準備します。
もう一つの大きな新機能は、 パワーポイントのクロード現在準備段階にあり、主にMax、Team、Enterpriseプランのユーザーを対象としているこのバージョンは、 簡単なプロンプトから完全なプレゼンテーションを生成組織によって設定されたテンプレート、フォント、スタイルを維持しながら、既存のスライドを編集し、グラフを作成します。
実際には、月次レポートの作成、営業資料の修正、取締役会プレゼンテーションの更新といったタスクを、ツール自体を離れることなくAIがサポートできることを意味します。Microsoftエコシステムに慣れ親しんだ多くの欧州企業にとって、このような統合はどんなベンチマークよりも具体的です。
セキュリティ、サイバーセキュリティ、使用管理
AIモデルの能力が飛躍的に向上するたびに、次のような疑問が湧いてくる。 セキュリティと不正使用アントロピックは、Opus 4.6の発表の大部分をこの点に割いています。同社は、新しいモデルは以前のバージョンのアライメントレベルを維持し、さらに向上させていると述べており、 問題行動の発生率が低い 欺瞞、過度なお世辞、危険な目的への協力など。
通話の減少も確認されている 「過度のネガティブさ」これは、モデルが過剰な警戒心から無害な質問に答えることを拒否するケースです。欧州の規制枠組みの下で運営されている専門環境において、セキュリティとユーザビリティのバランスを取ることは、特に金融や医療といった規制の厳しい分野においては、繊細な問題です。
に関して サイバーセキュリティアントロピックは、より強力なモデルがシステムの防御と攻撃の両方に役立つことを認めており、 新しい内部プローブ 潜在的に有害な反応を検出するために。同時に、このモデルを利用して オープンソースソフトウェアの脆弱性を特定し修正する、守備の角度を強化します。
同社はまた、ユーザーの健康状態、危険なリクエストへの耐性、隠れた行動の検出に焦点を当てたテストを含む、より広範な評価バッテリーの適用についても言及しています。これらのデータの多くは独自の文書から得たものですが、Opus 4.6を機密性の高いプロセスに統合することを検討している企業にとって関連性のある情報です。
価格、提供状況、導入オプション
経済面では、 クロード・オプス 4.6 従来モデルと同じ価格帯を維持しており、これはOpus 4.5で既に試算済みの企業にとって重要な詳細です。標準コストは 入場トークン100万枚につき5ドル y 出口トークン100万枚あたり25ドルこれにより、このモデルは市場にある他のハイエンド システムと同等の性能を実現しています。
超過使用の場合 200.000万個のコンテキストトークンアントロピックは約 入ってくるトークン100万枚につき10ドル、出ていくトークン100万枚につき37,5ドル拡大されたウィンドウを最大限に活用するプロジェクト向けに設計されています。さらに、このモデルは 最大128.000の出口トークンこれは、長いレポート、大規模なリファクタリング、または一度に生成される一連のドキュメントなどが期待される場合に関係します。
Opus 4.6は claude.ai経由 独自のAPI そして、 主要なクラウドプラットフォームアマゾンやグーグルなどの企業向けサービスも提供しており、これらのインフラストラクチャ上に既に構築されている企業環境や、 ローカルAI居住地やデータ主権の要件を必要とする料金については、 米国のデータセンターでのみ処理されます。 トークンあたりの価格に約 10% の追加料金がかかります。
アクセスプランに関しては、PowerPointとの連携や特定の集中使用モードといった一部の高度な機能は、上位のサブスクリプションレベル(Max、Team、Enterprise)に限定されています。一方、無料アカウントのユーザーは、HaikuやSonnetといった軽量モデルを引き続きご利用いただけます。これは、エンタープライズ志向を強める製品のアプローチと一致しています。
これはヨーロッパの企業やスタートアップにとって何を意味するのでしょうか?
技術系スタートアップ、デジタル系中小企業、そして欧州の大企業にとって、 クロード・オプス 4.6 テンプレートをトリガーせずに高価値タスクを自動化するというプレッシャーが高まっている時代に登場しました。 エージェントプログラミング、1万トークンウィンドウ、ExcelやPowerPointなどのツール このモデルは、ワークフロー全体を再考するための真剣な選択肢として位置付けられます。
小規模なチームでは、モデルを頼りに 以前はより専門的なプロファイルを必要としていたプロジェクト複雑なコードベースの構築と保守から、顧客や規制当局向けの包括的なレポートの作成まで、大規模な組織にとってのメリットは、モデルを社内システムに統合し、現在熟練した専門家が担っている反復的な作業の一部をモデルに委ねられることです。
競争という点では、常に GPT-5.2とGemini 3 Pro これは、複数のハイレベルなサービスが日々の業務の中心となるために競争している市場を反映しています。各企業は、ベンチマークだけでなく、サービス条件、データの場所、自社ツールとの統合、そして特に規制要件の枠組みの中で、それらを評価する必要があります。 欧州AI法.
膨大なコンテキスト、細かく調整された推論制御、セキュリティの改善、プログラミングとオフィス アプリケーションへの明確な重点を組み合わせることで、Claude Opus 4.6 は、単純なデモンストレーション チャットボットのように動作することなく、長期プロジェクトや要求の厳しいタスクを処理できる AI を求める人々にとっての候補としての地位を確立しています。
上記のすべてを考慮すると、Anthropic の新しいモデルは、ますます混雑する AI 製品群の中のもう 1 つのピースになりそうですが、明確な視点を持っています。 コーディング、分析、ドキュメント作成におけるプロフェッショナルな業務をサポート比較的安定した価格を維持し、ますます厳しくなる欧州の規制環境において開発者と経営者の両方が期待する制御機能を追加します。