MetaがSAM 3とSAM 3Dを発表:新世代のビジュアルAI


アプリケーションとソフトウェア
2025-11-27T11:52:23+01:00

最終更新日: 2025年11月27日
  • SAM 3 では、何百万もの概念の語彙を使用して、テキストと視覚的な例によってガイドされる画像とビデオのセグメンテーションが導入されています。
  • SAM 3D を使用すると、オープン モデルを使用して、単一の画像からオブジェクト、シーン、人体を 3D で再構築できます。
  • Segment Anything Playground では、実用的かつクリエイティブなテンプレートを使用して、技術的な知識がなくてもモデルをテストできます。
  • Meta は、重み、チェックポイント、新しいベンチマークをリリースし、ヨーロッパおよび世界のその他の地域の開発者や研究者がこれらの機能をプロジェクトに統合できるようにします。

サム3D

メタは、 コンピュータービジョンに応用された人工知能SAM 3およびSAM 3Dの発売セグメントエニシングファミリーを拡張する2つのモデルと 彼らは写真やビデオの扱い方を変えることを目指している同社は、これらのツールを研究室の実験のままにしておくのではなく、専門家と技術的知識のないユーザーの両方が利用できるようにしたいと考えています。

この新世代では、Metaは 物体検出とセグメンテーションの改善 そして、 より幅広い視聴者に向けた3次元再構成同社は、スペインおよびヨーロッパの他の地域でのeコマース向けビデオ編集から製品ビジュアル化まで、 やりたいことを言葉で説明するだけで、AI が面倒な作業のほとんどをこなしてくれます。.

SAM 3 は以前のバージョンと比べて何を提供していますか?

SAM 3は直接的な進化として位置付けられている Metaが2023年と2024年に発表したセグメンテーション モデルはSAM 1とSAM 2と呼ばれていました。これらの初期バージョンでは、主にドット、ボックス、マスクなどの視覚的な手がかりを使用して、どのピクセルが各オブジェクトに属しているかを識別することに重点を置いていました。SAM 2の場合は、ビデオ全体でほぼリアルタイムでオブジェクトを追跡しました。

重要な新しい開発は、SAM 3が理解していることだ。 豊富で正確なテキストプロンプト一般的なラベルだけではありません。以前は「車」や「バス」といった単純な用語が使用されていましたが、新しいモデルは「黄色いスクールバス」や「二重駐車の赤い車」といった、より具体的な説明にも対応できるようになりました。

実際には、次のように書けば十分です。 「赤い野球帽」 これにより、システムは画像や動画内で説明に合致するすべての要素を特定し、分離することができます。この言葉による絞り込み機能は、特に以下のような場合に便利です。 プロの編集コンテキスト、広告やコンテンツ分析など、非常に具体的な詳細を確認する必要があることがよくあります。

さらに、SAM 3は、 大規模マルチモーダル言語モデルこれにより、単純なフレーズを超えて、次のような複雑な指示を使用できるようになります。 「座っているのに赤い帽子をかぶっていない人」 あるいは「カメラを見ているがリュックサックを背負っていない歩行者」などです。この種の指示は、最近までコンピュータービジョンツールに翻訳するのが困難だった条件と除外事項を組み合わせています。

SAM 3モデルのパフォーマンスとスケール

メタはまた、目に見えないが重要な部分を強調したかった。 技術的パフォーマンスと知識のスケール 同社のデータによると、SAM 3はH200 GPUを使用して、100個以上のオブジェクトが検出された単一の画像を約30ミリ秒で処理することができ、これは要求の厳しいワークフローに必要な速度に非常に近いものです。

ビデオの場合、同社はシステムがパフォーマンスを維持することを保証している。 ほぼリアルタイムで 約 5 つのオブジェクトを同時に操作する場合に、短いソーシャル メディア クリップからより野心的な制作プロジェクトまで、動くコンテンツの追跡とセグメント化が可能になります。

この行動を実現するために、Metaは 4万のユニークなコンセプト人間の注釈者と AI モデルを組み合わせて大量のデータのラベル付けを支援するこの手動と自動の監視の組み合わせは、精度と規模のバランスをとることを目的としています。これは、モデルがヨーロッパ、ラテンアメリカ、その他の市場コンテキストにおける多様な入力に適切に対応できるようにするための鍵となります。

同社はSAM 3を次のように定義している。 セグメント化コレクションAIの視覚理解能力を拡張するために設計されたモデル、ベンチマーク、リソースのファミリー。今回のリリースでは、「オープンボキャブラリー」セグメンテーションの新しいベンチマークも公開され、システムが自然言語で表現されたほぼあらゆる概念をどの程度理解できるかを測定することに重点を置いています。

編集、バイブ、その他のメタツールとの統合

技術的な部分を超えて、Metaはすでに SAM 3を特定の製品に統合する 日常使用を目的とした製品です。 最初の目的地の一つは編集ですは、ビデオ作成および編集アプリケーションであり、ユーザーは簡単なテキストの説明を使用して特定の人物またはオブジェクトを選択し、映像のその部分にのみエフェクト、フィルター、または変更を適用できるというアイデアです。

統合のもう一つの道は、 Meta AIアプリとmeta.aiプラットフォーム内のVibesこの環境では、テキストのセグメンテーションと生成ツールが組み合わされ、スペインやその他のヨーロッパ諸国で非常に人気のあるソーシャル ネットワーク向けに設計されたカスタム背景、モーション効果、選択的な写真の修正など、新しい編集およびクリエイティブなエクスペリエンスが生まれます。

同社の提案は、これらの能力が専門的な研究に限定されるのではなく、…にまで及ぶというものである。 独立したクリエイター、小規模な代理店、上級ユーザー 視覚コンテンツを日常的に扱う人々にとって、自然言語で説明を書き込むことでシーンをセグメント化できる機能は、従来の手動マスクやレイヤーに基づくツールに比べて、学習曲線を短縮します。

同時に、Metaは外部開発者に対してオープンなアプローチを維持しており、 サードパーティ製アプリケーション 編集ツールから小売業やセキュリティにおけるビデオ分析ソリューションまで、企業の使用ポリシーが尊重されている限り、SAM 3 を活用できます。

SAM 3D: 単一画像からの3次元再構築

もう一つの大きなニュースは サム3D実行するように設計されたシステム 3次元再構成 2D画像から開始します。異なる角度から複数回キャプチャする代わりに、このモデルは1枚の写真から信頼性の高い3D表現を生成することを目指しており、これは特別なスキャン機器やワークフローを持たない人にとって特に興味深いものです。

SAM 3D は、異なる機能を持つ 2 つのオープンソース モデルで構成されています。 SAM 3Dオブジェクトオブジェクトとシーンの再構築に焦点を当て、 SAM 3Dボディ人間の体型や形状を推定することを目的としています。この分離により、製品カタログから健康やスポーツのアプリケーションまで、非常に多様なユースケースにシステムを適応させることができます。

Metaによれば、SAM 3Dオブジェクトは AIガイドによる3D再構築における新たなパフォーマンスベンチマーク主要な品質指標において、従来の手法をはるかに上回っています。結果をより厳密に評価するために、同社はアーティストと協力してSAM 3D Artist Objectsを作成しました。これは、多種多様な画像やオブジェクトの再構成における忠実度と詳細度を評価するために特別に設計されたデータセットです。

この進歩は、次のような分野での実用化への扉を開く。 ロボット工学、科学、スポーツ医学、デジタル創造性たとえば、ロボット工学では、システムが相互作用するオブジェクトの体積をより正確に把握するのに役立ちます。医療やスポーツの研究では、体の姿勢や動きを分析するのに役立ちます。クリエイティブ デザインでは、アニメーション、ビデオ ゲーム、没入型体験用の 3D モデルを生成するための基礎として役立ちます。

すでに目に見える最初の商用アプリケーションの一つは、 「客室からの眺め」 de Facebookマーケットプレイス家具や装飾品を購入する前に、実際の部屋でどのように見えるかを視覚的に確認できます。SAM 3Dでは、 Metaは、このようなタイプの体験を完璧にすることを目指していますこれは、期待が満たされなかったために製品を返品するとコストが増大する欧州の電子商取引に非常に関連しています。

Segment Anything Playground: 実験のための環境

何もインストールせずにこれらの機能を一般の人がテストできるようにするために、Metaは セグメント化のあらゆる遊び場これは、画像や動画をアップロードしてブラウザから直接SAM 3とSAM 3Dを試すことができるウェブプラットフォームです。ビジュアルAIに興味のある人なら誰でも、プログラミングの知識がなくても、その可能性を探ることができるという理念に基づいています。

SAM 3の場合、プレイグラウンドでは、 短いフレーズまたは詳細な指示テキストと、必要に応じてビジュアルサンプルを組み合わせることで、人物、車、動物、あるいはシーン内の特定の要素を選択し、美的効果からぼかしや背景の置き換えまで、特定のアクションを適用するといった一般的なタスクを簡素化できます。

SAM 3Dを使用すると、プラットフォームによって次のことが可能になります。 新しい視点からシーンを探索するオブジェクトの並べ替え、3D効果の適用、または別のビューの生成が可能です。デザイン、広告、3Dコンテンツ制作に携わる方にとって、複雑な技術ツールを最初から使用することなく、アイデアのプロトタイプを迅速に作成できます。

プレイグラウンドには、 すぐに使えるテンプレート これらの機能は、非常に特定のタスク向けに設計されています。プライバシー保護のために顔やナンバープレートをピクセル化するといった実用的なオプションや、モーショントレイル、選択的なハイライト、動画内の注目エリアへのスポットライトといった視覚効果などが含まれます。これらの機能は、短編動画やソーシャルメディアコンテンツの制作が盛んなスペインのデジタルメディアやコンテンツクリエイターのワークフローに特に適しています。

開発者と研究者のためのオープンリソース

Metaが他のAIリリースで採用してきた戦略に沿って、同社はAIの重要な部分をリリースすることを決定しました。 SAM 3およびSAM 3Dに関連する技術リソースまず、モデルの重み、オープン語彙セグメンテーションに重点を置いた新しいベンチマーク、およびその開発の詳細を説明した技術文書が公開されました。

SAM 3Dの場合、以下が利用可能です。 モデルチェックポイント、推論コード、評価データセット 次世代。このデータセットには、従来の3D参照点を超える、よりリアルで複雑な画像やオブジェクトが豊富に含まれており、コンピュータービジョンやグラフィックスを研究するヨーロッパの研究グループにとって非常に役立つものとなるでしょう。

Metaはまた、開発者や企業が 独自のデータを入力してSAM 3を調整します 特定のニーズに合わせて、産業検査から都市交通分析、さらには建築要素や芸術要素を正確にセグメント化することが重要な文化遺産プロジェクトまで、分野固有のソリューションへの道を開きます。

比較的オープンなアプローチを選択することで、同社は開発者エコシステム、 大学とスタートアップ スペインやその他のヨーロッパ諸国で事業を展開している企業も含め、Meta はこれらのテクノロジーを試用し、自社製品に統合して、最終的には Meta が社内で開発できる範囲を超えたユースケースに貢献することができます。

SAM 3とSAM 3Dにより、Metaは より柔軟でアクセスしやすいビジュアルAIプラットフォームテキスト誘導によるセグメンテーションや単一画像からの3D再構成は、もはや高度に専門化されたチームだけの能力ではありません。その潜在的な影響は、日常的なビデオ編集から科学、産業、eコマースにおける高度なアプリケーションにまで及びます。言語、コンピュータービジョン、そして創造性の組み合わせが、単なる技術的な約束事ではなく、標準的な作業ツールになりつつある状況において、その影響は計り知れません。