MetaがSAM 2を発表、画像と動画の物体分割にゼロショット汎化能力を実現

text: XEXEQ編集部

記事の要約

MetaがSAM 2を発表、画像と動画の物体分割に対応
Apache 2.0ライセンスでコードと重みを公開
SA-Vデータセットを公開、51,000本以上の動画を含む

MetaのSAM 2がもたらす画像・動画分割の革新

Metaは2024年7月29日、画像と動画の物体分割を統合的に行うモデル「Segment Anything Model 2（SAM 2）」を発表した。SAM 2は、前モデルSAMの成功を受けて開発された次世代モデルで、リアルタイムでのプロンプトベースの物体分割を可能にし、画像と動画の両方で最先端の性能を達成している。^[1]

SAM 2の特筆すべき点は、事前に学習していない物体や視覚ドメインでも分割が可能な「ゼロショット汎化」能力である。この能力により、カスタム適応なしに多様な用途に適用できる柔軟性を持つ。Metaはオープンサイエンスのアプローチを踏襲し、Apache 2.0ライセンスの下でコードとモデルの重みを公開している。

さらに、SAM 2の開発に使用されたSA-Vデータセットも公開された。このデータセットには約51,000本の実世界の動画と60万以上のマスクレット（時空間マスク）が含まれており、既存の最大の動画分割データセットと比較して4.5倍の動画数と53倍のアノテーション数を誇る。CC BY 4.0ライセンスで公開されており、研究者やデベロッパーが自由に利用できる。

	SAM 2	SA-Vデータセット	ウェブデモ
主な特徴	画像・動画統合分割	大規模動画データ	インタラクティブ体験
公開ライセンス	Apache 2.0	CC BY 4.0	非公開
用途	多様なAI応用	モデル学習・評価	技術デモンストレーション
革新点	ゼロショット汎化	アノテーション数	リアルタイム処理

ゼロショット汎化について

ゼロショット汎化とは、AIモデルが事前に学習していないカテゴリーや状況に対しても適切に対応できる能力のことを指しており、主な特徴として以下のような点が挙げられる。

未学習のタスクや対象に対する適応力
学習データの制約を超えた柔軟な応用
新しい状況下での即時的な問題解決能力

ゼロショット汎化は、従来のAIモデルが直面していた「学習データに縛られる」という制約を打破する革新的な能力である。この能力により、SAM 2は様々な産業分野や研究領域で、事前の再学習やファインチューニングなしに幅広いタスクに適用できる。特に、新しい物体や環境に遭遇した際の即時的な対応が可能となり、AIの実用性と応用範囲を大きく拡大させる可能性を秘めている。

SAM 2に関する考察

SAM 2の登場により、動画処理の分野で新たな課題が浮上する可能性がある。特に、リアルタイム処理におけるハードウェアの負荷や、プライバシーに関する懸念が挙げられる。動画内の全ての物体をリアルタイムで分割・追跡できる技術は、監視システムや個人情報の取り扱いに関して、新たな倫理的・法的議論を喚起する可能性があるだろう。

今後SAM 2に追加してほしい機能としては、マルチモーダル学習の強化が挙げられる。画像と動画の分割に加え、音声や自然言語との統合的な理解を可能にすることで、より高度なシーン理解や文脈に基づいた物体分割が実現できるかもしれない。また、エッジデバイスでの効率的な動作を可能にする軽量化版の開発も期待されるところだ。

SAM 2の今後に期待したいのは、オープンソースコミュニティとの更なる連携強化である。Metaが公開したコードとデータセットを基に、世界中の研究者や開発者がSAM 2を改良し、新たな応用領域を開拓していくことが望まれる。特に、医療画像診断や自動運転など、高度な物体認識が求められる分野での活用が進めば、社会に大きなインパクトをもたらすだろう。

参考サイト

^ Meta. 「Introducing SAM 2: The next generation of Meta Segment Anything Model for videos and images」. https://ai.meta.com/blog/segment-anything-2/, (参照 24-08-01).
Meta. https://about.meta.com/ja/

※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。