AnthropicがClaude 3.5をアップデート、AIの自律的なコンピューター操作機能を実現し開発効率が向上へ

text: XEXEQ編集部
（記事は執筆時の情報に基づいており、現在では異なる場合があります）

記事の要約

AnthropicがClaude 3.5 Sonnetを刷新し新機能を追加
新モデルClaude 3.5 Haikuを導入し性能を向上
コンピューター使用機能をベータ版で公開開始

AnthropicがClaude 3.5の進化を加速するアップデートを発表

Anthropicは2024年10月23日、大規模言語モデル Claude 3.5 Sonnetの大幅な刷新と新モデルClaude 3.5 Haikuの導入を発表した。Claude 3.5 Sonnetには人間のようにコンピューターを操作できる新機能「コンピューター使用」が追加され、スクリーンの確認やカーソル移動、ボタンのクリック、テキスト入力などが可能になっている。^[1]

Claude 3.5 Sonnetはコーディングスキルが大幅に向上し、SWE-bench Verifiedで49.0%のスコアを達成して公開されているモデルの中で最高性能を記録した。また、TAU-benchのツール使用タスクでも小売分野で69.2%、航空分野で46.0%と高いスコアを記録している。

Claude 3.5 Haikuは従来のClaude 3 Opusと同等のコストでより高い性能を実現し、SWE-bench Verifiedで40.6%のスコアを達成している。また、レイテンシーの低さや命令への正確な従順性、ツールの効果的な使用など、ユーザー向け製品に適した特性を備えている。

Claude 3.5シリーズの機能まとめ

	Claude 3.5 Sonnet	Claude 3.5 Haiku
主な特徴	コンピューター使用機能追加	低レイテンシー実現
性能評価	SWE-bench Verified 49.0%	SWE-bench Verified 40.6%
推奨用途	開発・テスト自動化	ユーザー向け製品開発

コンピューター使用機能について

コンピューター使用機能とは、AIモデルが人間のようにコンピューターインターフェースを操作できる新しい機能のことを指す。主な特徴として以下のような点が挙げられる。

スクリーン確認とカーソル操作が可能
ボタンクリックやテキスト入力に対応
一般的なソフトウェアやツールを使用可能

Claude 3.5 Sonnetに実装されたコンピューター使用機能はOSWorldの評価で14.9%のスコアを達成し、次点の7.8%を大きく上回る性能を示している。ただし現段階では実験的な機能であり、スクロールやドラッグ、ズームなどの操作には課題が残されているため、開発者にはリスクの低いタスクから試用を始めることが推奨される。

Claude 3.5シリーズに関する考察

Claude 3.5シリーズのアップデートは、AIモデルの操作性と実用性を大きく向上させる画期的な進化となっている。特にコンピューター使用機能の実装は、AIによる自動化の可能性を大きく広げ、開発者の生産性向上に貢献することが期待できるだろう。

一方で、セキュリティやプライバシーの観点から新たなリスクが生じる可能性も考えられる。スパムや誤情報の拡散、不正利用などの対策として、Anthropicが開発したクラシファイアによる監視と制御が重要な役割を果たすことになるだろう。

今後は、現在実験段階にあるコンピューター使用機能の完成度向上が期待される。スクロールやドラッグなどの基本操作の改善に加え、より複雑なタスクへの対応や、他のAIモデルとの連携機能の実装なども視野に入れた発展が望まれる。

参考サイト

^ Anthropic. 「Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku Anthropic」. https://www.anthropic.com/news/3-5-models-and-computer-use, (参照 24-10-24).

※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。