MicrosoftがPhiファミリーに新モデルを追加、マルチモーダル対応とテキスト特化型の2モデルを発表
スポンサーリンク
記事の要約
- MicrosoftがPhi-4-multimodalとPhi-4-miniを発表
- 音声・視覚・テキスト処理が可能な小規模言語モデル
- Azure AI Foundryなど3つのプラットフォームで利用可能
スポンサーリンク
MicrosoftがPhiファミリーに新モデルを追加、マルチモーダル対応を実現
Microsoftは2025年2月26日、小規模言語モデル(SLM)のPhiファミリーに新たに2つのモデルを追加したことを発表した。音声・視覚・テキスト処理が可能なPhi-4-multimodalと、テキストに特化したPhi-4-miniの2モデルが、Azure AI Foundry、HuggingFace、NVIDIA API Catalogで利用可能になった。[1]
Phi-4-multimodalは5.6Bパラメータのモデルで、音声認識や視覚情報処理、テキスト処理を単一のアーキテクチャで実現している。マルチモーダル処理を1つのモデルで実行できる点が特徴で、複雑なパイプラインや個別のモデルが不要になった。
一方のPhi-4-miniは3.8Bパラメータの軽量モデルながら、推論や数学、コーディングなどのテキストベースのタスクで高いパフォーマンスを発揮する。128,000トークンまでの長い文脈を扱えることも特徴で、効率的なAIアプリケーションの開発に貢献する。
Phiファミリーの新モデル仕様
モデル名 | パラメータ数 | 主な機能 | 特徴 |
---|---|---|---|
Phi-4-multimodal | 5.6B | 音声・視覚・テキスト処理 | 単一アーキテクチャでのマルチモーダル処理 |
Phi-4-mini | 3.8B | テキスト処理 | 128,000トークンの文脈処理 |
スポンサーリンク
小規模言語モデル(SLM)について
小規模言語モデル(SLM)とは大規模言語モデル(LLM)と比較して少ないパラメータ数で構成される言語モデルのことを指す。主な特徴として、以下の点が挙げられる。
- 軽量で高速な処理が可能
- エッジデバイスでの実行に適している
- 特定のタスクに特化した最適化が容易
小規模言語モデルは処理速度と効率性を重視した設計となっており、リソースの制約があるデバイスでも快適に動作することが可能。エッジコンピューティングやモバイルデバイスでのAI機能の実装に適している。
Phiファミリーの新モデルに関する考察
MicrosoftによるPhiファミリーの拡張は、小規模言語モデルの可能性を大きく広げる重要な一歩となった。特にPhi-4-multimodalが実現したマルチモーダル処理の統合は、複雑なシステムを単一のモデルで置き換えることを可能にし、開発効率の向上に大きく貢献するだろう。
今後の課題として、マルチモーダル処理の精度向上やリアルタイム性の確保が挙げられる。また、モデルサイズの最適化と処理能力のバランスを取ることも重要だが、MicrosoftのAI技術と開発リソースを活用することで、これらの課題は解決に向かうと考えられる。
将来的には、エッジデバイスでのAI処理がさらに普及することで、プライバシーを考慮したローカル処理やリアルタイムな応答が必要なアプリケーションの開発が加速すると予想される。Phiファミリーの進化は、そうした未来への重要な布石となるだろう。
参考サイト
- ^ Microsoft Azure. 「Empowering innovation: The next generation of the Phi family」. https://azure.microsoft.com/en-us/blog/empowering-innovation-the-next-generation-of-the-phi-family/, (参照 25-03-01).
- Microsoft. https://www.microsoft.com/ja-jp
- NVIDIA. https://www.nvidia.com/ja-jp/
※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。
- YOLO(You Only Look Once)とは?意味をわかりやすく簡単に解説
- XAI(説明可能なAI)とは?意味をわかりやすく簡単に解説
- Word2vecとは?意味をわかりやすく簡単に解説
- WideResNetとは?意味をわかりやすく簡単に解説
- WebSphereとは?意味をわかりやすく簡単に解説
- VGG(Visual Geometry Group)とは?意味をわかりやすく簡単に解説
- VisionTransformerとは?意味をわかりやすく簡単に解説
- W3C(World Wide Web Consortium)とは?意味をわかりやすく簡単に解説
- Watsonとは?意味をわかりやすく簡単に解説
- Watson Assistantとは?意味をわかりやすく簡単に解説
- 【CVE-2024-13483】LTL Freight Quotes – SAIA Editionに認証不要のSQLインジェクション脆弱性、データベースからの情報漏洩のリスクに
- 【CVE-2024-13438】SpeedSize Image & Video AI-Optimizerにクロスサイトリクエストフォージェリの脆弱性、管理者権限でキャッシュクリアが可能に
- GoogleがHubSpotとGoogle Chatの連携機能を発表、ビジネスコミュニケーションの効率化を実現
- GoogleがVoice SIP Link対応地域を15か国に拡大、グローバルコミュニケーション基盤の強化へ
- ブレインズテクノロジーが製造業向けAIエージェントを開発、非定型業務の自動化による技術者負担の軽減へ
- jinjerがBPOパートナーシップを拡大、人事労務業務の効率化とDX推進を加速
- ブランドスタジオハイライトが結晶化ブランディングを開始、AI時代の企業価値向上を支援する新手法として注目
- ベストプランナーが公式LINEメンテナンス保守サービスをリニューアル、月額1万円で運用効率と売上アップを実現
- 洋服の青山がLINE公式アカウントでAIエージェントを導入、60年の接客ノウハウをデジタル化し24時間体制でスーツ相談に対応
- エクスとフツパーが生産管理システムと人員配置AIの連携を開始、製造現場のDX推進による業務効率化を実現へ
スポンサーリンク