公開:

MicrosoftがPhiファミリーに新モデルを追加、マルチモーダル対応とテキスト特化型の2モデルを発表

text: XEXEQ編集部
(記事は執筆時の情報に基づいており、現在では異なる場合があります)


記事の要約

  • MicrosoftがPhi-4-multimodalとPhi-4-miniを発表
  • 音声・視覚・テキスト処理が可能な小規模言語モデル
  • Azure AI Foundryなど3つのプラットフォームで利用可能

MicrosoftがPhiファミリーに新モデルを追加、マルチモーダル対応を実現

Microsoftは2025年2月26日、小規模言語モデル(SLM)のPhiファミリーに新たに2つのモデルを追加したことを発表した。音声・視覚・テキスト処理が可能なPhi-4-multimodalと、テキストに特化したPhi-4-miniの2モデルが、Azure AI Foundry、HuggingFace、NVIDIA API Catalogで利用可能になった。[1]

Phi-4-multimodalは5.6Bパラメータのモデルで、音声認識や視覚情報処理、テキスト処理を単一のアーキテクチャで実現している。マルチモーダル処理を1つのモデルで実行できる点が特徴で、複雑なパイプラインや個別のモデルが不要になった。

一方のPhi-4-miniは3.8Bパラメータの軽量モデルながら、推論や数学、コーディングなどのテキストベースのタスクで高いパフォーマンスを発揮する。128,000トークンまでの長い文脈を扱えることも特徴で、効率的なAIアプリケーションの開発に貢献する。

Phiファミリーの新モデル仕様

モデル名 パラメータ数 主な機能 特徴
Phi-4-multimodal 5.6B 音声・視覚・テキスト処理 単一アーキテクチャでのマルチモーダル処理
Phi-4-mini 3.8B テキスト処理 128,000トークンの文脈処理

小規模言語モデル(SLM)について

小規模言語モデル(SLM)とは大規模言語モデル(LLM)と比較して少ないパラメータ数で構成される言語モデルのことを指す。主な特徴として、以下の点が挙げられる。

  • 軽量で高速な処理が可能
  • エッジデバイスでの実行に適している
  • 特定のタスクに特化した最適化が容易

小規模言語モデルは処理速度と効率性を重視した設計となっており、リソースの制約があるデバイスでも快適に動作することが可能。エッジコンピューティングやモバイルデバイスでのAI機能の実装に適している。

Phiファミリーの新モデルに関する考察

MicrosoftによるPhiファミリーの拡張は、小規模言語モデルの可能性を大きく広げる重要な一歩となった。特にPhi-4-multimodalが実現したマルチモーダル処理の統合は、複雑なシステムを単一のモデルで置き換えることを可能にし、開発効率の向上に大きく貢献するだろう。

今後の課題として、マルチモーダル処理の精度向上やリアルタイム性の確保が挙げられる。また、モデルサイズの最適化と処理能力のバランスを取ることも重要だが、MicrosoftのAI技術と開発リソースを活用することで、これらの課題は解決に向かうと考えられる。

将来的には、エッジデバイスでのAI処理がさらに普及することで、プライバシーを考慮したローカル処理やリアルタイムな応答が必要なアプリケーションの開発が加速すると予想される。Phiファミリーの進化は、そうした未来への重要な布石となるだろう。

参考サイト

  1. ^ Microsoft Azure. 「Empowering innovation: The next generation of the Phi family」. https://azure.microsoft.com/en-us/blog/empowering-innovation-the-next-generation-of-the-phi-family/, (参照 25-03-01).
  2. Microsoft. https://www.microsoft.com/ja-jp
  3. NVIDIA. https://www.nvidia.com/ja-jp/

※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。

「AI」に関するコラム一覧「AI」に関するニュース一覧
アーカイブ一覧
AIに関する人気タグ
AIに関するカテゴリ
ブログに戻る

コメントを残す

コメントは公開前に承認される必要があることにご注意ください。