公開:

NTT ComがIOWN APNによる3拠点分散GPU環境でtsuzumiの学習に世界初成功、単一拠点と同等の性能を実証

text: XEXEQ編集部
(記事は執筆時の情報に基づいており、現在では異なる場合があります)


記事の要約

  • NTT ComがIOWN APNで3拠点のGPUクラスタ構築に成功
  • NVIDIA NeMoを用いたtsuzumiの分散学習を世界初実現
  • 単一拠点と同等の性能を実証、電力効率も向上

NTT ComがIOWN APNによる3拠点分散GPU環境でLLM学習に成功

NTTコミュニケーションズは2025年3月19日、IOWN構想の主要技術であるオールフォトニクスネットワークで接続した3拠点のデータセンターにNVIDIA H100 GPUサーバーを分散配置し、NTT版大規模言語モデルtsuzumiの学習実証実験に世界で初めて成功したことを発表した。この実証実験では複数拠点間でのGPUリソースの最適化と電力効率の向上を実現している。[1]

約25~50km離れた川崎、三鷹、秋葉原の3拠点のデータセンターに配置されたNVIDIAアクセラレーテッドサーバーは、100Gbps回線のIOWN APNで接続されており、NVIDIA NeMoを使用してtsuzumiモデル7Bの分散学習を実施することに成功した。単一データセンターと比較して処理時間は1.105倍に抑えられ、ほぼ同等の性能を実現している。

この成果を基に、NTT Comは国内70拠点以上のデータセンター間やユーザービルを接続可能な「APN専用線プラン powered by IOWN」と、液冷方式サーバーに対応した超省エネ型データセンターサービス「Green Nexcenter」を組み合わせたGPUクラウドソリューションの提供を目指している。GPUリソースの最適化と持続可能な運用を実現する新たな基盤として期待が高まっている。

分散GPU環境による学習実験の結果

IOWN APN TCP通信 単一データセンター
処理時間比率 1.105倍 9.187倍 1.0倍(基準)
接続帯域 100Gbps 帯域制限あり ローカル接続

オールフォトニクスネットワークについて

オールフォトニクスネットワーク(APN)とは、IOWN構想における主要技術の一つで、超高速かつ超低消費電力を実現するネットワークアーキテクチャを指す。以下のような特徴を持っている。

  • 光電気変換を最小限に抑えた高効率なデータ転送
  • 超低遅延での大容量データ通信が可能
  • 従来のネットワークと比較して大幅な省電力化を実現

APNは分散配置されたGPUサーバー間のデータ転送を迅速かつ効率的に行うことができ、AIモデルの学習や推論処理において単一データセンターと遜色ない性能を発揮する。複数のデータセンター環境でGPUクラスタを柔軟に構築し、効率的なリソース利用を可能にすることで、大規模AIモデルの学習基盤として重要な役割を果たしている。

分散GPU環境によるAIモデル学習に関する考察

分散GPU環境の構築に成功したことで、単一データセンターでは困難だった大規模なAIモデルの効率的な学習が可能になった。電力供給量や価格に応じて柔軟な運用パターンを選択できるようになり、持続可能なAI開発基盤としての価値が高まっている。

今後は拠点数の増加や距離の延伸に伴い、通信遅延やリソース管理の複雑化が課題となる可能性がある。APNで接続された分散データセンターにおける通信方法やGPUリソースの最適化が重要になってくるだろう。

将来的には国内70拠点以上への展開が計画されており、GPUクラウドソリューションとしての発展が期待される。分散GPU環境の実用化は、持続可能なAI開発インフラの構築に向けた重要な一歩となるだろう。

参考サイト

  1. ^ NTT. 「AI社会の実現に向けた、IOWN APNによるGPUの3拠点分散データセンター構築を世界で初めて成功」. https://www.ntt.com/about-us/press-releases/news/article/2025/0319.html, (参照 25-03-22).
  2. 5027
  3. NVIDIA. https://www.nvidia.com/ja-jp/

※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。

「AI」に関するコラム一覧「AI」に関するニュース一覧
アーカイブ一覧
AIに関する人気タグ
AIに関するカテゴリ
ブログに戻る

コメントを残す

コメントは公開前に承認される必要があることにご注意ください。