公開:

CosineのAIモデルGenieがSWE-Benchで過去最高スコアを達成、OpenAIと提携しさらなる進化へ

text: XEXEQ編集部
(記事は執筆時の情報に基づいており、現在では異なる場合があります)

CosineのAIモデルGenieがSWE-Benchで過去最高スコアを達成、OpenAIと提携しさらなる進化へ

PR TIMES より


記事の要約

  • CosineがSWE-Benchで過去最高スコアを記録
  • OpenAIと提携しGPT-4をファインチューニング
  • DGDVがCosineに投資、Y Combinatorで選出

CosineのAIモデルGenieがSWE-Benchで過去最高スコアを達成

株式会社DG Daiwa Venturesは、投資先のCosineがAIモデルのソフトウェアエンジニアリング能力を評価するSWE-Benchで過去最高スコアを記録したことを2024年9月3日に発表した。CosineのAIモデルGenieは30.08%のスコアを達成し、従来の世界スコア19%を大幅に上回る結果となった。[1]

Genieはエンジニアの実際の業務における思考や判断を独自の技術で学習しているため、人間のエンジニアと同様に論理的な問題解決が可能だ。この特徴により、単純に既存のLLMに大量のデータを学習させる方法よりも優れた性能を発揮することができる。

さらに、CosineはOpenAIとの提携も発表し、GPT-4をファインチューニングしたモデルもリリースしている。このモデルもSWE-Benchで高い性能を記録しており、Cosineの技術力の高さを示している。CosineはDGDVが招待を受けて参加したY Combinator W23の選出企業でもある。

CosineのAIモデルGenieの特徴まとめ

Genie 従来のLLM
SWE-Benchスコア 30.08% 19%
学習方法 エンジニアの思考・判断を独自技術で学習 大量のデータを単純に学習
問題解決能力 人間のエンジニアと同様の論理的解決 データベースに基づく解決
OpenAIとの関係 GPT-4をファインチューニング なし
Cosineの詳細はこちら

SWE-Benchについて

SWE-Benchとは、AIモデルのソフトウェアエンジニアリング能力を評価する世界的な業界ベンチマークのことを指しており、主な特徴として以下のような点が挙げられる。

  • ソフトウェアエンジニアの日常業務に基づく評価
  • 問題の深掘り能力を測定
  • 関連コードの発見と活用能力を評価

SWE-Benchは、AIモデルがソフトウェア開発の実践的なタスクをどれだけ効果的に遂行できるかを測定する重要な指標となっている。CosineのGenieが達成した30.08%という高スコアは、AIモデルのソフトウェアエンジニアリング能力が人間のエンジニアに近づきつつあることを示唆している。

CosineのAIモデルGenieに関する考察

CosineのAIモデルGenieがSWE-Benchで記録した30.08%という高スコアは、AIのソフトウェア開発能力が飛躍的に向上していることを示している。特に、エンジニアの思考プロセスを学習する独自のアプローチは、より人間らしい問題解決能力をAIに付与する可能性を秘めており、今後のAI開発の新たな方向性を示唆しているだろう。

一方で、AIの能力向上に伴い、ソフトウェアエンジニアの役割や必要スキルセットの変化が予想される。AIが基本的なコーディングタスクを担うようになれば、人間のエンジニアはより高度な設計やアーキテクチャの構築、AIとの効果的な協働方法の習得に注力する必要が出てくるかもしれない。

今後、CosineのようなAI企業とOpenAIのような大手AI企業との提携が増加することで、AIの能力がさらに向上し、ソフトウェア開発の効率化が進むことが期待される。同時に、AIの倫理的な使用やAIが生成したコードの品質保証など、新たな課題にも取り組む必要があるだろう。

参考サイト

  1. ^ PR TIMES. 「投資先のCosineがOpenAIとの提携を発表-AIモデルのソフトウェアエンジニアリング能力を評価するSWE-Benchで過去最高スコアを記録 | 株式会社DG Daiwa Venturesのプレスリリース」. https://prtimes.jp/main/html/rd/p/000000070.000076641.html, (参照 24-09-04).

※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。

「AI」に関するコラム一覧「AI」に関するニュース一覧
ブログに戻る

コメントを残す

コメントは公開前に承認される必要があることにご注意ください。