CosineのAIモデルGenieがSWE-Benchで過去最高スコアを達成、OpenAIと提携しさらなる進化へ

PR TIMES より
スポンサーリンク
記事の要約
- CosineがSWE-Benchで過去最高スコアを記録
- OpenAIと提携しGPT-4をファインチューニング
- DGDVがCosineに投資、Y Combinatorで選出
スポンサーリンク
CosineのAIモデルGenieがSWE-Benchで過去最高スコアを達成
株式会社DG Daiwa Venturesは、投資先のCosineがAIモデルのソフトウェアエンジニアリング能力を評価するSWE-Benchで過去最高スコアを記録したことを2024年9月3日に発表した。CosineのAIモデルGenieは30.08%のスコアを達成し、従来の世界スコア19%を大幅に上回る結果となった。[1]
Genieはエンジニアの実際の業務における思考や判断を独自の技術で学習しているため、人間のエンジニアと同様に論理的な問題解決が可能だ。この特徴により、単純に既存のLLMに大量のデータを学習させる方法よりも優れた性能を発揮することができる。
さらに、CosineはOpenAIとの提携も発表し、GPT-4をファインチューニングしたモデルもリリースしている。このモデルもSWE-Benchで高い性能を記録しており、Cosineの技術力の高さを示している。CosineはDGDVが招待を受けて参加したY Combinator W23の選出企業でもある。
CosineのAIモデルGenieの特徴まとめ
Genie | 従来のLLM | |
---|---|---|
SWE-Benchスコア | 30.08% | 19% |
学習方法 | エンジニアの思考・判断を独自技術で学習 | 大量のデータを単純に学習 |
問題解決能力 | 人間のエンジニアと同様の論理的解決 | データベースに基づく解決 |
OpenAIとの関係 | GPT-4をファインチューニング | なし |
スポンサーリンク
SWE-Benchについて
SWE-Benchとは、AIモデルのソフトウェアエンジニアリング能力を評価する世界的な業界ベンチマークのことを指しており、主な特徴として以下のような点が挙げられる。
- ソフトウェアエンジニアの日常業務に基づく評価
- 問題の深掘り能力を測定
- 関連コードの発見と活用能力を評価
SWE-Benchは、AIモデルがソフトウェア開発の実践的なタスクをどれだけ効果的に遂行できるかを測定する重要な指標となっている。CosineのGenieが達成した30.08%という高スコアは、AIモデルのソフトウェアエンジニアリング能力が人間のエンジニアに近づきつつあることを示唆している。
CosineのAIモデルGenieに関する考察
CosineのAIモデルGenieがSWE-Benchで記録した30.08%という高スコアは、AIのソフトウェア開発能力が飛躍的に向上していることを示している。特に、エンジニアの思考プロセスを学習する独自のアプローチは、より人間らしい問題解決能力をAIに付与する可能性を秘めており、今後のAI開発の新たな方向性を示唆しているだろう。
一方で、AIの能力向上に伴い、ソフトウェアエンジニアの役割や必要スキルセットの変化が予想される。AIが基本的なコーディングタスクを担うようになれば、人間のエンジニアはより高度な設計やアーキテクチャの構築、AIとの効果的な協働方法の習得に注力する必要が出てくるかもしれない。
今後、CosineのようなAI企業とOpenAIのような大手AI企業との提携が増加することで、AIの能力がさらに向上し、ソフトウェア開発の効率化が進むことが期待される。同時に、AIの倫理的な使用やAIが生成したコードの品質保証など、新たな課題にも取り組む必要があるだろう。
参考サイト
- ^ PR TIMES. 「投資先のCosineがOpenAIとの提携を発表-AIモデルのソフトウェアエンジニアリング能力を評価するSWE-Benchで過去最高スコアを記録 | 株式会社DG Daiwa Venturesのプレスリリース」. https://prtimes.jp/main/html/rd/p/000000070.000076641.html, (参照 24-09-04).
※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。
- PPDとは?意味をわかりやすく簡単に解説
- PPC広告とは?意味をわかりやすく簡単に解説
- PPAP(Production Part Approval Process)とは?意味をわかりやすく簡単に解説
- POSシステムとは?意味をわかりやすく簡単に解説
- Operating System(OS)とは?意味をわかりやすく簡単に解説
- OpenPoseとは?意味をわかりやすく簡単に解説
- OpenAIとは?意味をわかりやすく簡単に解説
- OpenAI APIとは?意味をわかりやすく簡単に解説
- PDM(Product Data Management)とは?意味をわかりやすく簡単に解説
- OR検索とは?意味をわかりやすく簡単に解説
- MicrosoftがTeamsの8月アップデートを発表、Copilot活用とチャンネルカードでコミュニケーション効率が向上
- GoogleがChrome Stableチャネルをアップデート、WebAudioとV8の重大な脆弱性に対処
- Tsurugi 1.0.0(GA版)がリリース、SQL機能拡張とトランザクションログ圧縮機能の試験的導入で性能向上
- 東京メトロが訪日外国人向け多言語観光アプリ「Tokyo Metro For Tourists」を配信開始、6言語対応で東京観光の利便性が向上
- KDDIなど4社が3D点群データのリアルタイム伝送に成功、トンネル建設現場の施工管理効率化へ前進
- NTTコミュニケーションズがスマートシティ デジタル実装コミュニティを発足、グリーンでサステナブルな街づくりを推進
- 【CVE-2024-43950】nextbricksのWordPress用bricksoreにクロスサイトスクリプティングの脆弱性、情報漏洩のリスクに警鐘
- 【CVE-2024-37080】VMware vCenter Serverに緊急度の高い脆弱性、CVSS基本値9.8で迅速な対応が必要に
- 【CVE-2024-35719】WordPress用restropressにXSS脆弱性、情報取得や改ざんのリスクに
- 【CVE-2024-37545】WordPress用floating social media linksにクロスサイトスクリプティングの脆弱性、情報漏洩のリスクに警鐘
スポンサーリンク