AI Picasso社が画像生成AI開発用データ約1000万個を無償公開、著作権に配慮したCC-0ライセンスのデータセットを提供
スポンサーリンク
記事の要約
- AI Picasso社が画像生成AI開発用データを公開
- 著作権に配慮した約1000万個のデータセット
- CC-0ライセンスの画像とキャプションを提供
スポンサーリンク
AI Picasso社による画像生成AI開発用データセットの無償公開
AI Picasso社は2024年7月31日、著作権に配慮した画像生成AI開発用データ約1000万個を無償で公開した。このデータセットは「megalith-10m-florence2」と「soa-full-florence2」の2種類で構成されており、CC-0ライセンスの画像データや説明文を含んでいる。AI開発者がより安全に画像生成AIの研究開発を行えるよう、著作権の問題に配慮した公益性の高いリソースとなっている。[1]
「megalith-10m-florence2」は、madebyollin氏が作成したCC-0相当の写真画像リンク集「Megalith-10M」に、Microsoft社のマルチモーダルモデルFlorence-2を使用してキャプションを付けたデータセットである。約1000万枚の画像リンクが含まれており、機械学習利用時の著作権侵害リスクを最小限に抑えている。
一方、「soa-full-florence2」は、スミソニアン協会の情報をもとにmadebyollin氏が作成したCC-0の絵画などの画像リンク集「soa-full」に基づいて作られたデータセットである。約300万枚の画像リンクが含まれており、著作権が切れた画像のみで構成されているため、機械学習利用時の法的リスクが低い。
AI Picasso社が公開した画像生成AI開発用データセットの概要
megalith-10m-florence2 | soa-full-florence2 | |
---|---|---|
データ元 | Megalith-10M(madebyollin氏作成) | soa-full(madebyollin氏作成) |
画像数 | 約1000万枚 | 約300万枚 |
画像の種類 | CC-0相当の写真画像 | CC-0の絵画など |
キャプション生成モデル | Florence-2(Microsoft社) | Florence-2(Microsoft社) |
主な特徴 | 機械学習利用時の著作権侵害リスクが低い | 著作権切れ画像のみで法的リスクが低い |
スポンサーリンク
Florence-2について
Florence-2とは、Microsoft社が開発したマルチモーダルモデルのことを指しており、主な特徴として以下のような点が挙げられる。
- 画像に対して効率的にキャプションを生成可能
- ライセンス上、生成したキャプションに制限がない
- GPT-4Vとの競合を意識せず利用可能
Florence-2は、画像認識と自然言語処理を組み合わせたマルチモーダルAIモデルである。画像の内容を理解し、それを自然な言語で表現する能力を持つ。このモデルの特徴は、単に画像の表面的な特徴を記述するだけでなく、画像の文脈や意味合いも捉えて、より詳細で適切なキャプションを生成できる点にある。
AI Picasso社のデータセット公開に関する考察
AI Picasso社のデータセット公開は、AI開発コミュニティに大きな影響を与える可能性がある。著作権問題は常にAI開発の障壁となっており、CC-0ライセンスのデータセットの提供は、多くの開発者にとって貴重なリソースとなるだろう。一方で、このようなデータセットの普及により、AIが生成する画像の多様性が制限される可能性も懸念される。
今後、AI Picasso社には、データセットの品質維持と拡充が期待される。特に、より多様なジャンルや文化圏の画像を含めることで、生成AIの表現の幅を広げることができるだろう。また、データセットの利用状況や成果を追跡し、コミュニティにフィードバックする仕組みがあれば、より効果的な開発支援につながる可能性がある。
長期的には、このような取り組みがAI開発の倫理基準の形成にも寄与することが期待される。著作権に配慮したデータセットの利用が標準となれば、AIの社会実装におけるリスクの低減にもつながるだろう。AI Picasso社の今回の取り組みは、技術革新と倫理的配慮の両立を目指す先駆的な例として、今後のAI開発の方向性に影響を与える可能性が高い。
参考サイト
- ^ NOTE. 「著作権に配慮した画像生成AI開発用データ約1000万個を無償公開|AI Picasso」. https://note.com/aipicasso/n/n97ce9a979ef7, (参照 24-08-07).
- Microsoft. https://www.microsoft.com/ja-jp
※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。
- Looker Studioのエクスプローラーの基本機能から活用事例まで簡単に解説
- Intel 64とは?意味をわかりやすく簡単に解説
- イントラマート(intra-mart)とは?意味をわかりやすく簡単に解説
- Intel VT(Intel Virtualization Technology)とは?意味をわかりやすく簡単に解説
- Intel Core(インテル コア)とは?意味をわかりやすく簡単に解説
- IoTとは?意味をわかりやすく簡単に解説
- IPセントレックスとは?意味をわかりやすく簡単に解説
- IoTエリアネットワークとは?意味をわかりやすく簡単に解説
- IoTデバイスとは?意味をわかりやすく簡単に解説
- Google検索コマンド(検索演算子)の「daterange:」とは?意味をわかりやすく簡単に解説
- Androidの2024年8月セキュリティ情報が公開、CVE-2024-36971に注意喚起
- Microsoftがマルチプラットフォーム対応のWindows アプリを今秋に一般提供開始、リモートワーク環境の向上に貢献
- Windows 365のGPU対応Cloud PCが一般提供開始、高度なグラフィック処理やAI機能の実行が可能に
- Appleが2024年第3四半期の業績を発表、売上高とEPSが過去最高を記録しAI技術の統合も進展
- VOICEVOXが0.21.0-devをリリース、ソロ全解除時の再生バグ修正とTIME_SIGNATURE系統の最適化を実現
- Zed v0.146.5でGitBlameのキーバインドを修正、開発効率の向上に貢献
- ZedがインラインアシスタントのDiff表示バグを修正、v0.147.2-preで開発効率向上へ
- Ambieがv4.4.12をリリース、フォーカス間隔の最小値を1分に短縮しユーザビリティが向上
- Docker Desktop 4.32リリース、開発効率とデータ管理の向上を実現する新機能を搭載
スポンサーリンク