Stable Diffusion発! 画像生成ブームに見るジェネラティブAIの人・もの・お金事情

この記事は NTTコミュニケーションズ Advent Calendar 2022 18日目です…が、少々遅れてお届けします。

はじめに

PS本 5G&IoTサービス部 増田です。Advent Calendar参加も(たぶん)3年目となりました。

「テキスト指示をもとに、AIがお好みの画像を生成する(Text-to-Image)」「今ある画像へ、テキスト指示で編集を加える(Image-to-Image)」 -- そんな画像生成AIが注目を集めています。2022年の上半期、Open AIによるDALL-E 2の公開、Midjourneyの登場と盛り上がりを見せました。2022年8月23日のStable Diffusion一般公開からは、使ってみた報告、従来研究との融合、商用プロダクト応用と、研究者、アーティスト、プログラマなど様々な人の参加により、界隈はさらに活気づいています。

画像生成AIの技術解説は、たくさんの素晴らしい記事に譲ります。技術の全体像説明1や、図解による日本語2や英語3の解説があります。今年のアドベントカレンダーでも、テーマとして複数取り上げられました。そのものズバリ画像生成AI Advent Calendar 2022に様々な考察を読むことができます。また、2022年8月〜11月の目まぐるしい変化は、やまかず氏のnote 『日刊 画像生成AI』に詳しくまとまっています。

ジェネラティブAI全般にも、上記の画像生成のコアとして使われる「拡散生成モデル」ブームが到来しました。テキストからの画像生成とその発展に加え、サウンド生成、動画生成、モーション生成、3Dモデル生成と、ここ数ヶ月で様々な論文が発表されました。

次に興味が湧くのは、こうした技術が今後どのように社会に受容され、影響を及ぼすかという点です。本記事では、画像生成を中心としたジェネラティブAIを取り巻くビジネス、技術応用、法律その他を以下のステップで概観します。

  1. ジェネラティブAIのビジネス機会と投資
  2. 差異化要素を生み出す人材、プロダクトやその素材
  3. 考慮すべき制約(法解釈と規制、コミュニティの倫理観)

これから数年スパンで、ジェネラティブAIどう浸透し、社会を変化させるかという流れを読み解く、または予測する一助となれば幸いです。

1. ジェネラティブAIのビジネス機会と投資

ジェネラティブAI、中でも画像生成AIの技術的ブレークスルーは、ビジネス機会や投資目線ではどのように捉えられているのでしょうか。

IT分野を中心とした調査会社 Gartnerは、2022年の戦略的テクノロジートレンドの先頭に「ジェネラティブAI」を取り上げました。2025年には全データの10% (現在は1%未満) をジェネラティブAIが生み出すと予測しています。次に「来る」技術を予測するGartnerハイプサイクルでは、ジェネラティブAIが盛り上がりのほぼ頂点にプロット4されました。

イギリスの経済誌 Financial Timesは、ジェネラティブAIへの投資が2020年比で425%増加し、21億米ドル (約2800億円) に達する5と報じました。Web3の減速とAIへの資金還流が伸びの原因とされています。事実、大型調達の発表が相次いでいます。2022年10月には、Stable Diffusionモデルの発表元 Stability.aiが1.1億米ドル (約150億円) の資金調達6をし、成長戦略を発表しました。12月には、同じくStable Diffusionに関わったRunway MLが、5000万米ドル (約68億円) の調達を発表7しました。以前よりジェネラティブAIで名の通っていた会社だけではありません。Stable Diffusionモデル公開後に生まれた会社もあります。例えばSharif Shameem氏によるLexica.artは、Stable Diffusionの公開直後に生成コンテンツ検索エンジンとして開始8、すぐに500万米ドル (約6.8億円) を調達9しました。モデルのオープン化がもたらした効果といえるでしょう。

さて、これらの調達資金は何に投じられ、その会社とその顧客にどんなリターンを生むと考えられるでしょうか。

2. 差異化要素を生み出す人材、プロダクトやその素材

一般に、どこにリソースを投下することが最も効率よく事業を成長させるか、「てこ」となる場所は事業種別により異なります。そのため、調達資金の重点投下先も異なります。例えば、企業向け業務系SaaSの場合は営業やカスタマーサクセスの人員、個人向けゲームやコンテンツであればその制作費や広告宣伝費に多くを投じるでしょう。AIスタートアップの場合、それらに加えて独自のデータセット、計算資源を投下した学習、抱える研究者の技術によりもたらされる独自のモデル、それらを利用シーンと結合させるアプリケーション開発、プロフェッショナルサービスによる課題ごとにカスタマイズをした対応などが競争力と成長の源泉となります。

ジェネラティブAI、特に画像生成AIの付加価値や差異化要素は、どう生み出されるのでしょうか。ここでは「人材やステークホルダ」「プロダクトを生み出す素材や道具」 に作用し、 「法規制と倫理観」 の制約下で 「プロダクト」 を生み出すとモデル化します。各要素を詳しく見ていきましょう。

2.1. 人材やステークホルダ

主要な人材やステークホルダには、 「クリエイター」「アプリケーション開発者」「研究者」 が挙げられるでしょう。また、領域間の越境人材も見られます。

クリエイター

「絵を描く」「CGを制作する」といった活動をするクリエイターは、アマチュアかプロかを問わず、既に自身の制作プロセスに画像生成AIを取り入れ始めています。日本での一部事例を挙げます。深津貴之氏 は、Stable Diffusion前夜の記事 10 で耳目を集め、SFマガジン 23年2月号表紙の制作11などいちはやく制作現場に取り入れています。852話氏は、Midjourney、Stable Diffusionを活用した美麗な画像を日々発表し、画像生成AI初の紙刷り画集を出版しました。横原大和氏齋藤彰氏は、元々3D CGに強みを持ちながら、画像生成AIを制作プロセスに取り入れた習作例を日々発信されています。

アプリケーション開発者

機械学習モデル全般に言えることですが、モデルがあるだけでは「試す」ことはできても「継続して使う」ことは困難です。利用シーンに合わせたツールやアプリケーションに埋め込まれて初めて真価を発揮します。アプリケーションを開発し、継続的に改善できるエンジニアが必要です。

また、アプリケーションには二種類あります。既にあるアプリケーションやWebサービスに機能要素を足すケースと、スタンドアロンで新規アプリケーションを開発するケースです。Lexica.artのSharif Shameem氏や、LINEボット お絵描きばりぐっどくんの生みの親である西野颯真氏は後者の例と言えるでしょう。後段の「プロダクト」の項目でも取り上げます。

研究者

ジェネラティブAI領域にもともと関心があった研究者が、今回のブームを受け一歩早く動き出しています。一例に、Google Brainの著名な研究者であったDavid Ha (hardmaru) 氏は、Stability.aiにHead of Strategyとして移籍しました。Stable Diffusion以前に静かな盛り上がりを見せたDisco Diffusion界隈のオープンソース活動をしていた研究者は、複数がMidjourneyへ立上げメンバ等として参画しました。

2.2. プロダクト

上に挙げるような人材やステークホルダにより生み出されるプロダクトには、どんなものがあるでしょうか。

アーリーステージ、テック企業向け投資を主に手がけるベンチャーキャピタル Andreessen Horowitz (a16z) は、画像生成に限らず、ジェネラティブAIの「今」を捉える記事を発表しています。2022年11月には、「Art Isn’t Dead, It’s Just Machine-Generated (アートは死なない。ただ機械が生成する)12」「The Generative AI Revolution in Games (ゲーム業界における生成AI革命)13」の2本が掲載されました。

  • 「Art Isn’t Dead, It’s Just Machine-Generated」では、コード自動生成 (Copilot等) と画像生成を比較して取り上げています。前者に求められる厳密さに対して画像生成は既に十分実用に耐える出力ができる点と、画像生成AIのハイプは (関連リポジトリのGitHubスター数ベースでは) ブロックチェーンブーム等を遥かに凌駕する点に触れ、画像生成などのジェネラティブAIが一気に普及すると論じています。「2022年末のインターネットアーカイブが、人間が多くを生成した最後のリポジトリとして大切にされる日が来るかもね」という締めが印象的です。
  • 「The Generative AI Revolution in Games」では、コスト・品質・スピードのうち2つしか取れないトレードオフ問題の終焉、産業の中では複雑性・リアルタイム性が高いゲーム業界が最も大きな影響を受けるだろう、と論じています。

ここでは、活用が期待される画像生成AIプロダクトについて、「四階建て」の構造でモデル化して議論を進めます。プロトタイプフェーズと、製品フェーズでも構造が多少異なると言えますが、本稿では詳細を省きます。

下階から上階に積み上げる形で、 「基礎となる画像生成モデル」「追加学習等によるカスタマイズ」「アプリケーション」「活用プロセス」 と、各階の様子を見てみましょう。

一階:基礎となる画像生成モデル

一階は「基礎となる画像生成モデル」です。画像生成には、Imagen、DALL-E2、Midjourney、Stable Diffusionなど著名なモデルがあります。

一部企業を除き、「一からの学習」に必要な計算資源へ安定してアクセスすることは困難です。基礎となる画像生成モデルの一つであるStable Diffusionの公開は、一階部分をGoogle、OpenAIなどの従来からマシンパワーとキャッシュに余裕のある企業に独占された状態とさせず、二階より上で起こるイノベーションに張ってみたものと言えます。様々な議論を呼びつつも、爆発的に「追加学習」「アプリケーション」「活用プロセス」例が出て、イノベーションが加速されたことは確かです。

二階:追加学習等によるカスタマイズ

二階は「追加学習等によるカスタマイズ」です。カスタマイズのためには、まず基礎となるモデルを手元に持つ必要があります。加えて、ここには研究知見やそれを実装する能力、学習に使うデータセットと計算資源が必要となります。具体例としては、拡散生成モデル部分の再学習に加えて、Textual Inversion、DreamBooth、Hypernetworks、LoRAなど、学習の箇所や方法に一定の制約を加える方法があります。「ガチャに頼らず、想定した表現を一発で生成するにはどうしたら良いか」は、この秋冬の大きな研究テーマとなっています。

また、 追加学習されたモデルは、「公開されないケース」「公開されるケース」 があります。さらに「公開されないケース」には、料金を取り利用できるケースと、活用プロセスに隠蔽され使われる場合があります。

  • 公開されないケース: AIピカソが、先日12月20日に発表した「AIいらすとや」14は、この二階部分の技術と、フリーのイラストサイト「いらすとや」との提携によりデータセットを使い実現した、「無限にいらすとや風クリップアートを生成できる」機能です。
  • 公開されるケース: Hugging Faceの Stable Diffusion Dreambooth Concepts Libraryには、DreamBoothにより追加学習した様々なモデルが170以上公開されています。

三階:アプリケーション

三階は「アプリケーション」です。一階や二階部分を活用しながら、コーディングを前提として、アプリケーション部分の実装を差異化領域とできます。先ほどアプリケーションには 「既存アプリやWebサービスに機能を足すケース」「新規アプリを開発するケース」 があると述べました。

「既存アプリやWebサービスに機能を足すケース」 の既存アプリケーションには、Photoshop、Figmaなどが挙げられます。これらは、既にクリエイターの制作プロセスに深く浸透しています。以下のようなサードパーティプラグインが発表されていますが、今後半年から一年で公式機能としての実装が進むことでしょう。

  • Adobe Photoshopは高機能な画像編集ソフトウェアです。Nicolay Mausz氏によるflying dog for Stable Diffusionは、Adobe Exchange上で89米ドルにて販売され、Stability.ai側のサーバへ描画リクエストを送ることによるクラウドでの動作、両方をサポートしています。

  • Figmaは共同編集をしながらインタフェースデザインを行えるツールです。Antonio Cao氏により、Ando - Your design copilotという名前で、Stable Diffusionのプラグインが公開されました。生成枚数が42枚/月に制限されたFree版、月額18米ドルのPro版の料金プランがあります。

  • 営利企業による製品だけではありません。 GIMPはオープンソースの画像編集ソフトウェアですが、BlueTurtleAI氏により、GIMPプラグインがMITライセンスで公開されています。

「新規アプリを開発するケース」 はどうでしょうか。 従来Webアプリケーション開発を行なっていた企業やエンジニアが、画像生成AIを素材として選び、他に先駆けサービスとしてリリースする例があります。 既存アプリケーションが同様の機能を実装してきても差異化要素を持ち続けられるかは、「一発芸」で終わらず、継続した利用シーンの探索と新機能のリリースが大切となるでしょう。 日本ではお絵描きばりぐっどくんのようなLINEボット、AIピカソのようなスマートフォンアプリがリリースされています。 なお、一階や二階部分のリリースと共に簡易アプリケーションとして公開される場合に、できるだけ三階部分の実装を軽くするため、DiscordやHugging Face上のGradioアプリケーションなどをフロントエンドとして活用するケースも見られます。

四階:活用プロセス

四階は「活用プロセス」です。コーディングを前提とせず、クリエイターやアーティストにより、生成におけるコツや他制作ツールとの組み合わせ発見など 「制作プロセスの効率化や独自色の付加」 や、 「生成コンテンツのキュレーション」 などが行われます。

ジェネラティブAIを人間が活用する際、「サンドイッチワークフロー」が普及する 15 と言われます。

サンドイッチワークフロー:

  1. 人間がAIに指示を与える(例:画像生成AIへのプロンプト提示)
  2. AIが生成オプションを提示する(例:複数種類の画像生成)
  3. それを人間が選択し、仕上げる(例:画像に対するレタッチ、コラージュ、別ツールへの取込み・編集などの仕上げ)

発明された活用プロセスは、クリエイターやその集団の「秘伝のタレ」として非公開とするケースもあれば、一般に公開するケースもあります。公開され、かつ利用頻度が高いものは、三階のアプリケーションレベルで実装され、コモディティ化します。

2.3. プロダクトを生み出す素材や道具

プロダクトを生み出す、またそれを改善し続けるためには、人材に加えて 「研究知見」「計算資源」「データセット」 などの素材や道具が必要となります。

研究知見

論文の形で様々な研究知見の公開が続きます。機械学習系の国際カンファレンスが開催されるごとに、ジェネラティブAI系の知見が更新されています。この秋は画像生成AIのカスタマイズ、及び画像の次としての映像、音楽、3Dモデルなどの生成についての論文が多数公開され、耳目を集めました。

この分野の論文は、Arxivにプレプリントとして公開され、すぐに個別のDiscordでそれらが論じられたり、Twitterでの拡散が進みます。同時に、またはその後、GitHubやHuggingFaceへの著者による公式実装やコミュニティによる再実装公開や、同様に著者またはコミュニティによるGradio等のプロトタイプアプリ、デモが公開され、それを試した人々によりアプリケーションなどへの取り込みが進むというのがよく見られる流れです。ただし、論文化される前に特許が出願されているケースがあり、ソースコードが公開されている場合もライセンスに気をつけて活用する必要があります。

計算資源

2018年のOpenAIの記事に、「How AI Training Scales (AIの学習はどのようにスケールするか)16」があります。その後数年で、大量のデータで学習させ、様々なタスクにカスタマイズを行える基盤モデルの活用が増え、そのサイズは増加の一途を辿っています17。大量のデータセット収集、及びその権利関係の整理とともに、モデルの学習に必要となる膨大なマシンパワーを持つことが、差異化に必要となりました。

学習用の計算資源と一口に言っても、前述の通り 「一からの学習」「追加学習(重め)」「追加学習(軽め)」 と程度が異なります。(ここは、2.2. プロダクトの「一階」「二階」に対応)

  • 一からの学習例: 画像生成などのジェネラティブAIを一から学習するには、膨大な計算資源が必要です。Stable Diffusionの当初リリースモデルの学習において、60万米ドル (約8200万円) を投じました18。NVIDIA A100を256枚、15万GPU時間を投じたとされています。

  • 追加学習(重め)例: 継続する企業運営のための資金調達ではなく、単発の学習に必要な資金をクラウドファンディングで集める例もあります。Stable DiffusionのフォークであるUnstable Diffusionは、Kickstarterプロジェクトを立ち上げ、25千米ドル (約350万円) のゴールを設定しました(ただし、その後Kickstarterによりプロジェクトは停止)19。クローズ後6週間をかけてデータセット準備、学習を進め、モデルを配布する予定とされていました。これは、公開されたStable Diffusionモデルをベースとした追加学習であり、1億円弱よりは大幅にコストが抑えられます。

  • 追加学習(軽め)例: 特定のスタイル、キャラクター、人物に特化した制御可能な画像生成AIを学習により作る場合、より小さなスケールで学習を行い、カスタムの学習モデルを提供できます。手法が確立されていれば、学習に1時間とかからず、計算資源のコストは一件数千円以下の世界です。

データセット

Stable Diffusionの学習において、 LAION というオープンなデータセットが重要な役割を果たしました。画像生成AIにおいては、以下のデータセットが活用されています。

  • インターネット等に公開されたデータを、スクレイピング等で収集したもの
  • 企業所有など非公開でストックされているもの

前者の公開されたデータであっても、公開経緯が著作権などに配慮をしないものであると、それらを使って良いのかという法的、倫理的問題をはらみます。

言語や画像のデータはインターネットに莫大な量があり、日々生み出されていますが、学習で使い果たすことが来るかもしれません。 現状、言語は2040年に枯渇、高品質に限定すると2024年に枯渇、画像は2038年に枯渇するのではと、過去トレンドと計算機の制約をもとに推定した例20があります。 ジェネラティブAIにより生成されたコンテンツが指数関数的に増え始めると、やがて学習対象に無視できない量での混入も始まることでしょう。

3. 考慮すべき制約

ジェネラティブAI、特に画像生成AIにおける付加価値や差異化要素は、 「プロダクトを生み出す素材や道具」「人材やステークホルダ」 が作用し、 「法規制と倫理観」 の制約下で 「プロダクト」 が生み出されているとモデル化して話を進めてきました。制約として意識すべき 「各国の法解釈と規制」「対象コミュニティの倫理観」 について見ていきましょう。

3.1. 各国の法解釈と規制

STORIA 柿沼太一弁護士が、AI界隈の事情について以前より情報発信21をされています。2022年11月には画像生成AIの日本国内法についてのセミナーが開催され、録画と資料が無料公開22されました。

また、画像生成AIの著作権については各国各様の対応が行われています。Skyland Ventures 中村公哉弁護士23によると、英国はAIの生成物に著作権を認める方向であるのに対し、米国や日本は積極的な人間の関与があるかどうかにより認められるかどうかが変わる24と解釈されているようです。中国は、国内で流通させるコンテンツを生成するAIに対して新たな規制が発表されました。ジェネラティブAIの提供者は、ユーザの身元を確認し、コンテンツ管理をすること、そして人間の顔やリアルなシーンの生成時はAIによって生成されたことを明示すること、としています25

3.2. 対象コミュニティの倫理観

ジェネラティブAIは、まず画像生成を中心にクリエイターの間で大きな議論を巻き起こしています。主なものは、 「AI制作物」「学習データセット」 の扱いです。前者は、制作コストの低い画像生成AI作品が増え、人手による作品の存在感・重要度低下と、中長期での産業自体の衰退に繋がるのではという視点、後者は学習に使われたデータセットの作者の権利はどこまで守られるべきかという点です。各プレーヤは、自身の関わりの深いステークホルダからの反響を注意深く観察しながら、それぞれの立ち位置を模索しているようです。法的に正しいかだけでなく、心情として受け入れられるかも大きな課題です。

画像素材などのコンテンツを扱うサービスやユーザ投稿型のイラストや写真ギャラリーでは、画像生成AIを使った制作物への対応方針が分かれています。画像素材提供サービス Adobe Stockは、AI作品投稿を条件付きで認めるとしました。ユーザ投稿型のイラストサイトであるpixivも同様の方針です。画像素材提供サービス Shutterstockは、OpenAIのDALL-E2を自社サイトに統合、学習に使われた画像の作者への分配の仕組みを作る26としました。一方で、画像素材提供サービス Getty Imagesは法的リスクを理由に投稿を受け付けないとしています。クリエイターが所属するプラットフォーム上で画像生成AIを展開することには、法規制だけでなく、様々な倫理観をファシリテートする難しさがあります。

今後、この倫理観と技術発展を見ながら、法規制についても更新されていくものと思われます。

まとめ

画像を中心としたジェネラティブAIを取り巻くビジネス、技術応用、法律その他を概観することを試みました。

  • 画像生成AIの盛り上がり
  • ジェネラティブAIのビジネス機会と投資
  • 差異化要素を生み出す人材、プロダクトやその素材
  • 考慮すべき制約(法解釈と規制、コミュニティの倫理観)

さらに、画像生成AIやそれを使ったプロダクトがどう生み出されるかを、「プロダクトを生み出す素材や道具」「人材やステークホルダ」 が作用し、 「法規制と倫理観」 の制約下で、 「プロダクト」 とモデル化し、関わる要素をさらに概観しました。

人材やステークホルダ

  • クリエイター
  • アプリケーション開発者
  • 研究者

プロダクト

  • 基礎となる画像生成モデル
  • 追加学習等によるカスタマイズ
  • アプリケーション
  • 活用プロセス

プロダクトを生み出す素材や道具

  • 公開された知見
  • 計算資源
  • データセット

考慮すべき制約

  • 各国の法解釈と規制
  • 対象コミュニティの倫理観

これからの数ヶ月・数年スパンで、画像生成AIやジェネラティブAI全般が上に挙げた要素の動的な相互依存関係の中でどう社会に浸透していくか、目撃できることが楽しみですね。また、本記事がそれらの流れを読み解く、または予測するための一助となれば幸いです。


  1. Stable Diffusion を基礎から理解したい人向け論文攻略ガイド (ステート・オブ・AIガイド)
  2. 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説! - Qiita
  3. "The Illustrated Stable Diffusion" by Jay Alammar
  4. What’s New in Artificial Intelligence from the 2022 Gartner Hype Cycle™ | Gartner
  5. Investors seek to profit from groundbreaking ‘generative AI’ start-ups | Financial Times
  6. Stability AI, the startup behind Stable Diffusion, raises $101M | TechCrunch
  7. Runway Raises $50 Million At $500 Million Valuation As Generative AI Craze Continues | Forbes
  8. https://twitter.com/sharifshameem/status/1562455690714775552
  9. https://twitter.com/danielgross/status/1575149080124313600
  10. 世界変革の前夜は思ったより静か|深津 貴之 (fladdict)|note
  11. 史上初、SFマガジンの表紙がAIイラストに 特集は「AIとの距離感」:NEWS Weekly Top10 - ITmedia NEWS
  12. Art Isn't Dead, It's Just Machine-Generated | Andreessen Horowitz
  13. The Generative AI Revolution in Games | Andreessen Horowitz
  14. あの「いらすとや」が画像生成AIに! モバイルアプリ「AIピカソ」が画風を習得 - 窓の杜
  15. Generative AI: autocomplete for everything | Noahpinion
  16. How AI Training Scales | OpenAI
  17. https://twitter.com/emollick/status/1584743837637160960
  18. https://twitter.com/EMostaque/status/1563870674111832066
  19. Unstable Diffusion: Unrestricted AI Art Powered by the Crowd (Suspended) by Unstable Diffusion — Kickstarter
  20. https://twitter.com/bioshok3/status/1598144094068359168
  21. AI開発を円滑に進めるための契約・法務・知財 | slideshare
  22. https://twitter.com/tka0120/status/1598238927403372544
  23. https://twitter.com/kimiya_nakamura
  24. 画像生成AIをめぐる倫理的問題の最新事情。各国で分かれる対応とは | モリカトロンAIラボ
  25. 中国が画像生成AIの画像に「AI生成マークの表示」を義務化&AIユーザーも実名登録制へ - GIGAZINE
  26. Shutterstock will start selling AI-generated stock imagery with help from OpenAI - The Verge
© NTT Communications Corporation All Rights Reserved.