話題の画像生成AI 代表的なサービスとその仕組み

画像出典：Girl with a Pearl Earring by Johannes Vermeer｜Open AI（DALL・Eによる描画）

画像生成AIは、2022年にもっとも盛り上がりを見せたジャンルといってもいいかもしれません。2022年半ばから、DALL・E2（ダリ・ツー）、Midjourney（ミッドジャーニー）といった画像生成AIが立て続けに登場し、8月にはStable Diffusion（ステーブルディフュージョン）が完全オープンソースとして登場、世界中を騒然とさせ、多くの人を熱中させています。

画像生成AIには、どのような種類があり、どのような方法で画像を生成しているのでしょうか。ここでは、これら画像生成AIについて代表的なサービスを紹介するとともに、どのような仕組みで画像を生成しているのかについての概要も紹介していきます。

画像生成AIとは

「Beautiful cyber city」 Midjourneyで作成

画像生成AIとは、人間がテキストで入力した指示に基づき、イラストを自動生成するプログラムやシステムのことをいいます。人工知能の一種に分類され、深層学習を用いて行われます。2021年に「DALL・E」が公開されたことで注目が集まりました。

人間がテキストで出した指示に基づいて画像が生成されるまでの時間は、数秒～数分程度。インターネット上に存在する無数の画像データから学習し、指示に対して最適と思われる画像を生成し、出力します。

2021年から2022年前半にかけて登場した「DALL・E」や「Imagen」で注目が集まったものの、これらを利用できる人は限定されていた（いる）ため、多くの人が気軽に使えるものではありませんでした。しかし、2022年中盤から登場した「Midjourney」と「Stable Diffusion」は、多少の知識があれば一般人でも利用できる形態で登場し、画像生成AIが一躍ムーブメントとなりました。

代表的な4つの画像生成AI

1.DALL・E／DALL・E2（ダリ／ダリ・ツー）

画像出典：https://cdn.openai.com/outpainting/blog-cover.jpg

URL：https://openai.com/blog/dall-e/（DALL・E）
　　：https://openai.com/dall-e-2/（DALL・E2）
2021年1月公開（DALL・E）、2022年7月公開（DALL・E2）
開発元：OpenAI
ソースコード：非公開

DALL・E（ダリ）及びDALL・E2（ダリ・ツー）は、サンフランシスコに本拠を置く人工知能研究の非営利団体「OpenAI」が開発した画像生成AIです。同団体の出資・共同創立者にはイーロン・マスクも名を連ねます。

名前の由来は、画家の「サルバドール・ダリ（Salvador Dalí）」と、ロボットをテーマにしたピクサーの映画「WALL・E」を組み合わせたものだといいます。

DALL・Eは、2020年7月にOpenAIが公開した、ディープラーニングによって人間が書いたようなテキストを自己生成する言語モデル「GPT-3」を拡張したものであり、テキストによるプロンプト（指示。呪文とも呼ばれる）を解析して、テキストの代わりに画像で応答します。

「an illustration of a baby daikon radish in a tutu walking a dog（チュチュを着た赤ちゃんの大根が犬の散歩をしているイラスト）」という、非常に複雑なプロンプトに見事に応えたことで話題になりました。

DALL・E2は、2022年4月に発表され、2022年7月に一般に公開されたDALL・Eの新しいバージョンです。画像生成の最先端である「拡散モデル」を利用し、より写実的な画像や、プロンプトに則した画像が出力できるようになりました。また、出力できる画像の解像度が4倍になっています。

2.Imagen（イマジェン）

URL：https://imagen.research.google/
ソースコード：非公開
開発元：Google

Imagen（イマジェン）は、2022年5月にGoogleから発表された画像生成AIです。テキストプロンプトを基に拡散モデルを用いて画像を生成するAIという点で、他の画像生成AIと同じ仕組みをとっています。

しかし、「現時点では一般利用に適さない」として公開していない点が大きく異なります。ベンチマークテストの結果では、DALL・Eの性能を上回ったとされており、今後何らかのGoogleサービス、プロダクトに組み込まれる可能性はあるでしょう。

Imagenの発展形として、2022年10月に、プロンプトから動画を生成する「Imagen Video」が発表されました。Imagenが利用する拡散モデルを流用しており、24×48ピクセルの毎秒3フレームの動画を16フレーム作成します。これをアップスケールすることで、毎秒24フレームのHD（720p）の動画まで生成可能とされています。

3.Midjourney（ミッドジャーニー）

URL：https://www.midjourney.com/
2022年7月にオープンベータ版へ移行
開発元：Midjourney
ソースコード：非公開

Midjourney（ミッドジャーニー）は、サンフランシスコに本拠を置くテクノロジー企業「Leap Motion」の共同創設者であるDavid Holz氏率いる研究所と、同研究所が開発した画像生成AIの名称です。

Midjourneyも、AIと機械学習を使用してテキストプロンプトに基づいた画像を生成するAIであり、DALL・E2と同じく拡散モデルを使用します。他の画像生成AIに比べると、幻想的でアーティスティックな画像を生成することで注目を浴びています。2022年9月にはMidjourneyで生成した画像がコロラド州の絵画コンテストで優勝し、一躍話題になりました。

使用には、チャットアプリ「discord」を用い、Midjourneyのサーバーに参加してコマンドを実行させる必要があります。無料トライアルとして25枚まで生成可能で、それ以上画像を生成する場合はサブスクリプション方式で料金を支払います。

4.Stable Diffusion（ステーブルディフュージョン）

URL：https://github.com/CompVis/stable-diffusion （GitHub）
公開：2022年8月公開
開発元：Stability AI
ソースコード：公開（オープンソース）
公式サービス：DreamStudio

「Stable Diffusion（ステーブルディフュージョン）」は、英国のAI開発企業「Stability AI」が開発した画像生成AIです。DALL・E／DALL・E2やMidjourneyと同じく、テキストプロンプトに基づいて画像を生成します。

Stable Diffusionには、これまでの画像生成AIとの違いがあります。1つ目は拡散モデルを応用した「潜在拡散モデル」を使用していることです。基本的な考え方は拡散モデルと同じですが、潜在空間を用いて観測データに潜んでいる本質的な情報を抽出することで画像の生成にかかる時間を短縮しています。

2つ目かつ最大の違いは、完全なオープンソースであることです。ソースコードとモデルはすべて公開されており、無料で利用可能なため、Stable Diffusion登場以降にリリースされた画像生成AIツールには、すでにStable Diffusionをベースにしたものが登場しています。

「DALL・E」や「Imagen」のような超高性能なAIは、一般社会への影響の大きさを考慮して一般に公開されてこなかった経緯があります（DALL・Eは後に公開）。そうした中ですべてをオープンにしたStable Diffusionは、画像生成AIの歴史の転換点になるともいわれています。

3つ目の違いは、画像生成に加え、簡単なスケッチを読み込ませて清書を行う機能があることです。例えば、資料に説明のための画像がほしい際に、ラフスケッチを自分で描いて、Stable Diffusionに清書してもらうことができます。

なお、Stable Diffusionは、M1/M2プロセッサを搭載したMacや、独立したGPUを搭載したWindows PCにインストールすることで無料で使えますが、そのためには一定の知識を要します。そのため、有償でより簡単に利用できる「DreamStudio」という公式サービスが提供さ

画像生成AIの仕組み

「Beautiful cyber city」 DreamStudio（Stable Diffusion）で作成

ここからは、オープンソースである画像生成AI「Stable Diffusion」を例として、画像生成AIの基本的な仕組みを解説します。

画像生成は人工知能の一種

画像生成AIは人工知能の一種で、深層学習を用いるものが主流です。代表的な生成モデルとして、VAE（変分オートエンコーダ）、GAN（敵対的生成ネットワーク）、拡散モデルの3つがあり、現在の主流は拡散モデルです。

生成モデルとは、訓練用のデータを学習し、それと似たデータを生成できるモデルのことをいいます。例えば、犬の画像の訓練データで学習した画像生成AIは、犬の画像を描くことができます。

現在の画像生成AIの場合、テキストプロンプトでの指示に対して、どのような画像を参照し、どのような画像で回答するかを判定する生成モデルが必須となります。

トレーニング済みモデルが主流

Stable Diffusionは、画像を生成するための訓練がすでに施されたモデルです。使用者が訓練を行う必要がないため、利用する上で特別かつ専門的な知識はほとんど必要ありません。

Stable Diffusionをはじめとした最新の画像生成AIは、ウェブ上に存在する画像と文章を組み合わせた状態で大量に学習した言語モデルを内蔵しています。そのため、テキストプロンプトを深く理解して、人間が文字で出した指示の意図を汲み取ることができるのです。

Stable DiffusionをPCやクラウドの開発環境上などにインストールしたり、スクリプトを実行するためには多少の知識が必要ですし、場合によってはPythonでコードを記述する必要はありますが、いずれもそれほど難しいものではありません。

潜在拡散モデルを使用

Stable Diffusionは「潜在拡散モデル」というアルゴリズムを実装しています。他の多くの画像生成AIが使用する「拡散モデル」と基本的な考え方は同じで、より発展させたものといえます。

潜在拡散モデルでは、機械学習のモデルアーキテクチャの1つであるVAEなどで用いられる「潜在空間」を使用し、画像生成にかかる時間を短縮していることが特徴です。拡散モデルでは、画像をピクセルが並んだデータとして直接扱って、ピクセル単位で計算を行いますが、この方法は、あまり重要ではないディテールを描くためにも多くの時間を使うため、計算量が多くなり、画像の生成に時間がかかる問題がありました。

しかし、Stable Diffusionが採用する潜在拡散モデルでは、画像をいったん大まかな特徴を捉えた状態に変換（潜在表現）して、その状態で画像を生成していきます。そうすることで、知覚的に重要な部分の描写にのみ時間をかけ、そうでない部分にあまり時間をかけずに済むようになります。計算が終わったら、再び画像に変換を行って完成形となります。

最後に：画像生成AIのこれから

MidjourneyとStable Diffusionの登場で、画像生成AIは今後広く利用されることになるでしょう。そうして画像生成AIの利用が広がっていったときに、世の中にはさまざまな影響が出るものと考えられます。

これまで、ビジネスのための資料やウェブサイトのコンテンツにちょっとしたイラストが必要になった場合、イラスト素材を購入する、イラストレーターに依頼するといったことが行われてきました。しかし、そうした需要が今後画像生成AIに流れる可能性は非常に高いと考えられます。AIは人間と比べ物にならないほど描画が早いため、ビジネスに必要な画像を大量に生み出すことができ、コストが大幅に下がるためです。

また、Stable Diffusionの開発者は、10億人の人々をクリエイティブにしたかったと語っています。そして、PowerPointによるスライドがいらなくなる未来や、画像検索の代わりにStable Diffusionを使う未来を示しています。画像生成AIの未来は、私達が想像しなかった他分野にも広がっていくのかもしれません。