自然言語から画像を生成するAI

はじめに

DALL-E2の招待が6月初旬に届き、AIアシスタントがいる暮らしが始まった。DALL-E2は自然言語から画像を生成してくれるAIアシスタントだ。現在、評価版という事で、1日50回までという制限が付くものの、思いのままに自然言語から画像を生成できている。本記事では、 DALL-E2や類似のモデルに関して比較しながら、 DALL-E2では、どんな画像を描けるか解説していく。

自然言語から画像を生成するAI

DALL-E2以外にも、GoogleのIMAGEN, 清華大学のCogView2などが発表されている。DALL-EやCogViewの第一世代が2021年に発表され、その第二世代として発表されたのが、DALL-E2である。

DALL-Eは、120億のパラメータモデルを保持する大規模学習の単一モデルだったのに対して、DALL-E2は35億と15億パラメーターを持つ2つのモデルを用いて、自然言語から画像を生成している。CogView2にいたっては、60億、90億、90億パラメーター3つのモデルを使用し画像をている。

モデ名 パラメーター数 モデル数
DALL-E 120億 1
DALL-E2 35億+15億 2
CogView 40億 1
CogView2 60億+90億+90億 3

実際に試してみるには、 DALL-E2は現在、Waiting list待ちだが、第一世代のDALL-Eの小規模学習版のDALL-E miniはhugingface.coCraiyonにWebデモが公開されている。また、CogView2は、 Replicate CogView2でWebデモが公開されている。

DALL-E DALL-E mini
Craiyon
DALL-E2 Waiting list への登録のみ
CogView2 Replicate CogView2

DALL-E2、DALL-E、CogView2の比較

同じテキストワードから生成した画像で、DALL-E2とDALL-E mini、CogView2のWebデモを使用し生成した画像を比較してみようと思う。

「Fisheye photo of cat doing a kickflip」
日本語訳すと「キックフリップする猫の魚眼レンズで取られた写真」、DALL-E2とDALL-E mini、CogView2で生成すると下記の画像のようになる。

「a tiger wearing VR glasses」
続いて、CogView2の最初のサンプル「VRグラスをつけた虎」を、DALL-E2とDALL-E mini、CogView2で生成すると下記の画像のようになる。

DALL-E2の出力する画像には、まったく矛盾がない事に驚かされる。もはや、人間が作成したといってもいいレベルの画像が生成されてくる。

DALLE2にアートは描けるのか?

DALL-E2はどんなものが描けるだろうか? 絵のスタイルは、写真や油絵、浮世絵、デジタルアート、3Dなどなど、世の中に存在する様々な手法での描画可能である。また、描画の対象とする被写体は、言語で表現できるものは何でも描かせる描せる事がでる。どうも、人間の実写の描画は苦手なようだが、それ以外は、矛盾のない形で、自然言語から画像を生成してくれる。

いくつかの描画を試してみたので、ここでは例として紹介していく。

「Cat sitting in chairs, oil painting」
油絵風(Oil painting)の猫

「Cat sitting in chairs, oil paiting」
Oil paiting(スペルミス)の猫
paintingをpaitingと単語を間違えても、違った画風で生成される。

「The main street of akihabara, digital art」
デジタルアート風の秋葉原

「sky tree in tokyo, ukioe painting」
浮世絵で描かれたスカイツリー

「Gopro photo of cat doing a kickflip」
キックフリップする猫をGoproで撮影

「An old western photograph of Godzilla at tokyo station」
東京駅の前にいるゴジラの昔の写真

「AE86 drifting on a mountain pass, 4K photo」
峠でAE86がドリフトする4Kフォト

「AE86 and FC3S are having a drift battle on a mountain pass, animation painting」
峠でAE86とFC-3Sがドリフトバトルするアニメ調

「3D render cute penguin used in Linux mascot」
Linuxペンギンっぽいやつ

このように、DALL-E2は、何でも描いてくれるのである。

DALL-E2は部分的な再描画も

DALL-E2では、指定した箇所を消して、自然言語で指定したワード風にか描き直す事もでる。ペンギンの画像の頭の部分を消して、「モヒカンヘア」を指定して生成された画像が以下の画像だ。

DALL-E2では、部分的な再描画も自然言語で指定可能で、思いのままに画像を描く事が可能である。

まとめ

このように、DALL-E2は、自然言語から矛盾のないハイクオリティの画像を生成ができるようになり人間のアウトプットと遜色のないレベルに到達したといえる。DALL-E2では、人間では想像しなかったような意外な組み合わせで画像を生成する事も可能となってくる。AIが人間の仕事をサポートするAIアシスタント時代が到来し、AIとの共存の時代が始まろうとしている。

最後に1枚

 
「3D render cute AI assistant coming office」 
「オフィスにきたAIアシスタントの3Dレンダー風」
by DALL-E2

リファレンス