DALL-E2が秘密の言語をもっているという話を検証してみた

元となった論文

事の始まりは、@Giannis Darasのgithubに公開した論文が起点となっている。

DALLE-2 has a secret language.
"Apoploe vesrreaitais" means birds.
"Contarra ccetnxniams luryca tanniounons" means bugs or pests.

The prompt: "Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons" gives images of birds eating bugs.

A thread (1/n)🧵 pic.twitter.com/VzWfsCFnZo
— Giannis Daras (@giannis_daras) May 31, 2022

論文を要約すると、DALLE-2には秘密の単語があり、それを使って画像を生成することができることがわかった。例えば、「Apoploe vesrreaitais」は鳥、「Contarra ccetnxniams luryca tanniounons」は鳥や虫や害虫を意味する。この2つの単語を使って、

Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons

という文章から新たな画像を生成すると、虫を食べている鳥の画像の生成に成功したという。

本論文では、このような方法で文章をブラックボックス化する事で、コンテンツポリシーを突破し、生成が禁止されているような画像も生成できる可能性があると指摘している。

論文内での検証方法

前提として、DALL-E2は、文字を描画するのがとても苦手である。生成される画像に描かれる文字列はいつも意味不明な文字例になる事が多い。@Giannis Darasの論文では、その意味不明な並びの単語にも、何か隠された意味があるのではと考えて、検証をおこなっていった。

まず、「Two farmers talking about vegetables, with subtitles」、日本語に翻訳すると、「野菜について語る二人の農民、字幕付き」の文字から画像を生成すると、下記画像がでてくる。with subtitles(字幕付き)といれるのが、生成画像に文字情報を出すための重要なポイントとなる。

図1.(論文より)

画像内から

VICOOTESS
Apoploe
vesrreaitais

というワードを認識可能なワードとして抜き出す。このワードを使って再びDALL-E2に画像を生成させる。

「VICOOTESS」を使って、生成された画像が図2となる。野菜満載の料理がでてくる。

図2.(論文より)

続いて、「Apoploe vesrreaitais」と入力すると、図3がでてくる。鳥の画像が生成されてでてくる。

図3.(論文より)

この結果から、「農夫が野菜(VICOOTESS)を食べる空を飛ぶ鳥(Apoploe vesrreaitais)について相談している」という秘密の言語を形成しているのではと論文では指摘している。

「Apoploe vesrreaitais」が空を飛ぶ鳥であるという意味を持っている事を証明するために、描画スタイルを変えても同じ画像が生成されるかを試し、空を飛ぶ鳥もしくは虫が出てくる事が多かったようだ。この事から、「Apoploe vesrreaitais」は、空を飛ぶ鳥であるという意味合いを持っているのではないかと考えたわけだ。

図4.(論文より)

実際にDALL-E2を使って検証

それでは、実際にDALL-E2を用いて、論文に公開された方法を試していく。「Two farmers talking about vegetables, with subtitles」、「野菜について語る二人の農民（字幕付き)」を表示すると、下記のような、字幕付きの画像が生成される。1リクエストで6枚生成されるので、この作業を9回繰り返し、54枚の画像を生成する。その中で、悩みながら会話している画像を5枚ほどピックアップする。

1枚目の画像

認識できたワードは以下の通り。

prolicac a pras
rora apoius.

これらのワードを全文と一部入力し、DALL-E2で画像を生成してみる。

「rora apoius」のみ鳥や虫が一部でてきた。生成された画像には、法則性はあまり感じられない結果となった。

2枚目の画像

続いて読み取れたワードは以下の通り。

Vaelaoice.s vailoes,
caplaisertoesr cabs

野菜や農作物に関連する画像はでてきたが、悩みの種となる画像は出てこなかった。

3枚目の画像

読み取れたワードは以下の通り。

Pirs potciles

こちらも、あまり関連性はなさそうだ。

4枚目の画像

読み取れたワードは以下の通り。

VORBLAOT RLE RELGA REEITOL!

4枚目も、あまり関連性はなさそうだ。

5枚目の画像

読み取れたワードは以下の通り。

pedealalaes
rodperts,
peiotcer?

各文単体では、野菜や食べ物が生成されるが、全文で画像を生成すると、虫(害虫)のような画像が出てくる結果だった。「pedealalaes rodperts, peiotcer?」の連なりは何か意味を持っていそうだ。

5枚目の画像をさらに深堀りする？

5枚目の画像の結果以外は、関連性があまり見受けられず、隠れた意味を持っていなそうな感じだった。5枚目の画像の「pedealalaes rodperts, peiotcer?」の連なりのみ、毎回害虫のような「野菜に有害な虫の画像」が生成されたので、ここをもう少し掘り上げていこうと思う。

pedealalaes rodperts, peiotcer?

検証する方法として、@Giannis Darasの論文同様に、「pedealalaes rodperts, peiotcer?」の描画スタイルを変えてみる。自分が試したのは、下記の4スタイルでの画像の生成をおこなってみる。

oil painting(油絵)
water painting(水彩画)
ukiyo-e painting(浮世絵)
3d painting(3D)

概ね、野菜に有害な昆虫や動物などに関連する画像が生成される結果となった。「pedealalaes rodperts, peiotcer?」は野菜に有害な害虫や鳥獣で、「農夫は野菜に有害な害虫や鳥獣(pedealalaes rodperts, peiotcer?)について相談している。」ともいえるような出力結果となった。全体的な確率を考えれば偶然の一致である可能性も捨てられないが、意味不明な文字列の連なりにも、一定の画像を生成する何らかの隠された意味を持っているケースもあるようだ。

違う単語を探してみる

それでは、今度は違う画像の中にでてきた文字列から、意味をもっている可能性のある違う単語を探してみる。複数の画像から、文字列をピックアップし、一定の法則で画像が生成されたのは、以下の画像の「vuotaen vegiters」という単語である。

vuotaen vegiters

この単語から画像を生成すると美味しそうな野菜料理がでてくる。

2つのワードを結合すると

意味のありそうな2つのワード

「pedealalaes rodperts, peiotcer?」鳥獣、害虫
「vuotaen vegiters」野菜料理

から、eating(食べている)を付け加えて、新しい文章を作成し、その文章で画像を生成してみる。下記文章から期待する画像は、「野菜を食べている鳥獣、害虫」という感じになる。

pedealalaes rodperts, peiotcer? eating vuotaen vegiters

完璧とまではいかないが、期待した画像の出力に成功した! 一見、意味のない文字列の繋がりも、DALL-E2内では何か隠れた意味を持っているケースがあるようだ。本検証では、論文に記述されたのと近い感じの結果を得る事に成功した。

ここから発生するセキュリティリスクとは？

そして、@Giannis Darasの論文では、この事が、セキュリティリスクにもつながる可能性があると述べている。

どういう事かというと、DALL-E2での画像生成では、特定のワード、例えば「kill」などの単語が入力された場合は受け付けない仕様となっている(コンテンツポリシーより)。意味不明な単語にも意味があるなら、上記のようなやり方で、コンテンツポリシーを突破し、いろいろな画像が生成できてしまい、それがセキュリティリスクにつながる可能性があると述べている。

実際に、私もいろいろな描画を試していく中で、タイプミスして画像が生成できたが、正規のワードでは、セキュリティポリシーに引っかかり画像が生成できなかったケースがあったので、事例として下記に掲載しておく。

「fighting」はコンテンツポリシー違反の例

Street fighter's ken and ryu are fighting, ukiyo-e paiting

タイプミスで「fiting」と入力したら生成された例

Street fighter's ken and ryu are fiting, ukiyo-e paiting

同じような例として、「oil painting」でも「oil paiting」でも油絵風のスタイルは生成される事なども確認している。

このように、生成が禁止されている画像も、意味がありそうな文字列の連なりを見つける事で、生成できる可能性があるという事になる。

まとめ

このような形で、@Giannis Darasの論文から、実際の生成画像を用いて検証してみた。24時間で50リクエストまでの利用制限があるので、画像を生成し検証するのに多くの時間を費やしたが、なかなかおもしろい検証結果となった。DALL-E2の作り出す画像には、まだまだ謎が多いため、引き続きいろいろな方法で検証をおこなっていこうと思う。

最後に1枚

Mysterious AI assistant whose name is DALL-E2, Post-Impressionism painting
DALL-E2というミステリあるなAIアシスタントを、ポスト印象派風画風で
drawing by DALL-E2

DALL-E2が秘密の言語をもっているという話を検証してみた

元となった論文

論文内での検証方法

実際にDALL-E2を使って検証

1枚目の画像

2枚目の画像

3枚目の画像

4枚目の画像

5枚目の画像

5枚目の画像をさらに深堀りする？

違う単語を探してみる

2つのワードを結合すると

ここから発生するセキュリティリスクとは？

まとめ

最近のBlog

Apple 発行の証明書が信頼されない問題を解決する

GStreamer で WebRTC を使用する

GStreamer を使用した端末間での映像転送

Amazon Linux 2023へEPEL・Fedora 36レポジトリを追加する

InstantNeRFで空間を再構築する

Windows 版 Unreal Engine 5 による iOS 向けのパッケージ化

自然言語から画像を生成するAI(DALL・E2など)

GStreamer で SRT を使用するその１

GStreamer から WebRTC Janus に配信を行う

Amazon Linux 2023へEPEL・RPM Fusionレポジトリを追加する

カテゴリ別

ページビューの合計

株式会社GClue

お問い合わせ

DALL-E2が秘密の言語をもっているという話を検証してみた

元となった論文

論文内での検証方法

実際にDALL-E2を使って検証

1枚目の画像

2枚目の画像

3枚目の画像

4枚目の画像

5枚目の画像

5枚目の画像をさらに深堀りする？

違う単語を探してみる

2つのワードを結合すると

ここから発生するセキュリティリスクとは？

まとめ

おすすめの投稿

最近のBlog

カテゴリ別

ページビューの合計

株式会社GClue

お問い合わせ