DALL-E3の持つ驚愕の機能～画像からプロンプトの生成が可能に

はじめに
画像からプロンプトを逆に生成してもらうことも可能
画像から出力されたプロンプトを読み解く
画像から生成したプロンプトで、画像を生成する
この機能の実装によって、何ができるのか？
まとめ

はじめに

前回紹介したGPT-4Vの画像生成機能が非常に高いクオリティを持っていることを紹介しました。
今回、単純な画像生成だけではなく、GPT-4Vになったことで画像をアップデートすることで、その画像のプロンプト抽出、量産まで出来るようになったことを紹介します。

画像からプロンプトを逆に生成してもらうことも可能

通常は、プロンプトを入力して画像を生成してもらいますが、このGPT-4Vでは、読み込んだ画像から、プロンプトを出力してもらうことも可能になりました。
試しに、こちらの先ほど出力した猫の画像を使います。
ChatGPTのDeffaultモードで、この猫の画像を以下のプロンプトともに指示します。

そうすると、以下のようなプロンプトが出力されました。

どうでしょう？
ここまで詳細なプロンプトを出力してくれます。

画像から出力されたプロンプトを読み解く

このプロントを分解してみます。元の画像を頭に思い浮かべながら見てみてください。

・An inquisitive calico cat situated inside a cardboard box.
→好奇心旺盛な三毛猫がダンボール箱の中にいる
・The feline should have a mix of white, black, and rich orange fur, complemented by its remarkably vivid turquoise eyes.
→その猫は白、黒、そして濃いオレンジ色の毛並みを持ち、それが非常に鮮やかなターコイズブルーの目を引き立てている
・Its gaze should be directed upwards, filled with curiosity. A pair of glossy whiskers stand out against its face, capturing the light perfectly.
→その視線は上向きで好奇心に満ちており、光を完璧に捉える光沢のあるヒゲが顔に映えている
・In the background, hints of a homely environment, such as bookshelves, should subtly present themselves.
→背景には、本棚などの家庭的な環境のヒントが微妙に現れている
・The cardboard box should be partially open, revealing the cat’s front paws and allowing it to peek out, creating an endearing and playful atmosphere.
→ダンボール箱は部分的に開いており、猫の前足を見せて覗き出すことができるようになっており、愛らしく遊び心のある雰囲気を作り出している

元の画像の特報を非常に詳細に記述できていると思いませんか。
ここまで詳細にプロンプトを描きだしてくれるなら、このプロンプトを使って生成した画像を見てみましょう。