DALL-E3の持つ驚愕の機能~画像からプロンプトの生成が可能に

DALL-E3で画像からプロンプトを生成 AI ✖ ツール

はじめに

前回紹介したGPT-4Vの画像生成機能が非常に高いクオリティを持っていることを紹介しました。
今回、単純な画像生成だけではなく、GPT-4Vになったことで画像をアップデートすることで、その画像のプロンプト抽出、量産まで出来るようになったことを紹介します。

画像からプロンプトを逆に生成してもらうことも可能

通常は、プロンプトを入力して画像を生成してもらいますが、このGPT-4Vでは、読み込んだ画像から、プロンプトを出力してもらうことも可能になりました。
試しに、こちらの先ほど出力した猫の画像を使います。
ChatGPTのDeffaultモードで、この猫の画像を以下のプロンプトともに指示します。

そうすると、以下のようなプロンプトが出力されました。

どうでしょう?
ここまで詳細なプロンプトを出力してくれます。

画像から出力されたプロンプトを読み解く

このプロントを分解してみます。元の画像を頭に思い浮かべながら見てみてください。

・An inquisitive calico cat situated inside a cardboard box.
→好奇心旺盛な三毛猫がダンボール箱の中にいる
・The feline should have a mix of white, black, and rich orange fur, complemented by its remarkably vivid turquoise eyes.
→その猫は白、黒、そして濃いオレンジ色の毛並みを持ち、それが非常に鮮やかなターコイズブルーの目を引き立てている
・Its gaze should be directed upwards, filled with curiosity. A pair of glossy whiskers stand out against its face, capturing the light perfectly.
→その視線は上向きで好奇心に満ちており、光を完璧に捉える光沢のあるヒゲが顔に映えている
・In the background, hints of a homely environment, such as bookshelves, should subtly present themselves.
→背景には、本棚などの家庭的な環境のヒントが微妙に現れている
・The cardboard box should be partially open, revealing the cat’s front paws and allowing it to peek out, creating an endearing and playful atmosphere.
→ダンボール箱は部分的に開いており、猫の前足を見せて覗き出すことができるようになっており、愛らしく遊び心のある雰囲気を作り出している

元の画像の特報を非常に詳細に記述できていると思いませんか。
ここまで詳細にプロンプトを描きだしてくれるなら、このプロンプトを使って生成した画像を見てみましょう。

画像から生成したプロンプトで、画像を生成する

こちらが、上のプロンプトで生成した画像です。

プロンプトの要素を全て拾って、同レベルの画像ができていますね!

この機能の実装によって、何ができるのか?

このように画像→プロンプトが出力できるようになったことで、もたらされるものは何でしょうか?
それは、画像に対する理解の解像度の向上です。

この機能により、自分が真似してみようと思った画像を描くときに、自分がイメージする要素と、AIが再現するために必要と考えた要素のマッチングができるようになります。

この猫のプロンプトでも、自分が生成する時にどこまでのプロンプトが必要なのか?逆に自分が作りたい画像に対して不要なプロンプトは何なのか?
それがわかるようになります。

例えば毛色を変えたり、背景を屋外にするなどです。

これが試した結果です。屋外の公園を指定してみました。

まとめ

GPT-4Vの画像生成機能は、テキストからの画像生成の新しい可能性を切り開いています。従来の方法とは異なる、新しい視点やアイディアを形にする手助けとして、この技術はこれからのクリエイティブな分野での活用が期待されます。

この感動は、実際に自分で触ってみないと経験できないものです。
是非今の内に、GPT-4Vの持つ機能を体験してみてください。

AIと共に未来を創る!

コメント

タイトルとURLをコピーしました