ComfyUIでエロ画像から勝手にプロンプトを考えてもらおう!

ノード

Stable DiffusionのWebUIを使ってる人なら、一度は使ったであろう「Deep Danbooru」によるキャプション自動生成機能。画像から勝手にプロンプトを出してくれてめっちゃ便利ですよね!

ComfyUIにも同じく作用するノードがありますが、captionと検索してもいくつか候補があり、どれを使うのが一番いいのか迷っちゃいますよね。

というわけで、この記事ではComfyUIでキャプション(プロンプト)を自動生成できる6つのノードをピックアップして、それぞれ簡単に紹介&比較してみます!

元画像はこれです。

  • Positive
  • Negative

1girl, doggystyle, happy sex, cum, beach, fang, red eyes, top-down bottom-up, tan, sunlight, best quality

bad quality, worst quality, worst detail, sketch, text, watermark, kemonomimi

それではやっていきましょう!

ブラウザ上のツールをお探しの場合はこちらの記事を参考にしてください。

Deep Danbooru Caption

ComfyUIでキャプション自動生成を始めるなら、まず登場するのがこのDeep Danbooru Captionノードです。

Deep DanbooruはWeb上で試せるデモもあります。前述のとおりWebUIにもある機能で、使い方はほぼ同じだと思われがちですが、少し異なる部分もあります。

  • threshold:数値が高いほど、より確実な要素を抽出
  • sort_alpha:アルファベット順にタグを並べ替えるかどうか
  • use_spaces:_を空白にするか
  • escape:()をエスケープ処理するか 例:serval /(kemono friends/)
  • blacklist:除外したい呪文を指定?
  • device_mode:AUTO / Prefer CPU / GPU
  • prefix:先頭につけるテキスト
  • suffix:末尾につけるテキスト
  • enabled:有効/無効

結果:無難に良し

Prompt

1boy, 1girl, beach, beach towel, beach umbrella, bikini, bikini aside, black bikini, blue sky, blush, cloud, cloudy sky, cum, cum on ass, cum on body, dark-skinned female, dark skin, day, ejaculation, hetero, horizon, long hair, looking at viewer, ocean, one-piece tan, open mouth, outdoors, red eyes, sand, sex, sex from behind, side-tie bikini, sky, smile, solo focus, sweat, swimsuit, tan, tanlines, top-down bottom-up, white hair

すべて品質系プロンプトを後乗せしています。

thresholdは0.5でしたが、広く拾ってくれました。かわりにパラソルなどない要素が増えてしまっています。

似たような意味も含まれているので、手動で整理する必要があるでしょう。アルファベットソートで見やすくなっているのは嬉しいところ。

WD14 Tagger

SmilingWolfのWaifuDiffusion v1.4タグモデルを基に構築されたノード。複数モデルの選択や、exclude_tags含めてほしくないタグを選択できるのが特徴。

  • model:使用モデル
  • threshold:数値が高いほど、より確実な要素を抽出
  • character_threshold:キャラ版しきい値。低いと千石冠を香風智乃と誤認する感じ
  • replace_underscore:_を空白とするか
  • trailing_commma:出力の終わりにカンマを入れるか
  • exclude_tags:除外するタグ

結果:属性を的確に拾う

Prompt

1girl, long hair, blush, smile, open mouth, red eyes, 1boy, swimsuit, ass, :d, hetero, bikini, sweat, outdoors, sky, solo focus, day, fang, shiny, cloud, dark skin, cum, sex, blue sky, loli, cum in pussy, black bikini, side-tie bikini bottom, ocean, beach, tan, sex from behind, all fours, tanlines, doggystyle, sand, overflow, top-down bottom-up, cum on ass

cum on ass, cum on bodyのかわりにcum in pussyoverflowでより中出しを極め、loliも追加されキャラとエロにフォーカスした感じです。

BLIP Captionノード

BLIP(Bootstrapping Language-Image Pre-training)はDeep Danbooruとは異なり、より自然言語的なキャプションを生成するのが特徴です。

  • blip_model:使用するBLIPモデル、繋がなくても使える模様
  • min_length:生成されるキャプションの最小文字数
  • max_length:生成されるキャプションの最大文字数

結果:フェイスクラッシャーになる

Prompt

a cartoon girl laying on the beach with her butt exposed and her head down on her knees, with a man in the background

エロ画像には物足りないかも。自然言語なのでFluxやImageFXなどで全年齢向けとして使うべきですね。

Joy Caption Twoノード

Joy Caption Twoは、多様な形式でキャプションを生成できる強力なノードです。Llamaモデルに基づいており、さまざまな用途に合わせて出力形式を選択できます。

  • joy_two_pipeline:使用するパイプライン
  • caption_type:生成するキャプションの形式を選択可能。以下が選択肢:
    • Descriptive:説明文
    • Descriptive (Informal):自然言語な説明文
    • Training Prompt:学習用プロンプト?
    • Midjourney:Midjourney向けのプロンプト形式
    • Booru tag list:Danbooruのタグリスト
    • Booru-like tag list:Danbooru風タグリスト
    • Art Critic:アート批評風のコメント
    • Product Listing:商品説明風のキャプション
    • Social Media Post:SNS投稿向けのキャプション
  • caption_length:生成されるキャプションの長さを選択
  • low_vram:低VRAMモードを使用するかどうか

結果:Descriptive

Prompt

1girl, day, cum on butt, sun, cum on hair, beach, cum, cum on face, outdoors, sky, black bikini, from behind, cum in hair, butt, cum on back, :), ass up, cum on body, on all fours, cum on ass, swimsuit, solo focus, cum on hands, long hair, cum on clothes, ocean, ass_jiggle, cum on neck, 1boy, red eyes, black_swimsuit, bangs, cum on hairband, beach ball, hetero, suggestive, white hair, hairband, bikini, looking at viewer, cum drip, daybreak, sweat, looking back, ass_grab, ass_grab from behind, sand

精液の量が増えました。顔にはかかってなかったはずですが……Deep Danbooruよりも性的表現を誇張する感じで面白いです。

dayがありながらdaybreakもあるのはAIの混乱が垣間見えます。商品説明風などのキャプションが選べるのは面白いですが、Llama自体の日本語は期待できないのでエンタメとして割り切るべきでしょうか。

SeaArtLabDealJoyCaptionV2ノード

SeaArtLabDealJoyCaptionV2は、SeaArt独自と思われるキャプション生成ノードで、Joy Caption Twoに似た機能を持ちながら、より細かいカスタマイズオプションを提供します。

  • custom_prompt:含めてほしい単語
  • max_tokens:生成されるトークン数の最大値(デフォルトは300)
  • top_k:使う言葉の数の上限
  • top_p:どれくらい冒険するかの度合い
  • temperature:生成のランダム性を調整する

SeaArtLabJoyCaptionV2ExtraOption

extra_optionの存在が特徴的で、生成されるキャプションの内容に何を含めるか詳細にコントロールできます。中国語が読めれば。

オリジナルJoyCaptionのリポジトリに記載されている追加オプションに基づいているようですが、いくつか削除されてますね。

パラメータ意味
如果图像中有人物/角色,您必须将其称为 {name}。画像に人物/キャラクターが含まれる場合、それらを{name}と呼ぶ。
不要包含有关无法更改的人物/角色的信息(例如种族、性别等),但仍包含可更改的属性(例如发型)。変更できない要素(例:人種、性別など)に関する情報は含めず、変更可能な属性(例:髪型)は含める。
包括有关照明的信息。照明に関する情報を含める。
包括有关相机角度的信息。カメラアングルに関する情報を含める。
包括有关是否有水印的信息。透かしがあるかどうかの情報を含める。
包括有关是否存在 JPEG 伪像的信息。JPEGのアーティファクトの有無に関する情報を含める。
如果是照片,您必须包含有关可能使用的相机的信息以及光圈、快门速度、ISO 等详细信息。写真の場合、使用された可能性のあるカメラや絞り値、シャッタースピード、ISOなどの詳細情報を必ず含める。
请勿包含任何与性有关的内容;保持 PG。性的な内容は一切含めず、PG レーティングで維持。
不要提及图像的分辨率。画像の解像度については言及しない。
您必须包含有关图像主观审美质量(从低到非常高)的信息。画像の主観的な美的品質(低から非常に高まで)に関する情報を含める。
包括有关图像构图风格的信息,例如引导线、三分法或对称性。画像の構図スタイル(例:導線、三分割法、対称性など)に関する情報を含める。
不要提及图像中的任何文字。画像内のテキストには一切言及しない。
指定景深以及背景是否清晰或模糊。被写界深度と背景が鮮明かぼかされているかを指定。
如果适用,请提及可能使用的人造或自然光源。該当する場合は、使われた可能性のある人工または自然の光源について言及する。
不要使用任何模棱两可的语言。曖昧な表現は一切使わない。
包括图像是否科幻、暗示或不科幻。その画像の年齢制限について含める。
仅描述图像中最重要的元素。画像の中で最も重要な要素のみを記述する。

OpenSeaArtLabJoyCaptionV2ExtraOptionノードもありますが、ほとんど同じだと思われるので省略。

結果:長い

長すぎるプロンプト
Prompt

In this visually striking image, a young woman is depicted in a compromising position on a sun-kissed beach, her slender figure accentuated by the vibrant blue waters and sky above. The subject, a female character with long, silvery white hair and piercing red eyes, is shown on all fours, her hands grasping the sand as she looks up at the viewer with a mixture of embarrassment and playful defiance.

The woman’s attire consists of a black bikini, the strings of which are tied at the sides, highlighting her toned physique. Her back is arched, and her buttocks are raised in the air, as if she has just been caught in a compromising position. A dark streak of liquid is visible on her back, suggesting a recent and intimate encounter.

In the background, the sun is setting over the ocean, casting a warm glow over the scene. The sky is a brilliant blue, with a few puffy white clouds scattered across it. The beach itself is pristine, with not a single object out of place. In the distance, a range of hills rises up from the shore, their gentle slopes and verdant foliage a striking contrast to the bright, sun-drenched beach.

The image is rendered in a highly detailed and realistic style, with a focus on capturing the subtleties of human expression and the textures of the natural world. The artist’s use of light and color is particularly noteworthy, as they skillfully convey the warmth and energy of the scene. The overall effect

max_tokenstop_ktemperatureといったパラメータから生成される文章のスタイルやランダム性を自由に調整できて、柔軟かつ高度なキャプション生成ができそうです。

多くのオプションがある分、設定が複雑になる場合もあり、使いこなすには少し慣れが必要かもしれません。デフォルトだと長すぎますし。

あとはそこまでいじくり回す必要があるかどうか。

Image to Text – Auto Captionノード

Image to Text – Auto Captionは、複数のモデル(BLIP、Llama、MiniCPMなど)を使用して多様な形式のキャプションを生成できます。

中央にある質問文が特徴的で、これらに基づいて生成されるキャプションの方向性や内容を調整できます。彼女の好きな食べ物はなんだと思う?みたいなキャプションに不要なクソ質問も可能。

  • use_blip_model:BLIPモデルを使用するかどうか
  • use_llava_model:LLaVAモデルを使用するかどうか
  • use_mini_pcm_model:MiniCPMモデルを使用するかどうか
  • use_all_models:全部乗せ
  • blip_caption_prefix:先頭に追加するテキスト(例: “a photograph of”)

結果:設定をいじらないと微妙

a photograph of→an image ofに変更

Prompt

an image of a female anime character bends over in thong on the beach and is falling down towards her asssimbomacian body behind she lies down next to one head while the face,

初期設定はBLIPのみ。これではBLIP Captionと一緒ないし劣化になってしまいます。

良くも悪くも質問次第、結局はこちらの努力になりますし、プロンプトを自動生成させる目的には向いてないでしょう。

まとめ:WD14 Taggerがオススメ

今回紹介した6つのキャプション生成ノード。それぞれに特徴や強みがありますが、品質を考えるとWD14 Taggerがオススメです。Deep Danbooru Caption手軽で、アルファベット並び替えは独自の良さがあります。

ちょっと違った角度からのアイデアが欲しいときには、Joy Caption Twoの出番。多彩な出力形式と盛り盛り表現力で、新しいプロンプトのヒントを得るのにぴったりです。暴走しがちなのが玉に瑕。

他のノードもそれぞれ個性豊かですが、万人に幅広く使えるのはDeep Danbooru Caption。まずはこのノードから始めて、必要に応じて他のノードも試してみるのが良いでしょう。

コメント

タイトルとURLをコピーしました