新しい蚘事: AI 描画に関するワヌクショップ、パヌト 3: SDXNUMXM - C の「C」

Stability AIが開発・蚓緎した、テキストプロンプトを画像に倉換するオヌプン゜ヌスモデルのリリヌス履歎が、マむクロ゜フトのOSリリヌスの浮き沈みの連続に䌌おいるのは面癜い。䌝説的な成功を収めたXPの埌には、問題の倚いVistaが登堎し、その埌、玠晎らしいWindows 7、そしお䞍運なWindows 7が登堎した。 Windows 8. Stable Diffusionでは、圓初は芋栄えの悪いバヌゞョン1.5が埐々に愛奜家によっお改良され、その埌、率盎に蚀っお倱敗に終わったSD 2.0が登堎したした。実際、この皮のモデルでは䞀般的ではないOpenCLIP゚ンコヌダヌが含たれおいたため、倱敗に終わりたした。 非垞に曖昧に遞択された画像でトレヌニングされたした の オヌプンデヌタセット LAION-5B。この遞択では、䞍適切なNSFW芖芚的参照だけでなく、悪名高いグレッグ・ルトコりスキヌなどの人気アヌティストによる絵画やむラストも排陀されたした。最終的に愛奜家を激怒させたのは埌者でした。SD 1.5 の堎合、オリゞナル バヌゞョンであっおも、特に高床なチェックポむントを䜿甚せずに、スタむルを備えたシンプルなヒントが完璧に機胜しおいたした - 「グレッグ ルトコりスキヌのスタむルによる壮倧な䞭䞖のファンタゞヌ颚景」 -その結果は印象的でしたが、その埌、SD 2.0 は、最も広く知られおいるむラストレヌタヌの名前を「認識」するこずを停止したした。むラストレヌタヌの䜜成した䜜品の著䜜暩はただ有効であり、これらの䜜品を AI トレヌニングに提䟛する぀もりはありたせんでした。欲しいものを説明するにはより倚くの単語を䜿甚する必芁があり、モデルは長すぎるヒントにうたく察応できたせんでした。

新しい蚘事: AI 描画に関するワヌクショップ、パヌト 3: SDXNUMXM - C の「C」

⇡#座っお、立っお、座っお、立っお

修正された゚ンコヌダヌ (テキスト ヒントをデゞタル トヌクンに倉換し、モデルが盎接操䜜するコンバヌタヌ) ず組み合わせるず、名前付きスタむルを䜿甚できないため、愛奜家は「1.5 ぀」を自分で改良する動機を単玔に奪いたした。実際、ここでは、新しい゚ンコヌダのヒントを構成するためのすでに実蚌枈みのテクニックを調敎する方法を同時に理解する必芁があり、さらに、䜜成者がその段階で導入しなかった画像やトピックを認識するようにモデルをトレヌニングする必芁がありたした。しかし、「512 枚」で生成された「512 枚半」の画像ずは質的な違いがあったが、それでも保蚌されおいたせんでした。はい、暙準の SD 768 サむズの 768x2.0 ピクセルから XNUMXxXNUMX ぞの質的な飛躍がありたしたが、その時たでにコミュニティはすでにアップスケヌラヌ、アりトペむンタ、その他のツヌルを䜿甚しお最終むメヌゞのサむズを拡倧しおいたので、SD XNUMX はパスされたした。倧きくお目立たない。 SDXL 暙準に戻った (OpenAI によっお開発され、特に DALL-E プロゞェクトによっお䜿甚されたす) CLIP゚ンコヌダヌぞ - そのコヌドも公開されおいたすが、これがトレヌニングされるデヌタベヌスです。 OpenCLIPずは異なりたす、独自の。さらに、オヌバヌサむズの暙準キャンバス サむズが 1024x1024 に増加し、さらに倚くの改良が加えられたため、愛奜家は喜んで改良に着手したした。そしお珟圚たでのずころ、それは SDXL (および、それほど前に登堎した、ハヌドりェアぞの芁求が䜎い、SDXL の掟生補品です) SDXLタヌボ О SDXLラむトニング) は、最も人気のあるオヌプン゜ヌス AI 画像ゞェネレヌタヌであるず自信を持っお蚀えたす。しかし、SD 1.5 の熱心な支持者はこれに反論し、ControlNet などの重芁なツヌルが SDXL に含たれおいるこずを指摘しおいたす。 ただ十分に転送されおいない.

そしお今、12 幎 2024 月 3 日、ロヌカル生成を蚱可するモデル コヌドが「公開」された瞬間から、SD XNUMX の「オヌプン」バヌゞョンの時が来るはずです - より正確に蚀えば、 安定拡散3äž­ (SD3M たたは SD3 2B) 2 億の動䜜パラメヌタを備えおいたす。埓来、この数倀はモデル内のすべおのパヌセプトロンの入力における重みの合蚈数に察応するこずを思い出しおください。さらに早い 8 月には、Stability AI が XNUMX 䞇番目 (パラメヌタ数の点で) に呜を吹き蟌み、商甚利甚を提案したした。 安定拡散 3 倧、別名SD3 8B。 SDXL 1.0 には - 3,5億のパラメヌタただし、開発者によるず、SD3M は 「これたでに䜜成した䞭で最も掗緎された画像生成モデル」。これは、オヌバヌサむズよりも少ないビデオ メモリの必芁性で、単玔なプロンプトに応答しおも「新しいレベルのフォトリアリズム」を備えた画像を生成する必芁があるこずを意味しおいたした。 「C」グレヌドの利点には、「生成された画像から埗られるテキストのタむポグラフィヌのこれたでにない品質」、「3 人のコヌダヌが同時に協力するこずによるヒントの深い理解」、「限られたデヌタセットでも効果的な远加トレヌニングが可胜です。」

新しい蚘事: AI 描画に関するワヌクショップ、パヌト 3: SDXNUMXM - C の「C」

埅望の新しいおもちゃを自由に䜿えるようになった愛奜家のコミュニティは、圓時の「ワン・ハヌフ」や「オヌバヌサむズ」ず同じ熱心さでそれを磚き始めるだろうず圓然想定されおいたした。しかし、最初からすべおがうたくいきたせんでした。Hugging Face ず Civitai でモデル ファむルが公開されおから最初の数時間で SD3M が倱敗したした。 深く倱望させるこずができた 聎衆に、しかも䞀床に2回。初めお - 「草の䞊/草の䞭に暪たわっおいる」ずいう䞀芋無害なフレヌズを含む、手がかりに察する䞀芋説明できない特異性があった。 2぀目は、ナヌザヌ契玄の非垞に曖昧な文蚀で、プロの匁護士ですらすぐには理解できたせんでした。そしお、䞀般の AI アヌト愛奜家の芳点からは、埌者は重芁ではないように芋えたすが、モデルのさらなる開発に最も盎接的に反映されるのは、問題の法的偎面です。党然フォロヌしおください。

SDXL など、以前のオヌプン゜ヌスの Stable Diffusion の䜜成物 (より正確には、無料でダりンロヌドしおロヌカルで実行できるニュヌラル ネットワヌクの重みの公開倀を備えたもの) には、兞型的な生成モデルの 1 ぀が付属しおいたした。 CreativeML Open RAIL++-M ラむセンス 「モデル自䜓ずその掟生物の䞡方の远加マテリアルを耇補、準備、公に展瀺、公に実挔、サブラむセンスおよび配垃するための、氞久的、䞖界的、非独占的、ロむダルティフリヌ、ロむダルティフリヌ、取消䞍胜な著䜜暩ラむセンス」などの特城を備えおいたす。 」 「Troechka」は 2 皮類のラむセンスを提䟛したす。 非商業的䜿甚のため - 「Stability AI は、知的財産に察する非独占的、党䞖界的、譲枡䞍可、サブラむセンス䞍可、取り消し可胜、ロむダルティフリヌの制限付きラむセンスを付䞎したす」のような非垞に気を萜ずすような文蚀で - はるかに面倒なコマヌシャル.

⇡#草は䜕の圹にも立ちたせん

非垞に短い時間の埌、コミュニティは次のこずに同意したした。 Stable Diffusion 3 はオヌプン゜ヌスではありたせん。そしお実際、同瀟は開発䌚瀟のボむコットを宣蚀した。率盎に蚀っお粗雑で歪んで骚抜きになったモデルの远加トレヌニングに時間ず劎力を浪費したくないからだ。メディアのほんのわずかな気たぐれでい぀でも安定性AIができる可胜性があるこずを理解した䞊で管理者は、特定の愛奜家に以前に発行されたラむセンスを取埗しお取り消し、そのような远加のトレヌニングを実斜したす。このラむセンス契玄は、この契玄を勉匷しおいる非匁護士が、SD3M の商業利甚の蚱可が取り消された埌、その元の受領者は、その元の受領者が䜜成したすべおの掟生物を、ラむセンスされた知的財産から削陀する矩務があるずいう印象を受けるような方法で䜜成されおいたす。これには、事前トレヌニングされたモデル自䜓 (LoRA、テキスト反転、チェックポむント党䜓) ずその掟生モデル (匕甚: 「本契玄の終了に際し、゜フトりェア補品たたは掟生䜜品は削陀し、䜿甚を停止するものずしたす」) の䞡方が含たれたす。぀たり、これらの掟生モデルを自分自身の䜜業の出発点ずしお䜿甚した他の人の䜜業の成果です。しかも、それは誰からの資金提䟛も受けず、玔粋な熱意によっお行われたした。

この問題に察する怒りの波が成局圏の高さに達しおすぐに、専門の匁護士からのメッセヌゞが届き始めたした。 それは悪いこずばかりではないずいうこず そしお、さらなる䜿甚の犁止を䌎うリコヌルは、実際には、Stability AI が商甚ナヌザヌに譲枡する (たずえば、同じ SD3M の事前トレヌニングを高速化しお最適化するため) 特定のクロヌズド゜ヌスの補助補品にのみ関係するはずですが、䌚瀟自䜓ははこの件に぀いおただ最終的な説明をしおおらず、提䟛しおいない。そしお、パブリックドメむンに「C」が出珟しお以来、この蚘事の執筆時点で過去 XNUMX 週間にわたっおそのような抑圧的な沈黙が続いおきたずいう事実自䜓が、草が少女たちに害を及がすよりもはるかに重倧に開発者の評刀を傷぀けたす。圌の創造によっお生み出されたした。

新しい蚘事: AI 描画に関するワヌクショップ、パヌト 3: SDXNUMXM - C の「C」

文字通り数時間でミヌムになった悪名高いハヌブに぀いおは たずはハグフェむスからそしお、むンタヌネット䞊のほがすべおの倚かれ少なかれ専門的なサむトで、「草の䞊に暪たわっおいる女の子」のようなフレヌズのプロンプトに存圚するず、幻芚だけでなく「C」の結果が衚瀺されるこずが刀明したした。しかし、医孊的な意味での患者の悪倢のような創䜜物は、ボディホラヌを専門ずするアヌティストや映画補䜜者の空想です私たちはあなたに、もしあなたの正気ず呜があなたにずっお倧切なのであれば、これから離れお、それをしようずさえしないでください。セキュリティフィルタヌを無効にしお画像怜玢りィンドりにこのフレヌズを入力しおください)。同時に、人々が立っおいる画像、および皋床は䜎いですが座っおいる画像は、自信を持っお B プラスの C グレヌドを達成し、ポヌトレヌトは完党に完璧に写るこずもありたす。少なくずも基本モデル SDXL 1.0 よりも悪くはありたせん。ここでの萜ずし穎は、たさに人䜓の氎平䜍眮に関​​するある皮の内郚タブヌです。

創蚭者であり、前2024 幎 XNUMX 月たでStability AI の責任者であった Emad Mostaque 氏のコメントから刀断するず、圌は䌚瀟を蟞めたした。 「人工知胜分野の分散型プロゞェクトに埓事する」、限定された非商業的䜿甚のための䜓重蚈の開始盎前の SD3M に察する重倧な暎力 (オンラむン生成甚のより倧型の SD3 8B モデルの API、リコヌル) 4月より提携サむトにお販売開始、しかしその重みは隠されたたたですは、珟圚の指導者の安党に察する願望の結果でした - 「芏制䞊の矩務があるため」、今幎の 3 月に策定されたした。 Acceptable Use Policy。このポリシヌでは、SD3M 生成モデルを䜿甚し、ナヌザヌは「さらなる暎力、テロリズム、たたは差別や脅迫を䌎う憎悪に満ちたコンテンツの䜜成をコミット、促進、奚励、助長、奚励、蚈画、扇動、促進するこず」を犁じられおいたす。 性別、民族、性的同䞀性や性的指向、宗教などに基づいおいるかどうかにかかわらず保護された人々のグルヌプ」ず芏定されおいるため、狂暎なドラゎンず戊うために母芪が産んだパンダの画像はありたせん。面癜い垜子をかぶった猫、かわいいゞャケットを着た犬、䞭身が分からないボトル、オヌブンから出したばかりの焌きたおのクッキヌだけです。

技術的に蚀えば、おそらくモデルの去勢は、暪たわっおいる人々の画像や、䜕らかの圢でわいせ぀な解釈を暗瀺するその他の画像がトレヌニング デヌタセットから単玔に陀倖されたずいう事実にありたす。したがっお、「C」は単玔に「理解できない」こずになりたす。 「嘘」ずいう蚀葉の意味。あるいは、曎新された SD3 アヌキテクチャにより、「安党でない」画像の生成䞭にアクティブ化されたパヌセプトロンの重みを確実に特定できるようになりたした。これらの重みはリリヌス盎前に遞択的にれロにリセットされ、その副䜜甚は「匷制幻芚」でした。倚分、 これはすでにロボトミヌ手術ず比范できたす: ゚ンコヌダヌはテキストをトヌクンに正しく倉換したすが、「安党な」朜圚空間では、これらのトヌクンはもはや特定のものを瀺さないため、結果ずしお埗られるピクセルは画像内で基本的にランダムに配眮されたす。

新しい蚘事: AI 描画に関するワヌクショップ、パヌト 3: SDXNUMXM - C の「C」

本栌的ではあるが非公開の SD3 8B モデルの API が数か月間利甚可胜であるこずず、2B が「コンパクト化された」ずいう Stability AI メディア マネヌゞャヌの熱烈な保蚌を考慮するず、 テキスト認識ず画像生成の品質に関しおはほが同じになりたす、AI 描画愛奜家は、3 月 12 日の SDXNUMXM スケヌルの䞀般公開を、次のように熱意を持っお歓迎したした。 最初の 24 時間でモデルは 2,7 䞇回ダりンロヌドされたした。珟時点では、チェックポむント SDXL および SD 1.5 の通垞よりもやや回りくどい方法ではありたすが、それでも入手するこずは可胜です。実際には、Civitai の Web サむトにアクセスしお、ほずんどのモデルを登録なしでダりンロヌドするのが䞀般的な方法ですが、17 月 XNUMX 日からレむアりトに関するこの蚘事の転送たでの間、このサむトの「C」専甚ペヌゞが開蚭されたした。 仮颚呂に入っおいる。理由は 3 ぀だけです。SDXNUMXM の商甚ラむセンスは非垞に曖昧な蚀葉で曞かれおいるため、Civitai の匁護士でさえ、詳しく調べるために䌑憩を取ったからです。結局のずころ、誰かの愛奜家が自分の PC で LoRA を「C」に向けおトレヌニングし、それを Civitai に投皿し、安定性 AI が突然その結果が䞍適切であるず刀断し、犯人のラむセンスを剥奪した堎合、この堎合ホスティング サむトは䜕をすべきでしょうか?結局のずころ、チェックポむント、補助的なサむクログラム、およびモデルをホストするだけでなく、蚪問者にクラりドベヌスの画像を生成し、同じ LoRA、テキスト反転などをトレヌニングする機䌚も提䟛したす。䞀般に、トラむアルの進行䞭は、モデル自䜓のファむルずそれに付属する XNUMX ぀のテキストからトヌクンぞのコンバヌタヌのみを取埗できたす。 Hugging Face ポヌタルの Stability AI 自身のペヌゞより.

⇡#始めたしょう

ただし、埮劙な点がありたす。ダりンロヌド リンクにアクセスするには、サむトにログむンし、先ほど述べた厳栌な䜿甚蚱諟契玄ぞの同意を確認する必芁がありたす。ただし、この手順は無料で、次のサむトから簡単にアクセスできたす。ロシア。合蚈で、実際のモデル (モデル) には 4 ぀のオプション、テキスト プロンプトからトヌクンぞのコンバヌタ (゚ンコヌダヌ) には 4 ぀、さらに ComfyUI 䜜業環境で実行するための 3 ぀の参照サむクログラムがありたす。 それに぀いおはすでに䞀床話したした:

モデル

  • sd3_medium.safetensors
  • sd3_medium_incl_clips.safetensors
  • sd3_medium_incl_clips_t5xxlfp8.safetensors
  • sd3_medium_incl_clips_t5xxlfp16.safetensors

゚ンコヌダ:

  • Clip_g.safetensors
  • Clip_l.safetensors
  • t5xxl_fp8_e4m3fn.safetensors
  • t5xxl_fp16.safetensors

サむクログラム:

  • sd3_medium_example_workflow_basic.json
  • sd3_medium_example_workflow_multi_prompt.json
  • sd3_medium_example_workflow_upscaling.json

この「ワヌクショップ」では、基本モデル sd3_medium.safetensors (4,2 GB)、1,3 ぀の゚ンコヌダヌ - Clip_g.safetensors (234 GB)、clip_l.safetensors (5 MB)、および t8xxl_fp4_e3m4,7fn.safetensors (3 GB) に限定したす。サむクログラム sd1070_medium_example_workflow_multi_prompt.json ずしお。実際のずころ、私たちのテスト マシンには 8 GB のビデオ RAM を備えた GeForce GTX 1.5 ビデオ カヌドが搭茉されおおり、すべおのコンバヌタを䞀床に統合した倧型モデルはこの容量に収たりたせん。 SD 6 および SDXL に基づくチェックポむントの堎合、゚ンコヌダヌはデフォルトでメむン ファむルに組み蟌たれたすが、この堎合、これらのコンバヌタヌは 10 ぀ではなく 16 ぀あり、モデル自䜓ず合わせお合蚈 5 GB を超えたす。すでに 6 GB を超えおいたす。 T5XXL ゚ンコヌダの 7 ビット バヌゞョンを䜿甚する堎合は、さらに優れたビデオ カヌドが必芁になりたす。テキストからトヌクンぞのコンバヌタヌが最初にビデオ メモリにロヌドされ、次にこれらのトヌクンを䜿甚しお動䜜するモデルがロヌドされるバヌゞョンでは、XNUMX GB グラフィックス アダプタヌでも問題なく動䜜したす。この芳点から芋るず、モゞュヌル匏の「トロむカ」は、䞀般的な XNUMX  XNUMX GB の SDXL チェックポむントよりも確実にパフォヌマンスが優れおいたす。

SD3M は、マルチモヌダル拡散倉圧噚 (マルチモヌダル拡散トランス、MMDiT) - したがっお、これは、以䞋に基づいた安定性 AI (それだけではありたせん) の以前の開発ずは根本的に異なりたす。 2015 幎に提案された U-Net アヌキテクチャ このワヌクショップは、AI 画像生成に察するこれらのアプロヌチの違いを掘り䞋げる堎所ではありたせん。それだけ蚀っおおきたしょう MMDiT はモデルのパフォヌマンスを向䞊させたす、より倚くのトヌクンを扱う胜力その結果、オペレヌタヌは非垞に広範囲のテキストプロンプトを䜜成でき、システムはそれらに非垞に時間厳守で埓うこずができたす、そしお結果ずしお埗られる画像の品質が向䞊したす。フルサむズの SD3 8B は、4 MP キャンバス (2048 × 2048 ピクセル) 䞊に画像を生成できたす。 DALL-E 3、Midjourney v6、Ideogram v1 よりも先に 画像内のテキストの再珟、結果ずしお埗られる画像ずテキスト手がかりの䞀臎の粟床、党䜓的な芖芚的な矎しさなどのテストで行われたす。ここでは、テキストのトヌクンのベクトルぞの倉換が 3 ぀の゚ンコヌダヌによっお同時に実行されたす (2぀のCLIPモデル そしおT5-XXLが5぀、぀たり「TXNUMX」です。 テキストからテキストぞの転送トランスフォヌマヌ) - そしお、䞀般的に蚀えば、同じヒントを䜿甚しお䜜業する必芁はありたせん。

新しい蚘事: AI 描画に関するワヌクショップ、パヌト 3: SDXNUMXM - C の「C」

前眮きはこれくらいにしお、「ワヌクショップ」の目的、぀たり SD3M モデルに基づいた画像の生成に぀いお説明したしょう。このために、すでに述べたように、ダりンロヌドできる ComfyUI 䜜業環境を䜿甚したす。 GitHub からの盎接リンク経由。このオプションは、NVIDIA グラフィック アダプタヌ䞊で実行するか、AMD たたは Intel CPU 䞊で盎接実行する堎合にのみ䜿甚できるこずを匷調したす (もちろん、これははるかに遅くなりたす): AMD ビデオ カヌドの所有者 束葉杖はパッケヌゞの圢で提䟛されたす rocm ず pytorch は、pip ダりンロヌド マネヌゞャヌ経由でむンストヌルできたす。

䜜業環境のむンストヌルが完了したら、以前にダりンロヌドした .safetensors ファむル (モデルは ComfyUImodelscheckpoints ディレクトリ、テキストからトヌクンぞのコンバヌタヌは ComfyUImodelsclip) に配眮する必芁がありたす。そしお、始めたしょう

⇡#スピヌドアップする時が来たした

AI 描画をテヌマにしたこれたでの「ワヌクショップ」の読者にはよく知られた䜜業環境である AUTOMATIC1111 も XNUMX 月末たでにリリヌスされるこずは泚目に倀したす。 SD3Mを実行する機䌚を埗たしたただし、ComfyUI では、新しいモデルのサポヌトが最も完党なたたです。それは驚くべきこずではありたせん - 結局のずころ、぀い最近たで、愛奜家のコミュニティでは ComfyAnonimous (たたは単に Comfy) ずいうニックネヌムで知られおいた「パスタ モンスタヌ」の䜜者が、 Stability AIの瀟員でしたそこでは、特に開発者自身が䜿甚する瀟内䜜業環境に取り組みたした。少し埌で説明するように、ComfyUI の最新バヌゞョンは、この物議を醞すモデルがどのように構造化され機胜するかに぀いお、䜜成者からの特定の掞察の存圚を実際に蚌明しおいたす。この掞察は、Stable Diffusion 3 Medium をロヌカルで実行するための他の䜜業環境の䜜成者が瀺した掞察です。できない理由を簡単に自慢できたす。

新しい蚘事: AI 描画に関するワヌクショップ、パヌト 3: SDXNUMXM - C の「C」

ポヌタブル版の ComfyUI をむンストヌルしおください。 Windows ずおも簡単です。察応するZIPアヌカむブをダりンロヌドした埌、 公匏プロゞェクトペヌゞより 任意の䟿利なディレクトリに解凍するだけです。もちろん、HDD ではなく SSD ベヌスの論理パヌティション䞊で行うこずが望たしいです。単䞀の画像 (環境) を生成する堎合でも、モデルの今埌のロヌドおよびアンロヌド サむクルを考慮しお、ドラむブずメモリの間で亀換を行う必芁がありたす。最初にテキストからトヌクンぞのコンバヌタをビデオ RAM に配眮し、次にビデオ メモリをクリアしお SD3M 自䜓をロヌドする必芁がありたす) は、特定のコンピュヌタが自由に䜿えるビデオ メモリが少なくなるほど、さらに重芁になるこずが予想されたす。ちなみに、ポヌタブル むンストヌルも、その完党な独立性の点で優れおいたす。論理ディスク䞊の空き領域を陀いお、奜きなだけ ComfyUI のコピヌをロヌカルに展開しお、思う存分実隓するこずができたす。すでにデバッグされ、完党に動䜜しおいるシステムを台無しにするこずを恐れるこずなく、さたざたな拡匵子を持぀コンテンツを䜜成できたす。

新しい蚘事: AI 描画に関するワヌクショップ、パヌト 3: SDXNUMXM - C の「C」

テキストトヌクン゚ンコヌダヌが組み蟌たれおいないメむンのSD3MモデルファむルstableDiffusion3SD3_sd3Medium.safetensorsファむル、4,2 GBがチェックポむントサブディレクトリテストむンストヌルの堎合、フルパスはC:\Fun-n-Games\ComfyUI\SD3\ComfyUImodels\checkpointsに配眮され、3぀の゚ンコヌダヌモデルstableDiffusion3SD3_textEncoderClipG.safetensors、stableDiffusion3SD3_textEncoderClipL.safetensors、stableDiffusion3SD3_textEncoderT5E4m3fn.safetensorsファむル、それぞれ1,3 GB、234 MB、4,7 GBがクリップサブディレクトリC:\Fun-n-Games\ComfyUI\SD3\ComfyUImodelsclipに配眮されおいるこずを確認したら、ファむルをダブルクリックしお䜜業環境を起動できたす。ルヌトフォルダこの䟋では C:\Fun-n-Games\ComfyUI\SD3にある run_nvidia_gpu.bat を実行したす。サヌバヌが起動したら、衚瀺されるコマンドプロンプトりィンドりで、 Windows デフォルトのブラりザで新しいタブが自動的に開きたすこれはBATファむルの蚭定によっお暗黙的に瀺されたす。そのタブから、127.0.0.1/8188でWebむンタヌフェヌスにアクセスできたす。 以前私たちに飌い慣らされた たずえそれが単なる近䌌であっおも「パスタモンスタヌ」。

新しい蚘事: AI 描画に関するワヌクショップ、パヌト 3: SDXNUMXM - C の「C」

原則ずしお、より最新の NVIDIA ビデオ カヌド (GTX ではなく RTX 䞖代、ビデオ RAM が 6 GB しかない堎合でも) をお持ちの堎合は、前述した ComfyAnonimous 自身が䜜成した参照サむクグラムをすぐに䜜業環境にロヌドできたす。 - ファむル comfy_example_workflows_sd3_medium_example_workflow_multi_prompt.json には、プロンプトを入力するための耇数のりィンドり (XNUMX ぀の゚ンコヌダヌごずに XNUMX ぀ず぀) が含たれおおり、それを操䜜したす。確かに、最初にモデル ファむル (読み蟌みノヌド内) の XNUMX ぀の名前を既存の名前ず䞀臎させる必芁がありたす。参照サむクログラムの䜜成者は明らかに、職堎 (すでに述べたように Stability AI 内) で、ロヌカルで利甚可胜なファむルを少し異なる方法で呌び出しお操䜜しおいたした。そのため、サむクログラムをロヌドした盎埌にスパルタンな ComfyUI むンタヌフェむスの「キュヌ プロンプト」ボタンを抌すず、環境を動䜜させるず゚ラヌ メッセヌゞが生成されたす。

⇡#AI生成のための3぀のフィヌルド

ただし、これを修正するのは難しいこずではありたせん。さらに憂鬱なのは、私たちが自由に䜿える䜿い叀された GTX 1070 の SD3M 凊理が恐ろしく遅いずいう事実です。画像生成は反埩ごずに 27  30 秒の速床で進行したす。参照サむクログラムのパラメヌタヌ「ステップ」が「28」に蚭定されおおり、䞍圓に長い時間がかかるず考えられたす。したがっお、少し最適化を行っおみたしょう - Python モゞュヌル venv を䜿甚したす (仮想環境、「仮想環境」、特に生成 AI モデルの䜜業を高速化するように蚭蚈されおいたす。 ComfyUI のポヌタブル版の玍品パッケヌゞには含たれおいたせんが、 ただし、むンストヌルする方法はたくさんありたす、最終的には、本栌的な Python 環境をロヌカル PC にデプロむし、この環境から必芁なモゞュヌルをアクティブ化するこずになりたす。

新しい蚘事: AI 描画に関するワヌクショップ、パヌト 3: SDXNUMXM - C の「C」

私たちの「ワヌクショップ」をフォロヌしおいる読者のマシンには、すでに AUTOMATIC1111 がアクティブに動䜜するむンストヌルがむンストヌルされおいるずいう事実を期埅したす。この堎合、すべおがはるかに簡単です。venv モゞュヌルはすでにそこにデプロむされおおり、ComfyUI 䜜業環境を開始するずきにそれをアクティブ化するために必芁な操䜜は次のずおりです。 きちんず電話をかける。たず、りィンドりに切り替えお「Ctrl」+「C」を抌しおサヌバヌをシャットダりンし、「y」を入力しお確認したす。その埌、BAT ファむル run_nvidia_gpu.bat を run_with_venv.bat などの名前で新しいファむルにコピヌしたす。初期起動ファむルは非垞に簡朔です。 --windows-standalone-build オプションを䜿甚しお、移怍可胜にデプロむされた Python のコピヌを呌び出すだけです。

.python_embededpython.exe -s ComfyUImain.py --windows-standalone-build

䞀時停止

このパラメヌタ自䜓はあたり明確ではありたせん。これはいく぀かの最適化を暗瀺しおいたすが、おそらく最近の NVIDIA グラフィックス アダプタ向けに特別に蚭蚈されおいるため、圓然の GTX にただ忠実である人の生掻を悪化させる可胜性がありたす。このため、コマンド ラむンから -windows-standalone-build を削陀し、同時にもう 1 ぀の新しい最適化、぀たりデフォルトのアクティブな「スマヌト メモリ マネヌゞャヌ」であるスマヌト メモリも攟棄したす。 ビデオ RAM にできるだけ倚くの情報を保持するよう努めたすアンロヌドせずに。これにより、AI 画像の描画が倧幅に高速化されたすが、同時に時代遅れのコンピュヌタヌがシングルタスク システムに倉わりたす。PC 䞊で Web サヌフィンをしたり、ゲヌムをプレむしたり、文曞やメヌルを操䜜したりするこずさえできなくなりたす。䜜業環境の掻動ず䞊行しお。したがっお、AI アヌト専甚のコンピュヌタヌを持っおいない人にずっおは、ComfyUI を起動するための最適な BAT ファむルが最適であるず思われたす (ちなみに、SD3M から画像を生成する目的だけでなく、SDXL にも非垞に適しおいたす)。

@オプコヌ

cd C:Fun-n-GamesGitstable-diffusion-webuivenvScripts を呌び出したす

゚コヌ %cd%

activate.bat を呌び出す

゚コヌvenvがアクティブ化されたした

cd C:Fun-n-GamesComfyUI-SD3 を呌び出したす

゚コヌ %cd%

call .python_embededpython.exe -s ComfyUImain.py --disable-smart-memory

䞀時停止

ここでは、ComfyUI のポヌタブル むンストヌルが C:Fun-n-GamesComfyUI-SD3 ディレクトリで実行され、AUTOMATIC1111 が事前に C:Fun-n-GamesGitstable-diffusion-webui にむンストヌルされおいるず仮定したす。倚数の「゚コヌ」は、ディレクトリの倉曎が正垞に進行し、必芁なコマンドが実行されおいるこずを芖芚的に制埡するために必芁です。すべおがデバッグされた埌、それらは BAT ファむルから削陀できたす。

新しい蚘事: AI 描画に関するワヌクショップ、パヌト 3: SDXNUMXM - C の「C」

ワヌクベンチを再床起動したす。今回は run_with_venv.bat をダブルクリックしたす。以前はサヌバヌを閉じただけで Web むンタヌフェむスには觊れなかったので、モデル名が修正された同じ ComfyUI 参照サむクログラムが察応するタブに残っおいるはずです。その右偎に泚目しおください。そこには「プレビュヌ画像」ノヌドがあり、完成した画像をディスクに保存せず、衚瀺するだけです。毎回サむクログラムを実行しお正確に 1 ぀の画像を生成し、それを芖芚的に評䟡し、パラメヌタの䜕かを倉曎しお、再床実行する堎合、これは完党に機胜するオプションです。奜きな画像を右クリックするこずで、い぀でも手動で保存できたす。 。ただし、運甚環境で倚くの䞖代を連続しお実行する堎合は、その結果が氞続メモリ (デフォルトでは ComfyUIoutput ディレクトリ) に自動的に蓄積される方がよいでしょう。

新しい蚘事: AI 描画に関するワヌクショップ、パヌト 3: SDXNUMXM - C の「C」

したがっお、すぐに「プレビュヌ画像」ノヌドを「画像を保存」に倉曎するこずをお勧めしたす。これを行うには、サむクログラムの空いおいるセクションをマりスの巊ボタンでダブルクリックしたす。怜玢バヌのあるノヌド遞択りィンドりが開きたす。この行で「Save...」ず入力し始めるず、すぐに探しおいる名前が衚瀺されたす。次に、それをクリックしお、衚瀺されるノヌドの入力を、「プレビュヌ むメヌゞ」が元々接続されおいた「VAE Decode」ノヌドの「IMAGE」出力に接続するだけです。 「プレビュヌ画像」自䜓はさらに削陀できたす。タむトルをクリックしおキヌボヌドの「Del」キヌを抌しお遞択するだけです。

新しい蚘事: AI 描画に関するワヌクショップ、パヌト 3: SDXNUMXM - C の「C」

そしお今こそ、ComfyAnonimous によっお䜜成された参照サむクグラムを (控えめな調敎を加えお) 実行のために起動するずきです。次のこずがわかりたす。

新しい蚘事: AI 描画に関するワヌクショップ、パヌト 3: SDXNUMXM - C の「C」

ずおも印象的な絵で、雰囲気さえありたす。草の䞊に暪たわる人々を描くための指瀺に完党に驚かされたのず同じモデルを䜿甚しお䜜成されたずは蚀えたせん。同時に、システムは非垞に高速に動䜜したす。GTX 5 䞊の 6 メガピクセルの画像の反埩あたり玄 1  1070 秒は、適切な指暙ず考えるこずができたす。比范: 同じ BAT ファむルを䜿甚した同じ ComfyUI の同じ PC は、同様のサむズの SDXL 画像を生成し、各反埩に玄 6  7 秒かかりたす。そのため、AI を生成する PC ハヌドりェアに察する「C」の芁求は䜎いず考えられたす。進行䞭です。

新しい蚘事: AI 描画に関するワヌクショップ、パヌト 3: SDXNUMXM - C の「C」

次に、キャンバスのサむズを調敎したしょう。それらを蚭定する「EmptySD3LatentImage」ノヌドからそれほど遠くないずころに、「アむドル」぀たり、どの偎からも䜕にも接続されおいない参照ノヌド「Note」がありたす。これには重芁な泚意事項が含たれおいたす。 SD3M の堎合、画像は玄 1 MP でなければなりたせん。これに基づいお、長方圢のキャンバスの蟺の寞法を遞択する必芁がありたす。次に、1344×768 に蚭定したしょう。ちょうど玄 1,03 䞇ピクセルになりたす。

泚: 䞊蚘は「シヌド」ノヌドであり、シヌド自䜓が指定されおおり、この堎合は「945512652412924」であり、生成埌に倉曎すべきではないこずが瀺されおいたす (「固定」パラメヌタヌ)。

新しい蚘事: AI 描画に関するワヌクショップ、パヌト 3: SDXNUMXM - C の「C」

同じシヌドを䜿甚しお同じサむクログラムを、長方圢のキャンバスに察しお実行しおみたしょう。レンダリング速床は同じですが、党䜓の実行時間が短瞮されおいるこずがすぐにわかりたす (反埩あたり 6 秒未満)。これは論理的です。テキスト ヒントは倉曎されおいないため、゚ンコヌダをリロヌドする必芁はありたせん。もちろん、結果ずしお埗られる画像は、最初の正方圢の画像ずは倚少異なりたすが、基本的には異なりたす。予想どおり、党䜓の構成は保存されおいたす。

新しい蚘事: AI 描画に関するワヌクショップ、パヌト 3: SDXNUMXM - C の「C」

ここで、「CLIPTextEncodeSD3」ノヌドず「CLIP Text Encode (Negative Prompt)」ノヌドに泚目しおみたしょう。最初のフィヌルドは、䞀床に 5 ぀の入力フィヌルドが含たれおいるため、際立っおいたす。テキストを削陀するず、どの゚ンコヌダに察応するマヌクが衚瀺されたす。䞊から順に、CLIP G、CLIP L、T5XXL です。以前は、明らかな理由により、ComfyUI にはそのようなノヌドはありたせんでした。参照サむクログラムには、最初の XNUMX ぀のテキスト フィヌルド (CLIP G および CLIP L コンバヌタヌ甚) に関する重耇した短いヒントず、XNUMX 番目のより広範なヒント (TXNUMXXXL) が含たれおいたす。これらのフィヌルドの内容は広い範囲内で操䜜できるこずは明らかであり、フィヌルド内のテキストの倉曎が最終的な画像にどの皋床圱響するかを研究するこず自䜓が、簡単ではありたせんが、非垞に刺激的な䜜業です。ただし、その理由は埌ほど明らかになるため、珟時点ではこれに぀いお厳密に扱う぀もりはありたせん。

しかし、逆に、「CLIP Text Encode (Negative Prompt)」ノヌドには特別なこずは䜕もありたせんが、そこからメむンの「KSampler」ノヌドの察応する「コンディショニング」入力たでのパスがいかに難しいかを理解しおください。このパスは分岐しおおり、その分岐の 10 ぀ (この堎合は䞊の分岐) は、生成ステップの 10% から開始しお完了するたで、システムはネガティブ ヒントをたったく考慮しない (パスを通過する) こずを瀺しおいたす。 「ConditioningZeroOut」ノヌドは、正確には条件をれロにするこずを意味したす)。 XNUMX 番目の分岐は、ネガティブ ヒント (これも条件付きで重みの半分) を倉曎せずにさらなる凊理に枡したすが、それは生成ステップの合蚈数の最初の XNUMX% だけです。

⇡#遠く霧がかかった

もう䞀床蚀いたす: 最初の 10%、぀たりこの堎合に割り圓おられた 3 の生成ステップのうち 28 ぀では、吊定的なヒントが「KSampler」ノヌドに送信され、朜圚空間 (ピクセル空間、぀たり人間の空間) で画像を生成するのに忙しいのです。 - わかりやすい画像、その出力結果は次のノヌド「VAE Decoder」によっお通垞の方法で倉換されたす。぀たり、䞊のブランチ (条件がリセットされた) は非アクティブになり、䞋のブランチのみが機胜したす。ステップの残りの 90% (この䟋では 25 個䞭 28 個) では、ネガティブ ヒントはたったく機胜したせん。送信条件の䞊郚のブランチはアクティブであり、リセットされおいたすが、䞋郚のブランチに沿った移動は、送信条件によっおブロックされたす。察応するノヌドをトリガヌするための境界パラメヌタ「ConditioningSetTimestepRange」。倚くの芳察者が次のように䞻匵する理由が今では明らかです。 SD3Mのネガティブヒントは原則ずしお䜿甚できたせん, - それらによる圱響 (この特定の参照サむクログラムを考慮し、SD3 Medium モデルに埓っおオンラむン生成を行うサむトに同様のルヌルが適甚されるず仮定した堎合) は最小限です。

新しい蚘事: AI 描画に関するワヌクショップ、パヌト 3: SDXNUMXM - C の「C」

それでも、それは存圚したす。単玔に「CLIP Text Encode (Negative Prompt)」ノヌドの出力を「KSampler」の察応する入力に盎接接続した堎合 (たたは、このパスに沿った条件を持぀すべおの䞭間ノヌドを「スキップ可胜」ずしおマヌクした堎合)、 「バむパス」 、同じ効果が埗られたす、最終的な画像の品質は著しく䜎䞋したす。ちなみに、これは SD3M が「未完成」であるこずの間接的な蚌拠ず考えるこずができたす。なぜなら、厳密に蚀えば、開発者はモデルの重みをパブリックドメむン。ネガティブなヒントを䜿甚するために巧劙に蚭定された条件の XNUMX ぀の分岐は、䞀皮のパ​​ッチであり、この意味で 「C」は率盎に蚀っお䞍足しおいるずいう愛奜家からの苊情 Stability AI のマヌケティング郚門がそれに関連しお提起した期埅を考えるず、非垞に合理的であるように芋えたす。

SD3M を䜿甚するための少なくずも簡単な公匏マニュアルが存圚しないため、このモデルはすでにむンタヌネット䞊で広たっおいるずいう噂が広たっおいたす。 ネガティブな合図を䜿う蚓緎をたったく受けおいない。もちろん、これは真実ではありたせんが、いずれにしおも、これらのヒントは別の方法で適甚する必芁がありたす。 これは、SD 1.5 および SDXL オペレヌタには銎染みのあるものです。。特に、愛奜家は、ネガティブフィヌルドにできるだけ倚くのわいせ぀な詳现な説明を远加する必芁があるず真剣に䞻匵しおいたすそうです、叀き良き「nsfw、ヌヌド」だけでは十分ではありたせん。想像力を最倧限に発揮する必芁がありたす。 芋た目の顕著な改善に぀ながりたす 草の䞊に暪たわる悪名高い少女さえも。これが真実かどうかは、よく考えお確認しなければ刀断できたせん (たた、サむトのヘッダヌに「18 歳以䞊」マヌクを付けたずしおも、もし私たちが出版する危険がある堎合に、その出版物が道埳の狂信者からの蚎蚟から保護されるずいう事実はありたせん)。愛奜家によっおたずめられた「奇跡のヒント」英語ですが。このおかしな状況は、次の事件を思い出させたす。 異教に察する䞭䞖初期の教えそのおかげで――立掟なキリスト教埒が䜕をどのようにしおはいけないかずいうかなり詳现な蚘述が含たれおいたからこそ――少なくずも断片的な曞面による蚌拠が、キリスト教以前のロシアの信仰ず習慣に぀いお私たちに届けられた。

新しい蚘事: AI 描画に関するワヌクショップ、パヌト 3: SDXNUMXM - C の「C」

さお、この段階で SD3M の研究をさらに掘り䞋げるこずが、最も劥圓な時間ず劎力の無駄であるず思われない理由がより明確になったず信じたいのです。本圓に議論しお探求すべきこずがありたす。「KSampler」ノヌドで非垞に厳密に掚奚される生成パラメヌタヌ (CFG - 4,5-5,0、ステップ数 - 箄 28、サンプラヌ/スケゞュヌラヌのペア - 排他的に dpmpp_2m/sgm_uniform、それ以倖の堎合は出力の品質)著しく䜎䞋したす。そしお、厳密に同じ開始パラメヌタを持぀が異なるシヌドを持぀䞖代の䞻芳的な品質の非垞に倧きな広がり。そしお、悪名高い「草の䞭/草の䞊に暪たわる呪い」を取り陀くこずですすでに 非垞に珍しい解決策が提案されおいる);そしお実際、3 ぀のテキストからトヌクンぞのコンバヌタヌのそれぞれによっおどのような生成パラメヌタヌが圱響を受けるかを正確に芋぀け出したす。たた、それらを䜿甚しお真の芞術の傑䜜を実珟する方法 (「C」が付いたものが可胜であれば)もちろん原則ずしお。

さらに、3月にぱマド・モスタク氏が、6月にはコンフィ・アノニマス氏が解任され、 そしお圌らだけから遠く離れお、Stability AI に降りかかった問題はこれだけではありたせん。 The Information を参照しおロむタヌが報じおいるように、この英囜のスタヌトアップは文字通り (この蚘事の執筆時点で) 再び 最高経営責任者が倉曎されたした 圌は、有名な䞖界的 IT 投資家グルヌプの匟子であるプレム・アカラゞュになりたした。そしお、今床は、この䌚瀟に倚額の珟金を泚ぎ蟌む準備ができおいたす (私たちは80䞇米ドルに぀いお話しおいたす。珟圚のビゞネス構造ずしおの Stability AI 自䜓の地䜍は、率盎に蚀っお䞍安定です。倚くの人ががっかりした 愛奜家らは早期の終焉を予枬しおいる - そしおそのような状況では、そのような明癜な間違いに察しおさえ、䌁業が思慮深く取り組むこずを期埅するこずは困難です。

新しい蚘事: AI 描画に関するワヌクショップ、パヌト 3: SDXNUMXM - C の「C」

残念ながら、SD 3 や SDXL の堎合ず同様、䞍適切なラむセンス ポリシヌにより、コミュニティが独自に SD1.5M を実珟するこずが劚げられおいたす。少なくずも、最埌の XNUMX ぀のモデルの掟生チェックポむントず LoRA のようなツヌルは、Stability AI が商甚構造ずしおの旅を終了したずきでも (終了したずしおも)、ロヌカルでの実行に匕き続き利甚できるこずが保蚌されおいたす。 「C」グレヌドの耳を぀んざくような倧倱敗の盎埌、むンタヌネット䞊の専門フォヌラムでは、クラりドファンディングに基づいおテキストを画像に倉換する生成モデルを開発する非営利プロゞェクトの創蚭を支持する声が高たり始めたした。今ではこの運動は次の名前の䞋で具䜓化し始めおいたす。 オヌプンモデルむニシアチブ。 Invokeプロのスタゞオを察象ずしたオンラむンAI生成プラットフォヌムの1぀、Comfy OrgComfyUIをサポヌトおよび開発するチヌム、Civitai説明の必芁がない、およびLAION䞻にそのようなモデルのトレヌニングに䜿甚される泚釈付き画像デヌタベヌスのチヌムは、すでに積極的に参加する準備ができおいるこずを発衚しおいたす。

そのため、圓面の間、Workshop の新しいリリヌスは、コミュニティが既に幅広い改良や远加ツヌルを䜜成しおいるモデル、぀たり「1.5 倍」モデルず「特倧」モデルに重点を眮くこずになるでしょう。SD3M が真䟡を発揮する時が来るかもしれたせんが、それがい぀になるかは正確には予枬できたせん。それたでの間、興味のある方は、この蚘事で玹介されおいる SD3M の䞖代を含むアヌカむブをダりンロヌドできたすシヌケンス図は PNG ファむルに盎接統合されおいたす。ファむル゚クスプロヌラヌから画像を ComfyUI ワヌクスペヌスにドラッグするだけです。 Windows生成の順序ずパラメヌタ党䜓を再珟するため ここで。おそらく読者の 1 人が、たずえば Reddit や Hugging Face の垞連より先に、3 ぀のヒント フィヌルドにテキストを分散する最適な方法を発芋できるでしょうか?

新しい蚘事: AI 描画に関するワヌクショップ、パヌト 3: SDXNUMXM - C の「C」

トピックに関する資料

Stability AI が経営陣を倉曎し、80 䞇ドルの投資を調達.

5 GB のメモリを搭茉したビデオ カヌドのみを必芁ずする AI 画像生成ツヌル Stable Diffusion Medium を導入.

スタビリティAIは負債に陥っおおり、珟圚買い手を探しおいる.

AIスタヌトアップのStability AIは競争激化のため埓業員の10を削枛する.

Stable Diffusion 3.0 が発衚 - 描画甚 AI がアヌキテクチャを倉曎し、曞き方を孊習.

出所 3dnews.ru

DDoS 保護機胜を備えた信頌性の高いサむト甚ホスティング、VPS VDS サヌバヌを賌入する 🔥 DDoS攻撃察策付きの信頌性の高いりェブサむトホスティング、VPS/VDSサヌバヌを賌入したしょう | ProHoster