Пачынаем працаваць з Stable Diffusion
Інтра
У сваім папярэднім «артыкуле» я нічога не сказаў ані пра Stable Diffusion, ані пра сябе. Дык вось Stable Diffusion – гэта бескаштоўная нейрасетка для генэрацыі выяў, а я проста аматар, так што сьмела кідайце камяні ў камэнтарох.
Колькі слоў пра мадэлі
Ёсьць некалькі тыпаў мадэляў:
- Checkpoint
- Textual Inversion
- LoRA
- Hypernetwork
Перадусім нас цікавіць Checkpoint. Чэкпойнт гэта мадэль якая значна пашырае базавую мадэль Stable Diffusion. Калі вы маеце чэкпойнт вы ўжо можаце рабіць выявы. Астатнія тыпы патрабуюць базавай мадэлі або чэкпойнта, яны акрамя тэкставай інвэрсіі ўплываюць менавіта на дыфузіённую мадэль.
Пішам промт
І вось мы зайшлі ў інтэрфейс SD, дарэчы ён называецца AUTOMATIC1111, ёсьць іншыя інтэрфэйсы, напрыклад comfy, але сёньня нам патрэбны аўтаматык. Нас цікавіць таб txt2img
і наступныя параметры:
- Prompt
- Negative prompt
- Sampling method або Sampler
- Sampling steps
- Width
- Height
- CFG Scale
- Seed
Як бачыце некаторыя зь іх я тлуста вылучыў. Я і хачу на гэтых парамэтрах патлумачыць як працуе дыфузіённая мадэль адным сказам:) SD гэнеруе лічбавы шум(seed) і за некалькі ітэрацый(steps) робіць матэматычныя апэрацыі над матрыцамі выкарыстоўваючы нейкі «альгарытм»(Sampler), каб атрымалася выява паводле нашага промта.
Наладжваем
Усе парамэтры вашай працы падбіраюцца эмпірычна (то бок на падставе вашага досьведу) або рэкамендацыйна. Напрыклад нейкі аўтарытэт сьцьвярджае, што фотарэалістычныя здымкі добра атрымліваюцца на сэмплере «Euler A» ў дыяпазоне стэпаў ад 20 да 30. Давайце дамо яму веры, але вам у любым разе трэба атрымаць многа досьведу, каб рабіць файныя выявы, не журыцеся, калі ў першыя разы атрымліваецца не тое што вы хочаце, так і мае быць:) гэта вам не Midjourney.
Промт
У промце мы пішам не проста сказ літаратурнай мовай, мы пішам токены праз коску. Токен зьлева мае большы ўплыў за токен справа, то бок першы будзе значнейшы за апошні. Таксама вы можаце рэгуляваць вагу (значнасьць) токена сінтаксічна. Напрыклад: (((((good token)))))
або (awesome token:1.5)
. Токен гэта не абавязкова адно слова і вядома вы можаце ўжыць сказ з Гары Потэра і SD нават вам нешта намалюе, але наўрад ці гэта будзе ўдалы токен.
Шырыня і вышыня
Шырыня і вышыня па змоўчаньні 512x512. Так сталася таму, што базавая мадэль вучылася на выявах такога памеру. Вам ня трэба істотна зьмяняць гэтыя парамэтры. Калі вы хочаце атрымаць выяву 2048×1556 задайце гэтыя інпуты прапарцыйна – 674×512, а пасьля выкарыстайце Upscaler, але пра гэта, так бы мовіць, у іншым відэа.
Рэшта парамэтраў
CFG scale – гэта парамэтр адказны за тое наколькі істотна вашая выява будзе адпаведнай вашаму промту. Звычайна ставіцца прыкладна ад 5 да 8.
Seed – «хэш» шума. Калі ён -1, то кожны раз будзе выпадкова перавызначацца. Вы можаце самі вызначыць значэньне гэтага парамэтра і «гуляцца» з астатнімі парамэтрамі той выявы якую атрымалі.
Гуляемся
Ёсьць адзін вельмі зручны і карысны для атрыманьня ўласнага досьведу інструмэнт, які называецца X/Y/Z plot і знаходціцца ў дропдаўне Script
. Я пакажу пару скрыноў і спадзяюся вы ўсё зразумееце.
Для восі X-оў я вызначыў тып steps
і значэньні 20, 24, 28
, а для Y-аў - тып Sampler
і значэньні Euler A, DPM adaptive
і атрымаў такі вынік:
Падпісвайцеся на канал, стаўце лайкі ці дызлайкі, да сустрэчы!
Каментары
(Каб даслаць каментар залагуйцеся ў свой уліковы запіс)