DI ir vaizdai: kas čia iš viso vyksta?
Dar prieš kelerius metus mintis, kad kompiuteris gali sukurti paveikslėlį pagal tekstinę užklausą, skambėjo kaip koks mokslinės fantastikos siužetas. Šiandien tai – kasdienybė. Midjourney, DALL-E, Stable Diffusion, Adobe Firefly – šie įrankiai jau nebe tik eksperimentiniai žaislai, o rimti kūrybiniai partneriai, kuriuos naudoja dizaineriai, marketingo specialistai, žurnalistai ir tiesiog žmonės, kurie nori greito vizualinio rezultato.
Bet čia ir prasideda įdomiausia dalis. Daugelis žmonių atsidaro kokį Midjourney ar DALL-E, parašo „gražus saulėlydis prie jūros” ir gauna… vidutinišką rezultatą. Tada nusivilia ir sako, kad DI piešimas – tai ne jiems. Problema ne įrankyje. Problema – kad niekas nepaaiškino, kaip su tuo dirbti.
Šiame straipsnyje eisime nuo pradžių – nuo to, kaip šie įrankiai iš viso veikia, iki konkrečių technikų, kurios leidžia gauti tikrai kokybiškus rezultatus. Jokios magijos, tik praktika ir supratimas.
Kaip DI „mato” ir kuria vaizdus
Prieš naudojant bet kokį įrankį, verta bent minimaliai suprasti, kas vyksta po gaubtu. DI paveikslėlių generatoriai – tai neuroniniai tinklai, apmokyti ant milijardų vaizdų iš interneto. Jie išmoko sąsajas tarp žodžių ir vizualinių elementų.
Dauguma šiuolaikinių įrankių naudoja vadinamąjį difuzijos modelį. Paprastai tariant, procesas atrodo taip: sistema pradeda nuo atsitiktinio triukšmo (įsivaizduokite statišką televizoriaus ekraną) ir palaipsniui „valo” tą triukšmą, kol atsiranda vaizdas, atitinkantis jūsų aprašymą. Kiekvienas žingsnis – tai sprendimas, koks pikselis kur turėtų būti, remiantis tuo, ką sistema išmoko treniruotės metu.
Štai kodėl labai specifiniai aprašymai duoda geresnius rezultatus – sistema turi daugiau informacijos, pagal kurią „valytis” tą triukšmą. Ir štai kodėl kartais gaunate šešis pirštus ant rankos arba tekstą, kuris atrodo kaip kažkokia nežinoma kalba – sistema interpoliuoja iš to, ką matė, bet ne visada teisingai.
Svarbu suprasti ir tai, kad skirtingi įrankiai naudoja skirtingus modelius ir skirtingus mokymo duomenis. Midjourney yra žinomas dėl estetiškai patrauklių, beveik fotografiškų rezultatų. Stable Diffusion – atviro kodo sprendimas, kurį galima paleisti net savo kompiuteryje ir labai smulkiai konfigūruoti. DALL-E 3 (integruotas į ChatGPT) puikiai supranta sudėtingus tekstinius aprašymus. Adobe Firefly – saugus komerciniam naudojimui, nes apmokytas tik ant licencijuoto turinio.
Prompt’ų rašymo menas: nuo „gražus katinas” iki tikro rezultato
Prompt – tai jūsų tekstinė užklausa DI sistemai. Ir čia slypi didžioji dalis sėkmės. Blogas prompt duos blogą rezultatą net ir geriausiam įrankiui.
Yra keletas principų, kurie veikia beveik universaliai:
Būkite konkretūs dėl stiliaus. Vietoj „nuotrauka moters” rašykite „fotografinis portretas, natūrali šviesa, bokeh fonas, Canon 85mm objektyvas”. Vietoj „iliustracija miesto” – „izometrinė vektorinė iliustracija naktinio miesto, neoninės spalvos, cyberpunk estetika”. Sistema nežino, ko norite, kol nepasakote.
Nurodykite apšvietimą. Apšvietimas keičia viską. „Golden hour lighting”, „dramatic side lighting”, „soft studio lighting”, „overcast natural light” – kiekvienas iš šių aprašymų duos kardinaliai skirtingą rezultatą. Fotografai tai žino instinktyviai, bet DI naudotojai dažnai pamiršta.
Pridėkite techninius parametrus. Tokie žodžiai kaip „8K”, „highly detailed”, „sharp focus”, „professional photography” signalizuoja sistemai, kad norite kokybės. Tai nėra magiški žodžiai – tai tiesiog asociacijos, kurias sistema išmoko iš aukštos kokybės vaizdų aprašymų.
Nurodykite kompoziciją. „Close-up portrait”, „wide establishing shot”, „bird’s eye view”, „rule of thirds” – kompoziciniai nurodymai padeda sistemai suprasti, kaip kadruoti vaizdą.
Praktinis pavyzdys. Vietoj: „katinas ant stalo” rašykite: „a fluffy orange tabby cat sitting on a wooden kitchen table, morning light streaming through window, shallow depth of field, warm tones, photorealistic, 85mm lens”. Skirtumas bus akivaizdus.
Dar vienas patarimas – naudokite negatyvius prompt’us, kur tai leidžiama (Stable Diffusion, Midjourney su tam tikrais parametrais). Galite nurodyti, ko nenorite matyti: „no text, no watermarks, no extra limbs, no blurry background”. Tai padeda išvengti dažniausių klaidų.
Midjourney: kai nori grožio be vargo
Midjourney šiuo metu yra vienas populiariausių pasirinkimų tiems, kurie nori estetiškai stiprių rezultatų be gilaus techninio pasiruošimo. Jis veikia per Discord, kas iš pradžių atrodo keistai, bet greitai pripranti.
Keletas konkrečių patarimų darbui su Midjourney:
Naudokite –ar parametrą formato nustatymui. --ar 16:9 kvadratiniam formatui, --ar 9:16 vertikaliam (idealiai socialiniams tinklams), --ar 3:2 klasikinei fotografijai. Tai vienas iš pirmų dalykų, kurį reikia išmokti.
Parametras –stylize (arba –s) kontroliuoja, kiek sistema „kūrybiškai” interpretuoja jūsų prompt’ą. Žema reikšmė (pvz., --s 50) – sistema laikosi arčiau jūsų aprašymo. Aukšta (pvz., --s 1000) – sistema leidžiasi į kūrybinę interpretaciją. Pradedantiesiems rekomenduoju pradėti nuo vidurio.
Versija svarbu. Šiuo metu Midjourney V6 yra naujausias ir galingiausias. Jį aktyvuosite su --v 6 arba per nustatymus. Skirtumas tarp V5 ir V6 yra milžiniškas, ypač kalbant apie realizmą ir tekstą vaizduose.
Kai gausite keturis variantus, naudokite U mygtukus (Upscale) norimo varianto kokybei padidinti, ir V mygtukus (Variation) naujoms variacijoms generuoti. Tai iteratyvus procesas – retai pirmas rezultatas bus tobulas.
Stable Diffusion: kai nori kontrolės ir nemokamo sprendimo
Stable Diffusion yra atviro kodo, ir tai reiškia tiek laisvę, tiek atsakomybę. Galite jį paleisti savo kompiuteryje (reikia neblogo GPU – bent 8GB VRAM), naudoti per Automatic1111 arba ComfyUI sąsają, arba pasirinkti debesų paslaugas kaip RunDiffusion ar Vast.ai.
Kodėl verta investuoti laiko į Stable Diffusion? Visų pirma – tai nemokama (jei turite tinkamą kompiuterį). Antra – galite naudoti specializuotus modelius. Yra modelių, specialiai apmokyti anime stilių, architektūros vizualizacijoms, produktų fotografijai, portretams. Civitai.com – tai tarsi modelių biblioteka, kur galite rasti tūkstančius papildomų modelių ir LoRA (mažų papildomų modulių, kurie „prisimoko” konkretaus stiliaus ar personažo).
ControlNet – tai vienas galingiausių Stable Diffusion priedų. Jis leidžia kontroliuoti kompoziciją naudojant esamą vaizdą kaip šabloną. Pavyzdžiui, galite paimti žmogaus pozos nuotrauką ir generuoti naują vaizdą, išlaikant tą pačią pozą. Arba paimti architektūrinį eskizą ir paversti jį fotorealistiniu vaizdu. Tai ypač naudinga profesionalams.
Img2img funkcija leidžia naudoti esamą vaizdą kaip pradžios tašką. Galite paimti savo nuotrauką ir „perpiešti” ją kitu stiliumi, išlaikant bendrą kompoziciją. Denoising strength parametras kontroliuoja, kiek sistema keičia originalą – 0.3-0.5 išlaikys struktūrą, 0.7-0.9 leis daugiau laisvės.
DALL-E 3 ir Adobe Firefly: kai svarbus paprastumas ir legalumas
Ne visi nori konfigūruoti Discord serverius ar diegti Python bibliotekas. DALL-E 3, integruotas į ChatGPT, yra tiesiog patogus. Atidarote pokalbį, aprašote, ko norite, ir gaunate rezultatą. Be to, galite kalbėtis su ChatGPT apie tai, ko norite, ir jis pats suformuluos prompt’ą – tai ypač naudinga pradedantiesiems.
DALL-E 3 ypač gerai supranta sudėtingus, daugiasluoksnius aprašymus ir geba tiksliai įterpti tekstą į vaizdus – tai buvo tradiciškai silpna DI paveikslėlių generatorių vieta. Jei reikia plakato su konkrečiu tekstu arba infografikos, DALL-E 3 čia lenkia konkurentus.
Adobe Firefly yra kitas reikalas. Jis apmokytas tik ant Adobe Stock ir viešai licencijuoto turinio, todėl generuojami vaizdai yra saugūs komerciniam naudojimui – nėra rizikos, kad kažkas pareikš autorių teisių pretenzijų. Jei dirbate su klientais arba kuriate komercinį turinį, tai svarbu. Firefly taip pat puikiai integruotas į Photoshop – Generative Fill funkcija leidžia papildyti ar pakeisti nuotraukų dalis tiesiog nupiešiant pasirinkimo sritį ir aprašant, ko norite.
Praktinis patarimas: Adobe Firefly Photoshop integracija yra vienas efektyviausių darbo proceso patobulinimų, kuriuos galite padaryti šiandien. Retoušas, fono keitimas, objektų pridėjimas – visa tai dabar užtrunka minutes, ne valandas.
Dažniausios klaidos ir kaip jų išvengti
Dirbant su DI paveikslėlių generatoriais, žmonės daro tas pačias klaidas vėl ir vėl. Čia – trumpas sąrašas to, ko reikia vengti:
Per trumpi prompt’ai. „Katinas” – tai ne prompt’as. Sistema turi per mažai informacijos ir pildys spragas savo nuožiūra. Kuo daugiau detalių, tuo labiau rezultatas atitiks jūsų viziją.
Prieštaringi nurodymai. Jei rašote „minimalistinis dizainas, labai detalus, daug elementų” – tai prieštarauja vienas kitam. Sistema bandys suderinti nesuderinamus dalykus ir gausite chaosą.
Ignoruojamas iteratyvumas. Pirmas rezultatas beveik niekada nėra galutinis. Generuokite kelis variantus, pasirinkite geriausią, tada jį tobulinkite. Tai procesas, ne momentinis sprendimas.
Netinkamas įrankis užduočiai. Midjourney puikiai tinka estetiniams vaizdams, bet jei reikia tikslaus teksto vaizde – naudokite DALL-E 3. Jei reikia komerciniu požiūriu saugaus turinio – Firefly. Žinokite savo įrankius.
Autorių teisių ignoravimas. Generuoti vaizdai „Picasso stiliumi” ar „kaip Marvel komiksai” gali kelti teisinių klausimų, ypač komerciniam naudojimui. Geriau aprašyti stilistinius elementus, o ne konkrečius autorius ar prekių ženklus.
Rankų ir veidų nepastebėjimas. DI vis dar daro klaidas su rankomis (per daug pirštų, nenatūralios pozos) ir veidais (asimetrija, keisti bruožai). Visada patikrinkite šias sritis ir naudokite Inpainting (vietinį perpiešimą) klaidoms taisyti.
Kai DI tampa darbo įrankiu, o ne žaislu
Visa tai, apie ką kalbėjome, gali atrodyti kaip įdomus hobis. Bet šie įrankiai jau keičia realius darbo procesus. Marketingo komandos generuoja socialinių tinklų vizualus per minutes. Architektai vizualizuoja koncepcijas klientams dar prieš pradedant detalų projektavimą. Žaidimų kūrėjai naudoja DI pradiniam konceptų kūrimui. Knygų autoriai generuoja viršelius ir iliustracijas.
Jei norite integruoti DI paveikslėlių kūrimą į savo darbą, čia keletas praktinių žingsnių:
Pradėkite nuo ChatGPT su DALL-E 3 – tai žemiausias įėjimo barjeras. Išbandykite, supraskite, ko norite. Tada, jei reikia daugiau kontrolės ir kiekio, pereikite prie Midjourney. Jei reikia pilnos laisvės ir nemokamo sprendimo – investuokite laiko į Stable Diffusion.
Sukurkite savo prompt’ų biblioteką. Kai rasite formuluotes, kurios veikia jūsų tikslams, išsaugokite jas. Laikui bėgant turėsite asmeninį arsenalą, kurį galėsite greitai pritaikyti.
Mokykitės iš kitų. PromptHero, Lexica.art – tai paieškos sistemos, kur galite matyti kitų žmonių prompt’us ir rezultatus. Tai geriausia mokykla.
Galiausiai – nepamirškite, kad DI yra įrankis, ne pakaitala. Geriausius rezultatus gauna tie, kurie turi aiškią viziją ir naudoja DI jai realizuoti, o ne tie, kurie tikisi, kad sistema pati sugalvos, ko jiems reikia. Kuo geriau suprasite vizualinę kalbą – kompoziciją, apšvietimą, stilius, spalvų teorijas – tuo geresnius prompt’us rašysite ir tuo kokybiškesnius rezultatus gausite. DI demokratizavo vaizdų kūrimą, bet vizualinis raštingumas vis tiek lieka svarbus. Galbūt net svarbiau nei anksčiau.






