La nuova tecnologia denominata txt2img che consente di trasformare un "prompt" ovverossia una descrizione testuale in una immagine completa, è destinata a cambiare in modo radicale la nostra percezione dell'arte in un modo analogo (forse) a quanto successe a fine 1800 con l'invenzione della fotografia e del cinema.
|
immagine ottenuta con il prompt "black swan photography" utilizzando il seed 5508743888370916, Stable diffusion implementato da mage.space |
Ho già scritto poche settimane fa un articolo su questa tecnologia a proposito appunto dei
sussurratori alle AI, ma tutto si svolge ad una velocità folle, e quindi devo aggiungere informazioni.
Intanto, oltre ai motori di txt2img "tradizionali" il 22 agosto 2022 è stato reso disponibile al pubblico un motore opensource denominato "Stable Diffusion" che potete consultare gratuitamente online usando ad esempio questo link http://mage.space,
oppure scaricarvi [se avete specialmente una buona scheda grafica con almeno 4G di VRAM] la bellissima interfaccia utente
https://github.com/cmdr2/stable-diffusion-ui, il link allo zip si trova
https://github.com/cmdr2/stable-diffusion-ui/releases/download/v2.16/stable-diffusion-ui-win64.zip (se volete potete pagare un caffè agli sviluppatori con PayPal).
Cliccate sul file di lancio .cmd che trovate nella directory e dopo qualche minuto dopo che avrà scaricato 5 gb di roba da internet, potrete usare tranquillamente Stable Diffusion senza particolari problemi. La build è disponibile per windows e per linux, ma dovrebbe girare anche su Mac.
A questo punto potete sbizzarrirvi con i prompt, i negative prompt, gli stili etc, producendo i risultati più vari. Se volete avere qualche consiglio sui prompt da usare potete sempre fare riferimento a questo sito https://lexica.art/ dove potete vedere vari esempi
Se volete avere una guida ai vari stili potete usare questo riferimento google sheet:
Foglio stili artistiBasta aggiungere al prompt le indicazioni sul nome dello stile che volete aggiungere.
Per esempio partendo dal prompt della prima immagine in alto a sx, possiamo ricostruirla con molta precisione, la differenza fra le due immagini è la guidance scale che sopra è 7.5 e sotto 20.
Per esempio partendo dal prompt della prima immagine in alto a sx, possiamo ricostruirla con molta precisione, la differenza fra le due immagini è la guidance scale che sopra è 7.5 e sotto 20.
Una cosa di cui vi accorgerete presto è che le immagini prodotte da Stable Diffusion hanno un filtro censorio che impedisce di generare determinati argomenti come la nudità o la violenza.
Per questo motivo è nato un movimento denominato Unstable Diffusion, https://unstablediffusion.net/ che approfondisce l'uso di queste tecnologie nell'ambito NSFW, allo scopo di produrre immagini interessanti senza censure.
L'importanza del negative prompt. Le intelligenze artificiali quando producono le loro opere non sono particolarmente brave a generare delle anatomie gradevoli, producendo in molti casi arti multipli e strane anomalie nei corpi e nei visi con risultati spesso grotteschi. Diventa importante quindi poter "istruirle" su cosa non si voglia far vedere, nel caso specifico si usano dei negative prompt come ad esempio "multiple limbs, deformed, long neck, mutation, extra limbs, crosseyed, ugly, disfigured", l'uso di questi prompt può migliorare nettamente la qualità e la gradevolezza dell'immagine prodotta, vedasi l'esempio seguente:
Rispetto a quella ottenuta con le medesimazione impostazioni ma senza negative prompt:
NB. Pare che la versione di Stable Diffusion non applichi la censura che ho applicato io con i tratti neri.
A questo punto non mi rimane che augurarvi, Happy prompting!!!!