Sådan laver AI billeder

Indhold

Kort om teknikkerne bag

AI-billedgeneratorer arbejder ved at bruge deep learning-algoritmer til at lære de mønstre og funktioner, der findes i et stort datasæt af billeder.
Disse algoritmer er typisk baseret på neurale netværk, som er designet til at simulere den menneskelige hjernes adfærd.

Processen med at skabe et billede ved hjælp af en AI-billedgenerator involverer typisk følgende trin:

Træning af modellen AI-billedgeneratoren trænes ved hjælp af et stort datasæt af billeder. Under træningen lærer modellen at identificere mønstre og træk i billederne, såsom linjer, former og farver.
Generering af nye billeder Når modellen er blevet trænet, kan den bruges til at generere nye billeder. Dette gøres ved at forsyne modellen med et sæt input, som kan være tilfældig støj eller andre billeder. Modellen bruger derefter sine indlærte mønstre og funktioner til at generere et nyt billede, der ligner inputbillederne.
Forfining af billederne De genererede billeder forfines ofte ved hjælp af yderligere algoritmer for at forbedre deres kvalitet og realisme. Dette kan omfatte teknikker som billedfiltrering, støjreduktion og farvekorrektion.

Der er mange forskellige typer AI-billedgeneratorer, hver med deres egne styrker og svagheder.

Nogle generatorer er optimeret til at skabe realistiske billeder, mens andre er designet til at skabe mere abstrakte eller stiliserede billeder.
Derudover kan nogle generatorer trænes til at generere billeder i bestemte stilarter eller genrer, såsom portrætter, landskaber eller stilleben.

Tidlige AI-billedgeneratorer var afhængige af Generative Adversarial Networks (GAN’er), men nyere teknologier skubber i retning af stabile diffusionsmodeller.

Hvad er Generative Adversarial Networks

Et Generative Adversarial Network (GAN) er en type kunstigt neuralt netværk, der bruges til generativ modellering, som involverer generering af nye dataprøver, der ligner et givet datasæt.

GAN består af to neurale netværk, der trænes på en spillignende måde: et generatornetværk og et diskriminatornetværk.

Generatornetværket tager tilfældig støj som input og genererer nye dataeksempler, der er beregnet til at ligne træningsdataene. Diskriminatornetværket tager både reelle og genererede dataeksempler som input og forsøger at skelne mellem dem.

Generator- og diskriminatornetværket trænes på en modsætnings måde: Generatornetværket forsøger at generere dataeksempler, der narre diskriminatornetværket, mens diskriminatornetværket forsøger at skelne korrekt mellem reelle og genererede dataeksempler.

Efterhånden som generator- og diskriminatornetværkene konkurrerer mod hinanden, lærer generatornetværket gradvist at producere dataeksempler, der i stigende grad ligner træningsdata.

Over tid bliver diskriminatornetværket mere præcist til at skelne mellem reelle og genererede dataprøver, hvilket tilskynder generatornetværket til at producere bedre prøver.

GAN’er har vist imponerende resultater med at generere realistiske billeder, lyd og tekst og har potentielle anvendelser inden for en lang række områder, herunder kunst, design og medicin.

Træning af GAN’er kan dog være udfordrende og kræver omhyggelig justering af hyperparametre og netværksarkitekturer for at forhindre problemer såsom tilstandskollaps, hvor generatornetværket producerer begrænsede variationer af nogle få prøver.

Fordele

De kan producere meget realistiske billeder, især med træningsdata og arkitektur af høj kvalitet.

De kan bruges til en lang række applikationer, herunder billed- og videogenerering, billedredigering og billed-til-billede oversættelse.

Træningen er relativt hurtig sammenlignet med andre generative modeller.

Minusser

De kan være ustabil og svær at træne med udfordringer som modekollaps, hvor generatoren producerer begrænsede variationer af nogle få prøver.

De kan producere skæve resultater, da det kan lære at reproducere skævheder i træningsdataene.

De kan generere artefakter eller forvrængninger i outputtet.

Hvad er Stable Diffusion modellen

Stabil diffusion virker ved at anvende et sæt transformationer til en støjvektor for at generere et billede.

Disse transformationer anvendes iterativt over en række tidstrin, hvorunder der gradvist tilføjes støj til billedet for at gøre det mere komplekst og realistisk.

Nøglen til den stabile diffusionsalgoritme er brugen af en diffusionsproces, der sikrer, at de genererede billeder er af høj kvalitet og er mangfoldige.
I fysik beskriver diffusion den gradvise spredning af partikler i en væske.

I forbindelse med generativ modellering bruges diffusionsprocessen til gradvist at generere et billede ved at tilføje støj til det over en række tidstrin.
Ved hvert tidstrin transformeres støjvektoren af en funktion, der er defineret af et neuralt netværk.

Den transformerede støj blandes derefter med det aktuelle billede, og den resulterende blanding føres gennem et andet neuralt netværk, der forudsiger en maske, der bestemmer, hvor meget af det aktuelle billede, der skal bibeholdes, og hvor meget, der skal erstattes med blandingen.

Processen gentages over flere tidstrin, hvor der tilføjes støj ved hvert trin for gradvist at generere et komplekst og realistisk billede.

Fordele

Kan producere højkvalitets og mangfoldige billeder, da diffusionsprocessen, der anvendes i Stable Diffusion, sikrer, at de genererede billeder er af høj kvalitet og er mangfoldige.

Stoler ikke på modstridende træning, som kan undgå nogle af problemerne med GAN’er, såsom tilstandskollaps og bias-forstærkning.

Den kan give ensartede resultater over tid.

Minusser

Den kan være beregningsmæssigt dyrt at træne og generere billeder, da det involverer et stort antal tidstrin.

Den kan generere slørede billeder, især når der genereres små billeder eller billeder i lav opløsning.

Den kan kræve større mængder træningsdata for at producere resultater af høj kvalitet.

GANs vs. Stable Diffusion

Sammenfattende har GAN’er og Stable Diffusion hver deres styrker og svagheder, og valget af den rigtige model afhænger af de specifikke krav til den aktuelle opgave.

GAN’er kan være mere velegnede til opgaver, hvor realisme er en topprioritet, mens Stabil Diffusion kan være mere velegnet til opgaver, hvor mangfoldighed og konsistens er vigtig.

Flere af de populære generatorer kombinerer de to teknikker i dag.
Selv den service der hedder Stable Díffusion bruger GANs til nogle ting og kombinerer dem så med læring opnået gennem diffusion.

Hvordan kommunikerer man med dem

De fleste generative AI-billedgeneratorer bruger tekstbaserede prompter, også kendt som prompt engineering, og oversætter disse ord ved hjælp af en proces kaldet naturlig sprogbehandling (NLP).
Derfra sammenlignes teksten med data, som maskinen er blevet trænet i til at forstå den semantiske betydning og kontekstuelle spor i teksten.

NLP konverterer disse ord til en numerisk vektor, som har en tilsvarende “betydning”, som kan bruges til output.
For eksempel ville “grønt æble på en tallerken” have tre separate beskrivende vektorer – “grønt”, “æble” og “plade”.
Tallene forbundet med hver af disse hjælper AI-billedgeneratoren med at bestemme, hvad det er, du leder efter.

Når alle disse tal er på plads, kan maskinen oversætte disse til et billede, som bliver den visuelle repræsentation af den tekstprompt, du har indtastet.

Nogle AI-billedgeneratorer vil også give dig mulighed for at indtaste billeder som en del af din prompt eller lave tekstbaserede referencer til eksisterende berømte billeder for at hjælpe billedgeneratoren med at forstå, hvad du ønsker mere præcist.
Du fodrer hermed med ægte billeder modellen kan sammenligne med.

Prompt engineering og billedgenerering

Prompt engineering er en proces, hvor du kommer med input som ord, sætninger, billeder eller videoer, der kan guide generative AI-værktøjer til at skabe dit ønskede output.

Da AI-værktøjer typisk er baseret på store sprogmodeller (LLM), jo bedre prompt, jo mere præcist bliver resultatet. Disse modeller er trænet på store datasæt, så effektiv prompt engineering kan bygge bro mellem menneskelig og AI-kommunikation for at finde præcis det, du leder efter.

I AI-billedgenerering er nogle af de bedste hurtige tekniske eksempler dem, der bruger traditionel kunst skabt af mennesker til at træne generative AI-systemer til at skabe nye, unikke kunstværker som et samarbejde mellem rigtige kunstnere og maskiner.

Typer af prompt engineering

Da kunstig intelligens er en teknologi i hastig udvikling, ændres de typer af prompter, vi bruger til at enerere billeder, også. Både sproglige færdigheder og kreative input er nødvendige for at generere AI-billeder, der ligner rigtige fotos eller grafik skabt af et menneske.

Nogle af de mest almindelige typer prompt engineering, der i øjeblikket anvendes, er:

One-shot learning
Zero-shot learning
Chain-of-thought prompting
Iterative prompting

One-shot learning

Det er her, en bruger inkluderer et eksempel på, hvad de ønsker, at resultatet skal være inden for selve prompten, f.eks. et eksempel på et kunstværk, de ønsker at replikere, før han beskriver de nye detaljer, de ønsker i billedet.

Zero-shot learning

Denne type prompt har intet eksempel, men kræver flere detaljer om, hvad du ønsker, at resultatet skal være, fordi AI-maskinen ikke har nogen forudgående viden om, hvad du leder efter.

For eksempel kan du skitsere de nøjagtige farver, former og størrelser af det, du vil have inkluderet i dit AI-billede.

Chain-of-thought prompting

Når du skal lave mere komplekse billeder, kan det være mere nyttigt at skitsere processen trin for trin end et langt tekstafsnit, der beskriver, hvad du leder efter, f.eks. “Opret et billede af en strand. Først skal du skabe havet og sandet. Dette skal efterfølges af en familie, der sidder på sandet til venstre på billedet. Tilføj derefter sandslotte omkring dem.”

Iterative prompting

Det er usandsynligt, at du får det nøjagtige output, du ønsker, ved et første forsøg.

Med iterativ prompt forfiner du din prompt, efterhånden som resultaterne genereres, og bliver mere specifik hver gang, indtil du opnår det, du leder efter.

I AI-billedgenerering kan dette omfatte forfining af farver eller mønstre i et billede, fjernelse af elementer, du ikke kan lide, eller tilføjelse af nye funktioner.

Prompt engineering og billedgenerering

Der er flere vigtige fordele ved at forstå prompt engineering og bruge det til at gøre din AI-billedgenerering mere effektiv.

Højere kvalitet og mere præcise billeder

Når du bruger de rigtige prompter, vil dine resultater være af meget højere kvalitet og mere sandsynligt, at det er det, du leder efter.

Da kunstig intelligens er bygget på kontinuerlig træning, jo mere præcise og detaljerede dine prompter er på forhånd, jo bedre vil dine output komme fremad.

Øget hastighed af billedgenerering

Effektiv prompt vil øge hastigheden, hvormed du kan skabe billeder, der stemmer overens med dine retningslinjer og input markant.

Da gode prompter skaber større nøjagtighed, betyder det også, at du vil bruge mindre tid på at forfine dine genererede billeder gennem iterativ prompting, fordi du har leveret alt, hvad maskinen har brug for på forhånd for at skabe det, du leder efter.

Omkostningsreduktioner til billedoprettelse

Når du kan generere billeder hurtigere og med større nøjagtighed, sparer du dyrebare ressourcer på dit team, som kan udmønte sig i betydelige omkostningsbesparelser på din teknologi.

Da du ikke behøver så meget menneskelig indgriben, når du laver bedre billeder på forhånd, falder de omkostninger, du ville have til rettelser.

Titelbillede genereret via Adobe Firefly

Kilder

https://www.baeldung.com/cs/ai-image-generation-gans-dalle
https://www.youtube.com/watch?v=1CIpzeNxIhU
Landis, Holly. “AI Image Generation: The Science behind How It Works.” G2, 10 June 2024, https://www.g2.com/articles/ai-image-generation. Besøgt 23 august 2024.
https://www.tomsguide.com/ai/ai-image-video/i-just-put-stable-diffusion-3-ai-to-the-test-and-it-generates-some-pretty-staggering-images
https://medium.com/ai-apps/the-science-behind-ai-image-generation-how-it-works-4ced3e628e5e
https://humanoid.tools/articles/how-do-ai-image-generators-work/

Internet Undervisning Læring

Sådan laver AI billeder

Kort om teknikkerne bag

Hvad er Generative Adversarial Networks

Fordele

Minusser

Hvad er Stable Diffusion modellen

Fordele

Minusser

GANs vs. Stable Diffusion

Hvordan kommunikerer man med dem

Prompt engineering og billedgenerering

Typer af prompt engineering

One-shot learning

Zero-shot learning

Chain-of-thought prompting

Iterative prompting

Prompt engineering og billedgenerering

Højere kvalitet og mere præcise billeder

Øget hastighed af billedgenerering

Omkostningsreduktioner til billedoprettelse

Kilder

Kommentarer

Skriv et svar Annuller svar

Flere indlæg

Hvad er et netværk