Tag: AI

Sådan laver AI billeder
Kort om teknikkerne bag

AI-billedgeneratorer arbejder ved at bruge deep learning-algoritmer til at lære de mønstre og funktioner, der findes i et stort datasæt af billeder.
Disse algoritmer er typisk baseret på neurale netværk, som er designet til at simulere den menneskelige hjernes adfærd.

Processen med at skabe et billede ved hjælp af en AI-billedgenerator involverer typisk følgende trin:
1. Træning af modellen AI-billedgeneratoren trænes ved hjælp af et stort datasæt af billeder. Under træningen lærer modellen at identificere mønstre og træk i billederne, såsom linjer, former og farver.
2. Generering af nye billeder Når modellen er blevet trænet, kan den bruges til at generere nye billeder. Dette gøres ved at forsyne modellen med et sæt input, som kan være tilfældig støj eller andre billeder. Modellen bruger derefter sine indlærte mønstre og funktioner til at generere et nyt billede, der ligner inputbillederne.
3. Forfining af billederne De genererede billeder forfines ofte ved hjælp af yderligere algoritmer for at forbedre deres kvalitet og realisme. Dette kan omfatte teknikker som billedfiltrering, støjreduktion og farvekorrektion.
Der er mange forskellige typer AI-billedgeneratorer, hver med deres egne styrker og svagheder.

Nogle generatorer er optimeret til at skabe realistiske billeder, mens andre er designet til at skabe mere abstrakte eller stiliserede billeder.
Derudover kan nogle generatorer trænes til at generere billeder i bestemte stilarter eller genrer, såsom portrætter, landskaber eller stilleben.

Tidlige AI-billedgeneratorer var afhængige af Generative Adversarial Networks (GAN’er), men nyere teknologier skubber i retning af stabile diffusionsmodeller.

Hvad er Generative Adversarial Networks

Et Generative Adversarial Network (GAN) er en type kunstigt neuralt netværk, der bruges til generativ modellering, som involverer generering af nye dataprøver, der ligner et givet datasæt.

GAN består af to neurale netværk, der trænes på en spillignende måde: et generatornetværk og et diskriminatornetværk.

Generatornetværket tager tilfældig støj som input og genererer nye dataeksempler, der er beregnet til at ligne træningsdataene. Diskriminatornetværket tager både reelle og genererede dataeksempler som input og forsøger at skelne mellem dem.

Generator- og diskriminatornetværket trænes på en modsætnings måde: Generatornetværket forsøger at generere dataeksempler, der narre diskriminatornetværket, mens diskriminatornetværket forsøger at skelne korrekt mellem reelle og genererede dataeksempler.

Efterhånden som generator- og diskriminatornetværkene konkurrerer mod hinanden, lærer generatornetværket gradvist at producere dataeksempler, der i stigende grad ligner træningsdata.

Over tid bliver diskriminatornetværket mere præcist til at skelne mellem reelle og genererede dataprøver, hvilket tilskynder generatornetværket til at producere bedre prøver.

GAN’er har vist imponerende resultater med at generere realistiske billeder, lyd og tekst og har potentielle anvendelser inden for en lang række områder, herunder kunst, design og medicin.

Træning af GAN’er kan dog være udfordrende og kræver omhyggelig justering af hyperparametre og netværksarkitekturer for at forhindre problemer såsom tilstandskollaps, hvor generatornetværket producerer begrænsede variationer af nogle få prøver.

Fordele

De kan producere meget realistiske billeder, især med træningsdata og arkitektur af høj kvalitet.

De kan bruges til en lang række applikationer, herunder billed- og videogenerering, billedredigering og billed-til-billede oversættelse.

Træningen er relativt hurtig sammenlignet med andre generative modeller.

Minusser

De kan være ustabil og svær at træne med udfordringer som modekollaps, hvor generatoren producerer begrænsede variationer af nogle få prøver.

De kan producere skæve resultater, da det kan lære at reproducere skævheder i træningsdataene.

De kan generere artefakter eller forvrængninger i outputtet.

Hvad er Stable Diffusion modellen

Stabil diffusion virker ved at anvende et sæt transformationer til en støjvektor for at generere et billede.

Disse transformationer anvendes iterativt over en række tidstrin, hvorunder der gradvist tilføjes støj til billedet for at gøre det mere komplekst og realistisk.

Nøglen til den stabile diffusionsalgoritme er brugen af en diffusionsproces, der sikrer, at de genererede billeder er af høj kvalitet og er mangfoldige.
I fysik beskriver diffusion den gradvise spredning af partikler i en væske.

I forbindelse med generativ modellering bruges diffusionsprocessen til gradvist at generere et billede ved at tilføje støj til det over en række tidstrin.
Ved hvert tidstrin transformeres støjvektoren af en funktion, der er defineret af et neuralt netværk.

Den transformerede støj blandes derefter med det aktuelle billede, og den resulterende blanding føres gennem et andet neuralt netværk, der forudsiger en maske, der bestemmer, hvor meget af det aktuelle billede, der skal bibeholdes, og hvor meget, der skal erstattes med blandingen.

Processen gentages over flere tidstrin, hvor der tilføjes støj ved hvert trin for gradvist at generere et komplekst og realistisk billede.

Fordele

Kan producere højkvalitets og mangfoldige billeder, da diffusionsprocessen, der anvendes i Stable Diffusion, sikrer, at de genererede billeder er af høj kvalitet og er mangfoldige.

Stoler ikke på modstridende træning, som kan undgå nogle af problemerne med GAN’er, såsom tilstandskollaps og bias-forstærkning.

Den kan give ensartede resultater over tid.

Minusser

Den kan være beregningsmæssigt dyrt at træne og generere billeder, da det involverer et stort antal tidstrin.

Den kan generere slørede billeder, især når der genereres små billeder eller billeder i lav opløsning.

Den kan kræve større mængder træningsdata for at producere resultater af høj kvalitet.

GANs vs. Stable Diffusion

Sammenfattende har GAN’er og Stable Diffusion hver deres styrker og svagheder, og valget af den rigtige model afhænger af de specifikke krav til den aktuelle opgave.

GAN’er kan være mere velegnede til opgaver, hvor realisme er en topprioritet, mens Stabil Diffusion kan være mere velegnet til opgaver, hvor mangfoldighed og konsistens er vigtig.

Flere af de populære generatorer kombinerer de to teknikker i dag.
Selv den service der hedder Stable Díffusion bruger GANs til nogle ting og kombinerer dem så med læring opnået gennem diffusion.

Hvordan kommunikerer man med dem

De fleste generative AI-billedgeneratorer bruger tekstbaserede prompter, også kendt som prompt engineering, og oversætter disse ord ved hjælp af en proces kaldet naturlig sprogbehandling (NLP).
Derfra sammenlignes teksten med data, som maskinen er blevet trænet i til at forstå den semantiske betydning og kontekstuelle spor i teksten.

NLP konverterer disse ord til en numerisk vektor, som har en tilsvarende “betydning”, som kan bruges til output.
For eksempel ville “grønt æble på en tallerken” have tre separate beskrivende vektorer – “grønt”, “æble” og “plade”.
Tallene forbundet med hver af disse hjælper AI-billedgeneratoren med at bestemme, hvad det er, du leder efter.

Når alle disse tal er på plads, kan maskinen oversætte disse til et billede, som bliver den visuelle repræsentation af den tekstprompt, du har indtastet.

Nogle AI-billedgeneratorer vil også give dig mulighed for at indtaste billeder som en del af din prompt eller lave tekstbaserede referencer til eksisterende berømte billeder for at hjælpe billedgeneratoren med at forstå, hvad du ønsker mere præcist.
Du fodrer hermed med ægte billeder modellen kan sammenligne med.

Prompt engineering og billedgenerering

Prompt engineering er en proces, hvor du kommer med input som ord, sætninger, billeder eller videoer, der kan guide generative AI-værktøjer til at skabe dit ønskede output.

Da AI-værktøjer typisk er baseret på store sprogmodeller (LLM), jo bedre prompt, jo mere præcist bliver resultatet. Disse modeller er trænet på store datasæt, så effektiv prompt engineering kan bygge bro mellem menneskelig og AI-kommunikation for at finde præcis det, du leder efter.

I AI-billedgenerering er nogle af de bedste hurtige tekniske eksempler dem, der bruger traditionel kunst skabt af mennesker til at træne generative AI-systemer til at skabe nye, unikke kunstværker som et samarbejde mellem rigtige kunstnere og maskiner.

Typer af prompt engineering

Da kunstig intelligens er en teknologi i hastig udvikling, ændres de typer af prompter, vi bruger til at enerere billeder, også. Både sproglige færdigheder og kreative input er nødvendige for at generere AI-billeder, der ligner rigtige fotos eller grafik skabt af et menneske.

Nogle af de mest almindelige typer prompt engineering, der i øjeblikket anvendes, er:
- One-shot learning
- Zero-shot learning
- Chain-of-thought prompting
- Iterative prompting
One-shot learning

Det er her, en bruger inkluderer et eksempel på, hvad de ønsker, at resultatet skal være inden for selve prompten, f.eks. et eksempel på et kunstværk, de ønsker at replikere, før han beskriver de nye detaljer, de ønsker i billedet.

Zero-shot learning

Denne type prompt har intet eksempel, men kræver flere detaljer om, hvad du ønsker, at resultatet skal være, fordi AI-maskinen ikke har nogen forudgående viden om, hvad du leder efter.

For eksempel kan du skitsere de nøjagtige farver, former og størrelser af det, du vil have inkluderet i dit AI-billede.

Chain-of-thought prompting

Når du skal lave mere komplekse billeder, kan det være mere nyttigt at skitsere processen trin for trin end et langt tekstafsnit, der beskriver, hvad du leder efter, f.eks. “Opret et billede af en strand. Først skal du skabe havet og sandet. Dette skal efterfølges af en familie, der sidder på sandet til venstre på billedet. Tilføj derefter sandslotte omkring dem.”

Iterative prompting

Det er usandsynligt, at du får det nøjagtige output, du ønsker, ved et første forsøg.

Med iterativ prompt forfiner du din prompt, efterhånden som resultaterne genereres, og bliver mere specifik hver gang, indtil du opnår det, du leder efter.

I AI-billedgenerering kan dette omfatte forfining af farver eller mønstre i et billede, fjernelse af elementer, du ikke kan lide, eller tilføjelse af nye funktioner.

Prompt engineering og billedgenerering

Der er flere vigtige fordele ved at forstå prompt engineering og bruge det til at gøre din AI-billedgenerering mere effektiv.

Højere kvalitet og mere præcise billeder

Når du bruger de rigtige prompter, vil dine resultater være af meget højere kvalitet og mere sandsynligt, at det er det, du leder efter.

Da kunstig intelligens er bygget på kontinuerlig træning, jo mere præcise og detaljerede dine prompter er på forhånd, jo bedre vil dine output komme fremad.

Øget hastighed af billedgenerering

Effektiv prompt vil øge hastigheden, hvormed du kan skabe billeder, der stemmer overens med dine retningslinjer og input markant.

Da gode prompter skaber større nøjagtighed, betyder det også, at du vil bruge mindre tid på at forfine dine genererede billeder gennem iterativ prompting, fordi du har leveret alt, hvad maskinen har brug for på forhånd for at skabe det, du leder efter.

Omkostningsreduktioner til billedoprettelse

Når du kan generere billeder hurtigere og med større nøjagtighed, sparer du dyrebare ressourcer på dit team, som kan udmønte sig i betydelige omkostningsbesparelser på din teknologi.

Da du ikke behøver så meget menneskelig indgriben, når du laver bedre billeder på forhånd, falder de omkostninger, du ville have til rettelser.

Titelbillede genereret via Adobe Firefly

Kilder
- https://www.baeldung.com/cs/ai-image-generation-gans-dalle
- https://www.youtube.com/watch?v=1CIpzeNxIhU
- Landis, Holly. “AI Image Generation: The Science behind How It Works.” G2, 10 June 2024, https://www.g2.com/articles/ai-image-generation. Besøgt 23 august 2024.
- https://www.tomsguide.com/ai/ai-image-video/i-just-put-stable-diffusion-3-ai-to-the-test-and-it-generates-some-pretty-staggering-images
- https://medium.com/ai-apps/the-science-behind-ai-image-generation-how-it-works-4ced3e628e5e
- https://humanoid.tools/articles/how-do-ai-image-generators-work/
07/11/2024
AIs historiske udvikling
Hele begrebet kunstig intelligens, Artificial Intelligence (AI), er knap 70 år gammelt og har som så meget andet rødder i universitetsverdenen.

Dartmouth-konferencen

Dartmouth-konferencen i 1956 er en skelsættende begivenhed i kunstig intelligensens historie, det var et sommerforskningsprojekt, der fandt sted i 1956 på Dartmouth College i New Hampshire, USA.

Konferencen var den første af sin art i den forstand, at den samlede forskere fra tilsyneladende forskellige studieretninger – datalogi, matematik, fysik og andre – med det ene formål at udforske potentialet i syntetisk intelligens (begrebet AI var ikke opfundet endnu).

Under konferencen diskuterede deltagerne en bred vifte af emner relateret til AI, såsom naturlig sprogbehandling, problemløsning og maskinlæring. De lagde også en køreplan for AI-forskning, herunder udvikling af programmeringssprog og algoritmer til at skabe intelligente maskiner.

Denne konference betragtes som et banebrydende øjeblik i AI’s historie, da det markerede feltets fødsel sammen med det øjeblik, navnet “Artificial Intelligence” blev opfundet.

Dartmouth-konferencen havde en betydelig indflydelse på AI’s overordnede historie. Det var med til at etablere AI som et studieområde og tilskyndede til udviklingen af nye teknologier og teknikker.

Deltagerne opstillede en vision for kunstig intelligens, som omfattede skabelsen af intelligente maskiner, der kunne ræsonnere, lære og kommunikere som mennesker. Denne vision udløste en bølge af forskning og innovation på området.

Efter konferencen fortsatte John McCarthy og hans kolleger med at udvikle det første AI-programmeringssprog, LISP. Dette sprog blev grundlaget for AI-forskning og eksisterer stadig i dag.

Konferencen førte også til etableringen af AI-forskningslaboratorier på flere universiteter og forskningsinstitutioner, bl.a MIT, Carnegie Mellon, og Stanford.

Turing testen

En af de mest betydningsfulde arvestykker fra Dartmouth-konferencen er at deltagerne arbejde videre med udformningen af Turing testen her et par år efter Turings død.

Alan Turing, en britisk matematiker, foreslog ideen om en test for at afgøre, om en maskine kunne udvise intelligent adfærd, der ikke kan skelnes fra et menneske.

Dette koncept blev diskuteret på konferencen og blev en central idé inden for AI-forskning. Turing-testen er fortsat et vigtigt pejlemærke til at måle fremskridtene inden for AI-forskning i dag.

Perceptron

Perceptronen er en kunstig neural netværksarkitektur designet af psykolog Frank Rosenblatt i 1958. Den gav trækkraft til det, der er berømt kendt som Brain Inspired Approach to AI, hvor forskere bygger AI-systemer til at efterligne den menneskelige hjerne.

I tekniske termer er Perceptron en binær klassifikator, der kan lære at klassificere inputmønstre i to kategorier. Det fungerer ved at tage et sæt inputværdier og beregne en vægtet sum af disse værdier, efterfulgt af en tærskelfunktion, der bestemmer, om outputtet er 1 eller 0. Vægtene justeres under træningsprocessen for at optimere klassifikatorens ydeevne. Altså en forløber for general adverserial networks, neurale net der træner sig selv ved at to kører synkront og udfordrer hinanden. Jeg har skrevet lidt mere om disse i en anden artikel.

Perceptronen blev set som en vigtig milepæl inden for kunstig intelligens, fordi den demonstrerede potentialet i maskinlæringsalgoritmer til at efterligne menneskelig intelligens. Det viste, at maskiner kunne lære af erfaringer og forbedre deres ydeevne over tid, ligesom mennesker gør.

Perceptronen blev oprindeligt udråbt som et gennembrud inden for kunstig intelligens og fik meget opmærksomhed fra medierne.

Det blev dog senere opdaget, at algoritmen havde begrænsninger, især når det kom til at klassificere komplekse data. Dette førte til et fald i interessen for Perceptron og AI-forskning generelt i slutningen af 1960’erne og 1970’erne.

Perceptronen blev dog senere genoplivet og indarbejdet i mere komplekse neurale netværk, hvilket førte til udviklingen af deep learning og andre former for moderne maskinlæring.

I 1960’erne blev de åbenlyse fejl ved perceptronen som sagt opdaget, og så begyndte forskere at udforske andre AI-tilgange ud over Perceptronen. De fokuserede på områder som symbolsk ræsonnement, naturlig sprogbehandling og maskinlæring.

Denne forskning førte til udviklingen af nye programmeringssprog og værktøjer, som f.eks LISP og Prolog, der var specielt designet til AI-applikationer. Disse nye værktøjer gjorde det lettere for forskere at eksperimentere med nye AI-teknikker og at udvikle mere sofistikerede AI-systemer.

1960ernes boom

I løbet af denne tid blev den amerikanske regering også interesseret i kunstig intelligens og begyndte at finansiere forskningsprojekter gennem agenturer såsom Defense Advanced Research Projects Agency (DARPA). Denne finansiering var med til at fremskynde udviklingen af kunstig intelligens og gav forskerne de ressourcer, de havde brug for til at tackle stadig mere komplekse problemer.

AI-boomet i 1960’erne kulminerede i udviklingen af adskillige skelsættende AI-systemer. Et eksempel er General Problem Solver (GPS), som blev skabt af Herbert Simon, J.C. Shaw og Allen Newell. GPS var et tidligt AI-system, der kunne løse problemer ved at søge gennem et rum af mulige
løsninger.

Et andet eksempel er ELIZA programmet, skabt af Joseph Weizenbaum, som var et naturligt sprogbehandlingsprogram, der simulerede en psykoterapeut.

1980’ernes afkøling

AI-vinteren i 1980’erne refererer til en periode, hvor forskning og udvikling inden for kunstig intelligens (AI) oplevede en betydelig afmatning oven på 1960’erne og 1970’ernes entusiasme.

Dette skete delvist, fordi mange af de AI-projekter, der var blevet udviklet under AI-boomet, ikke holdt deres løfter. AI-forskersamfundet blev mere og mere desillusioneret over manglen på fremskridt på området. Dette førte til finansieringsnedskæringer, og mange AI-forskere blev tvunget til at opgive deres projekter og forlade feltet helt.

Overordnet set var AI-vinteren i 1980’erne en væsentlig milepæl i AI-historien, da den demonstrerede udfordringerne og begrænsningerne ved AI-forskning og -udvikling. Det tjente også som en advarselshistorie for investorer og politiske beslutningstagere, som indså, at hypen omkring AI nogle gange kunne være overdrevet, og at fremskridt på området ville kræve vedvarende investeringer og engagement.

Ekspertsystemer er en type kunstig intelligens (AI) teknologi, der blev udviklet i 1980’erne. Ekspertsystemer er designet til at efterligne beslutningsevnerne hos en menneskelig ekspert inden for et specifikt domæne eller område, såsom medicin, økonomi eller teknik.

Ekspertsystemer

Udviklingen af ekspertsystemer markerede et vendepunkt i AIs historie. Presset på AI-samfundet var steget sammen med efterspørgslen om at levere praktiske, skalerbare, robuste og kvantificerbare applikationer af kunstig intelligens.

Ekspertsystemer tjente som bevis på, at AI-systemer kunne bruges i virkelige systemer og havde potentialet til at give betydelige fordele til virksomheder og industrier. Ekspertsystemer blev brugt til at automatisere beslutningsprocesser i forskellige domæner, fra diagnosticering af medicinske tilstande til forudsigelse af aktiekurser.

I tekniske termer er ekspertsystemer typisk sammensat af en vidensbase, som indeholder information om et bestemt domæne, og en inferensmotor, som bruger denne information til at ræsonnere om nye input og træffe beslutninger. Ekspertsystemer inkorporerer også forskellige former for ræsonnement, såsom deduktion, induktion og abduktion, for at simulere menneskelige eksperters beslutningsprocesser.

I dag bliver ekspertsystemer fortsat brugt i forskellige industrier, og
deres udvikling har ført til skabelsen af andre AI-teknologier, såsom maskinlæring og naturlig sprogbehandling.

1990’erne ser og lærer

Som diskuteret i det foregående afsnit kom ekspertsystemer i spil omkring slutningen af 1980’erne og begyndelsen af 1990’erne. Men de var begrænset af, at de var afhængige af strukturerede data og regelbaseret logik. De kæmpede for at håndtere ustrukturerede data, såsom tekst eller billeder i naturligt sprog, som i sagens natur er tvetydige og kontekstafhængige.

For at løse denne begrænsning begyndte forskere at udvikle teknikker til behandling af naturligt sprog og visuel information.

I 1990’erne førte fremskridt inden for maskinlæringsalgoritmer og computerkraft til udviklingen af mere sofistikerede NLP- og Computer Vision-systemer.

Forskere begyndte at bruge statistiske metoder til at lære mønstre og funktioner direkte fra data i stedet for at stole på foruddefinerede regler. Denne tilgang, kendt som machine learning, muliggjorde mere nøjagtige og fleksible modeller til behandling af naturligt sprog og visuel information.

En af de vigtigste milepæle i denne æra var udviklingen af Hidden Markov Model (HMM), som muliggjorde probabilistisk modellering af tekst i naturligt sprog. Dette resulterede i betydelige fremskridt inden for talegenkendelse, sprogoversættelse og tekstklassificering.

Tilsvarende inden for Computer Vision tillod fremkomsten af Convolutional Neural Networks (CNN’er) mere nøjagtig genkendelse af objekter og billedklassificering.

Disse teknikker bruges nu i en lang række applikationer, fra selvkørende biler til medicinsk billedbehandling.

2000’erne og big data

Begrebet big data har eksisteret i årtier, men dets fremtræden i forbindelse med kunstig intelligens (AI) kan spores tilbage til begyndelsen af 2000’erne.

For at data kan betegnes som big, skal de opfylde 3 kerneegenskaber: Volume, Velocity og Variety.
- Volume refererer til selve størrelsen af datasættet, som kan variere fra terabyte til petabyte eller endnu større.
- Velocity refererer til den hastighed, hvormed dataene genereres og skal behandles. For eksempel kan data fra sociale medier eller IoT-enheder genereres i realtid og skal behandles hurtigt.
- Og variety refererer til de forskellige typer af data, der genereres, herunder strukturerede, ustrukturerede og semistrukturerede data.
•Før fremkomsten af big data var AI begrænset af mængden og kvaliteten af data, der var tilgængelige til træning og test af maskinlæringsalgoritmer.

Natural language processing (NLP) og computer vision var to områder af kunstig intelligens, der oplevede betydelige fremskridt i 1990’erne, men de var stadig begrænset af mængden af data, der var tilgængelig.

For eksempel var tidlige NLP-systemer baseret på håndlavede regler, som var begrænsede i deres evne til at håndtere kompleksiteten og variabiliteten af naturligt sprog.

Fremkomsten af big data ændrede dette ved at give adgang til enorme mængder data fra en lang række kilder, herunder sociale medier, sensorer og andre tilsluttede enheder.

Dette gjorde det muligt for maskinlæringsalgoritmer at blive trænet på meget større datasæt, hvilket igen gjorde dem i stand til at lære mere komplekse mønstre og lave mere præcise forudsigelser.

Samtidig gjorde fremskridt inden for datalagring og -behandlings-teknologier, såsom Hadoop og Spark, det muligt at behandle og analysere disse store datasæt hurtigt og effektivt. Dette førte til udviklingen af nye maskinlæringsalgoritmer, såsom deep learning, som er i stand til at lære af enorme mængder data og lave meget præcise forudsigelser.

Deep learning

Fremkomsten af Deep Learning er en vigtig milepæl i globaliseringen af moderne kunstig intelligens.

Lige siden Dartmouth-konferencen i 1950’erne er AI blevet anerkendt som et legitimt studieområde, og de første år med AI-forskning fokuserede på symbolsk logik og regelbaserede systemer. Dette involverede manuel programmering af maskiner til at træffe beslutninger baseret på et sæt forudbestemte regler. Selvom disse systemer var nyttige i visse applikationer, var de begrænset i deres evne til at lære og tilpasse sig nye data.

Det var først efter fremkomsten af big data, at deep learning blev en vigtig milepæl i AIs historie. Med den eksponentielle vækst i mængden af tilgængelige data, havde forskerne brug for nye måder at behandle og udtrække indsigt fra enorme mængder information.

Deep learning-algoritmer gav en løsning på dette problem ved at gøre det muligt for maskiner automatisk at lære fra store datasæt og foretage forudsigelser eller beslutninger baseret på denne læring.

Deep learning er en type maskinlæring, der bruger kunstige neurale netværk, som er modelleret efter den menneskelige hjernes struktur og funktion. Disse netværk er opbygget af lag af indbyrdes forbundne noder, som hver udfører en specifik matematisk funktion på inputdataene. Outputtet fra et lag tjener som input til det næste, hvilket gør det muligt for netværket at udtrække stadig mere komplekse funktioner fra data.

En af de vigtigste fordele ved deep learning er dens evne til at lære hierarkiske repræsentationer af data. Det betyder, at netværket automatisk kan lære at genkende mønstre og funktioner på forskellige abstraktions-niveauer.

For eksempel kan et dybt læringsnetværk lære at genkende formen af individuelle bogstaver, derefter ordenes struktur og endelig betydningen af sætninger.

Udviklingen af deep larning har ført til betydelige gennembrud inden for områder som computersyn, talegenkendelse og naturlig sprogbehandling. For eksempel er deep learning-algoritmer nu i stand til præcist at klassificere billeder, genkende tale og endda generere realistisk menneskelignende sprog eller spille komplekse spil som Go.

Deep learning repræsenterer en vigtig milepæl i AI’s historie, muliggjort af fremkomsten af big data. Dens evne til automatisk at lære af enorme mængder information har ført til betydelige fremskridt inden for en lang række applikationer, og det vil sandsynligvis fortsætte med at være et nøgleområde for forskning og udvikling i de kommende år.

Generativ AI

Det er her, vi er i den aktuelle AI-tidslinje. Generativ AI er et underområde af kunstig intelligens (AI), der involverer at skabe AI-systemer, der er i stand til at generere nye data eller indhold, der ligner data, det blev trænet på. Dette kan omfatte generering af billeder, tekst, musik og endda videoer.

Transformers, en type neural netværksarkitektur, har revolutioneret generativ AI. De blev introduceret i et papir af Vaswani et al. i 2017 og har siden været brugt i forskellige opgaver, herunder naturlig sprogbehandling, billedgenkendelse og talesyntese.

Transformers bruger selvopmærksomhedsmekanismer til at analysere forholdet mellem forskellige elementer i en sekvens, hvilket giver dem mulighed for at generere mere sammenhængende og nuanceret output.

Dette har ført til udviklingen af store sprogmodeller såsom GPT-4 (ChatGPT), som kan generere menneskelignende tekst om en lang række emner.

Disse GPTer kombinerer transformers med store mængder tekst i sprogmodeller.

Titelbillede genereret via Adobe Firefly

Kilder
06/11/2024

Tag: AI

Sådan laver AI billeder

Kort om teknikkerne bag

Hvad er Generative Adversarial Networks

Fordele

Minusser

Hvad er Stable Diffusion modellen

Fordele

Minusser

GANs vs. Stable Diffusion

Hvordan kommunikerer man med dem

Prompt engineering og billedgenerering

Typer af prompt engineering

One-shot learning

Zero-shot learning

Chain-of-thought prompting

Iterative prompting

Prompt engineering og billedgenerering

Højere kvalitet og mere præcise billeder

Øget hastighed af billedgenerering

Omkostningsreduktioner til billedoprettelse

Kilder

AIs historiske udvikling

Dartmouth-konferencen

Turing testen

Perceptron

1960ernes boom

1980’ernes afkøling

Ekspertsystemer

1990’erne ser og lærer

2000’erne og big data

Deep learning

Generativ AI

Kilder