Kunstig nevrale nettverk

Kunstige nevrale nettverk (også kjent som forbindelsessystemer ) er beregningsmodeller utviklet fra forskjellige vitenskapelige bidrag som er registrert i historien. [ 1 ] Den består av et sett med enheter, kalt kunstige nevroner , koblet til hverandre for å overføre signaler. Inndatainformasjonen passerer gjennom det nevrale nettverket (hvor den utsettes for ulike operasjoner) og produserer utgangsverdier.

Hvert nevron er koblet til andre gjennom lenker. I disse koblingene multipliseres utgangsverdien til forrige nevron med en vektverdi. Disse koblingsvektene kan øke eller hemme avfyringstilstanden til tilstøtende nevroner. På samme måte, ved utgangen av nevronet, kan det være en begrensende funksjon eller terskel, som modifiserer resultatverdien eller pålegger en grense som ikke må overskrides før den forplanter seg til et annet nevron. Denne funksjonen er kjent som aktiveringsfunksjonen .

Disse systemene lærer og trener seg selv, i stedet for å være eksplisitt programmert, og utmerker seg på områder der deteksjon av løsninger eller funksjoner er vanskelig å uttrykke med konvensjonell programmering. For å utføre denne maskinlæringen prøver man vanligvis å minimere en tapsfunksjon som evaluerer nettverket som helhet. Verdiene til vektene til nevronene oppdateres for å redusere verdien av tapsfunksjonen. Denne prosessen gjøres ved forplantning tilbake .

Målet med det nevrale nettverket er å løse problemer på samme måte som den menneskelige hjernen, selv om nevrale nettverk er mer abstrakte. Nåværende nevrale nettverk inneholder vanligvis noen få tusen til noen få millioner nevrale enheter.

Ny forskning på hjernen stimulerer ofte til å skape nye mønstre i nevrale nettverk. En ny tilnærming er å bruke forbindelser som strekker seg langt utover og kobler sammen prosesseringslag i stedet for alltid å være lokalisert til tilstøtende nevroner. Annen forskning studerer de forskjellige typene signaler over tid som aksoner forplanter seg, for eksempel dyp læring , interpolerer større kompleksitet enn et sett med boolske variabler som ganske enkelt er på eller av.

Nevrale nettverk har blitt brukt til å løse en lang rekke oppgaver, for eksempel datasyn og talegjenkjenning , som er vanskelige å løse ved bruk av vanlig regelbasert programmering . Historisk sett markerte bruken av nevrale nettverksmodeller en retningsendring fra slutten av 1980-tallet fra høyt nivå, preget av ekspertsystemer med kunnskap innebygd i hvis-da- regler, til maskinlæring på lavt nivå , preget av kunnskapen nedfelt i parameterne av en kognitiv modell med et eller annet dynamisk system .

Historikk

Warren McCulloch og Walter Pitts [ 2 ] (1943) skapte en datamodell for nevrale nettverk, kalt terskellogikk , som er basert på matematikk og algoritmer . Denne modellen viste veien for nevrale nettverksforskning til å dele seg i to forskjellige tilnærminger. Den ene tilnærmingen fokuserte på biologiske prosesser i hjernen, og den andre fokuserte på anvendelsen av nevrale nettverk for kunstig intelligens .

Hebbs læretid

På slutten av 1940-tallet skapte psykolog Donald Hebb [ 3 ] [ 4 ] en læringshypotese basert på mekanismen for nevronal plastisitet som nå er kjent som Hebb-læring . Hebb-læring anses å være en "typisk" uovervåket læring , og dens senere varianter var de første modellene for langsiktig potensering . Forskere begynte å bruke disse ideene på beregningsmodeller i 1948 med Turings forslag om at spedbarns menneskelig cortex er det han kalte en "uorganisert maskin" (også kjent som en "Type B Turing-maskin"). [ 5 ] [ 6 ]

Farley og Wesley A. Clark [ 7 ] (1954) brukte først datamaskiner, den gang kalt "kalkulatorer", for å simulere et Hebb-nettverk ved MIT. Andre datasimuleringer av nevrale nettverk er laget av Rochester, Holland, Habit og Duda (1956). [ 8 ]

Frank Rosenblatt [ 9 ] [ 10 ] (1958) skapte perceptronen , en mønstergjenkjenningsalgoritme basert på et to-lags datalæringsnettverk, ved hjelp av enkel addisjon og subtraksjon. Ved å bruke matematisk notasjon beskriver Rosenblatt også kretser som ikke er i den grunnleggende perceptronen, for eksempel den eksklusive-eller- kretsen , en krets som ikke kunne behandles av nevrale nettverk før opprettelsen av tilbakepropageringsalgoritmen av Paul Werbos (1975). [ 11 ]

I 1959 var en biologisk modell foreslått av to nobelprisvinnere , David H. Hubel og Torsten Wiesel , basert på deres oppdagelse av to celletyper i den primære visuelle cortex : enkle celler og komplekse celler. [ 12 ]

Den første rapporten om flerlags funksjonelle nettverk ble publisert i 1965 av Ivakhnenko og Lapa, og er kjent som klyngemetoden for datahåndtering . [ 13 ] [ 14 ] [ 15 ]

Nevrale nettverksforskning stoppet etter publiseringen av maskinlæringsforskning av Marvin Minsky og Seymour Papert (1969), [ 16 ] som avdekket to grunnleggende problemer med beregningsmaskinene som behandler nevrale nettverk. Den første var at grunnleggende perseptroner ikke var i stand til å behandle eksklusiv-eller-kretsen. Det andre viktige problemet var at datamaskiner ikke hadde nok prosessorkraft til å effektivt håndtere den store utførelsestiden som kreves av store nevrale nettverk.

Spredning bakover og gjenoppblomstring

Et påfølgende nøkkelfremskritt var tilbake-propageringsalgoritmen som effektivt løser det eksklusive-eller- problemet , og generelt problemet med rask trening av flerlags nevrale nettverk (Werbos 1975). Tilbakepropageringsprosessen bruker forskjellen mellom det produserte resultatet og det ønskede resultatet for å endre "vektene" av forbindelsene mellom de kunstige nevronene. [ 11 ]

På midten av 1980-tallet ble parallell distribuert prosessering populær under navnet konneksjonisme . David E. Rumelhart og James McClellands (1986) bok gir en omfattende diskusjon om bruken av konneksjonisme i datamaskiner for å simulere nevrale prosesser. [ 17 ]

Nevrale nettverk, som brukt i kunstig intelligens, har tradisjonelt blitt betraktet som forenklede modeller for nevrale prosessering i hjernen, selv om forholdet mellom denne modellen og den biologiske arkitekturen til hjernen er omdiskutert; det er uklart i hvilken grad kunstige nevrale nettverk reflekterer hjernens funksjon.

Støtte for vektormaskiner og andre mye enklere metoder, for eksempel lineære klassifiserere , oppnådde gradvis popularitet innen maskinlæring. Imidlertid har bruken av nevrale nettverk endret noen felt, for eksempel prediksjonen av proteinstrukturer. [ 18 ] [ 19 ]

I 1992 ble max-pooling (en form for subsampling, der dataene er delt inn i grupper av like store, som ikke har noen elementer til felles, og kun maksimalverdien for hver gruppe blir overført) introdusert for å hjelpe med gjenkjennelsen av tredimensjonale objekter. [ 20 ] [ 21 ] [ 22 ]

I 2010 ble bruken av max-pooling i backpropagation-trening akselerert av GPUer, og ble vist å gi bedre ytelse enn andre typer pooling. [ 23 ]

Gradientfading -problemet påvirker flerlags feedforward nevrale nettverk , som bruker backpropagation, og også tilbakevendende nevrale nettverk (RNN). [ 24 ] [ 25 ] Selv om feil forplanter seg fra lag til lag, avtar de eksponentielt med antall lag, og dette forhindrer bakoverjustering av nevronvekter basert på disse feilene. Dype nettverk er spesielt berørt.

For å overvinne dette problemet, tok Schmidhuber i bruk et flerlagshierarki av nettverk (1992) forhåndstrenet, ett lag om gangen, ved uovervåket læring , og foredlet ved backpropagation . [ 26 ] Behnke (2003) stolte kun på gradienttegnet ( Rprop ) [ 27 ] for problemer som bilderekonstruksjon og ansiktslokalisering.

Ettersom tidligere utfordringer med å trene dype nevrale nettverk ble løst med metoder som uovervåket forhåndstrening og økt datakraft gjennom bruk av GPUer og distribuert databehandling , ble nevrale nettverk igjen distribuert i stor skala, spesielt i bildebehandlings- og visuelle gjenkjenningsproblemer. Dette ble kjent som " dyp læring ", selv om dyp læring strengt tatt ikke er synonymt med dype nevrale nettverk.

Maskinvarebasert design

Dataenheter for biofysisk simulering så vel som nevromorf beregning ble laget i CMOS . Nanoenheter [ 28 ] for konvolusjon og svært storskala hovedkomponentanalyse kan skape en ny klasse av nevrale beregninger, fordi de er fundamentalt analoge snarere enn digitale (selv om tidlige implementeringer kan bruke digitale enheter). [ 29 ] Ciresan og kollegaer (2010) [ 30 ] i Schmidhubers gruppe viste at til tross for gradientfading-problemet, gjør GPU-er backpropagation mulig for flerlags feedforward nevrale nettverk.

Forbedringer siden 2006

Beregningsenheter er laget i CMOS , både for biofysisk simulering og for nevromorfisk databehandling . Nyere innsats viser lovende for etableringen av nanoenheter [ 31 ] for storskala hovedkomponentanalyse . Hvis det lykkes, vil det skape en ny klasse av nevral databehandling, siden den er avhengig av maskinlæring i stedet for programmering og fordi den er fundamentalt analog snarere enn digital , selv om de tidligste tilfellene faktisk kan være med digitale CMOS-enheter. [ 32 ]

Mellom 2009 og 2012 har de tilbakevendende nevrale nettverkene og de dype feedforward-nevrale nettverkene utviklet i Jürgen Schmidhubers forskningsgruppe ved det sveitsiske AI-laboratoriet IDSIA vunnet åtte internasjonale konkurranser innen mønstergjenkjenning og maskinlæring . For eksempel har Alex Graves toveis, flerdimensjonale langtidsminne (LSTM) vunnet tre konkurranser i tilkoblet håndskriftgjenkjenning på 2009 International Conference on Document Analysis and Recognition (ICDAR), uten noen forkunnskaper om de tre forskjellige språk som kan læres.

Implementeringer av denne metoden basert på raske grafikkbehandlingsenheter av Dan Ciresan og hans kolleger ved IDSIA har vunnet flere mønstergjenkjenningskonkurranser, inkludert 2011 Traffic Sign Recognition Competition, [ 33 ] ISBI-utfordringen 2012 med segmentering av nevronale strukturer i serier av elektronmikroskopi bilder, [ 34 ] og andre. Deres nevrale nettverk var også de første kunstige mønstergjenkjennerne som oppnådde overlegen ytelse enn menneskelig på viktige målestokker, som trafikkskiltgjenkjenning (IJCNN 2012) eller det håndskrevne sifferklassifiseringsproblemet.

Svært ikke-lineære dype arkitekturer som ligner på Neocognitron fra 1980 av Kunihiko Fukushima og "standardarkitekturen for syn", inspirert av de enkle og komplekse cellene identifisert av David H. Hubel og Torsten Wiesel i den visuelle cortex , kan også være til stede. ved uovervåkede metoder i University of Toronto -laboratoriet . Et team fra dette laboratoriet vant en konkurranse i 2012 sponset av Merck for å designe programvare for å finne molekyler som kan føre til nye medisiner.

Modeller

Nevrale nettverksmodeller innen kunstig intelligens blir generelt referert til som kunstige nevrale nettverk (ANNs); disse er i hovedsak enkle matematiske modeller som definerer en funksjon f:X→Y eller en fordeling pluss X eller både X og Y. Men noen ganger er modellene også nært knyttet til en bestemt læringsalgoritme eller læringsregel. En vanlig bruk av uttrykket "ANN-modell" er faktisk å definere en klasse av slike funksjoner (der medlemmene av klassen oppnås ved å variere parametere, tilkoblingsvekter eller arkitekturspesifikke parametere som antall nevroner eller dens tilkobling).

Nettverksfunksjon

Ordet nettverk i begrepet "kunstig nevrale nettverk" refererer til sammenkoblingene mellom nevroner i de forskjellige lagene i hvert system. Et eksemplarisk system har tre lag. Det første laget har inngangsnevroner som sender data over synapser til det andre laget av nevroner, og deretter over flere synapser til det tredje laget av utgangsnevroner. Mer komplekse systemer vil ha flere lag, noen øker antallet inngangs- og utgangsnevroner. Synapser lagrer parametere kalt "vekter" som manipulerer data i beregninger.

En ANN er vanligvis definert av tre typer parametere:

1. Mønsteret av sammenkobling mellom de forskjellige lagene av nevroner

2. Læreprosessen for oppdatering av vektene til sammenkoblingene

3. Aktiveringsfunksjonen som konverterer de vektede inngangene til et nevron til dets aktivering til utgang.

Matematisk er nettverksfunksjonen til et nevron definert som en sammensetning av andre funksjoner . Dette er representert som en nettverksstruktur, med piler som representerer avhengighetene mellom variabler En mye brukt type sammensetning er den ikke- lineære vektede summen , hvor k (ofte referert til som aktiveringsfunksjonen [ 35 ] ) er en forhåndsdefinert funksjon, f.eks. som hyperbolsk tangens eller sigmoid funksjon . Den viktige egenskapen til aktiveringsfunksjonen er at den gir en jevn overgang når inngangsverdiene endres, det vil si at en liten endring i inngangen gir en liten endring i utgangen. Det vil være praktisk for det følgende å referere til en samling funksjoner ganske enkelt som en vektor . ${\begin{alignedat}{2}f(x)\\\end{alignedat}}$ $g_{i}{\begin{alignedat}{2}(x)\\\end{alignedat}}$ ${\begin{alignedat}{2}f(x)&=k&{\bigl (}\textstyle \sumi}\displaystyle &w_{i}&g_{i}(x))\\\end {aligned}}$ $g_{i}$ $g=(g_{i},g_{2},...,g_{n})$

Denne figuren representerer en dekomponering av slike , med avhengighetene mellom variablene angitt med pilene. Disse kan tolkes på to måter. $F$

Den første visningen er den funksjonelle visningen: inngangen transformeres til en 3-dimensjonal vektor , som deretter transformeres til en 2-dimensjonal vektor , som til slutt transformeres til . Dette synspunktet er oftest funnet i sammenheng med optimalisering . $x$ $h$ $g$ $F$

Det andre synet er det sannsynlige synet: den tilfeldige variabelen avhenger av den tilfeldige variabelen , Den avhenger av , Den avhenger av den tilfeldige variabelen . Dette synspunktet finnes oftest i sammenheng med grafiske modeller . $F=f(G)$ $G=g(H)$ $H=h(X)$ $X$

De to synspunktene er stort sett likeverdige. I alle fall, for denne spesielle nettverksarkitekturen, er komponentene i de individuelle lagene uavhengige av hverandre (f.eks. er komponentene til uavhengige av hverandre, gitt deres bidrag ). Dette åpner naturligvis for en viss grad av parallellitet i utførelsen. $g$ $h$

Nettverk som det ovenfor kalles ofte feed-forward , fordi grafen deres er en asyklisk rettet graf . Nettverk med sykluser kalles ofte rekursive . Slike nettverk er vanligvis representert på den måten som er vist øverst i figuren, hvor det er vist som avhengig av seg selv. En implisitt tidsavhengighet vises imidlertid ikke. $F$

Læretiden

Det som har tiltrukket seg mest interesse for nevrale nettverk er muligheten for læring . Gitt en gitt oppgave å løse, og en klasse med funksjoner , består læring av å bruke et sett med observasjoner for å finne den som løser oppgaven på en optimal måte . $F$ $f^{*}\in F$

Dette innebærer definisjonen av en kostnadsfunksjon slik at, for den optimale løsningen . Det vil si at ingen løsning har en kostnad mindre enn kostnaden for den optimale løsningen. $\textstyle C:F\rightarrow \mathbb {R}$ $f^{*},C(f^{*})\leq C(f)\for alle f\in F$

Kostnadsfunksjonen er et viktig begrep i læring, da den representerer hvor langt en bestemt løsning er fra den optimale løsningen til problemet som skal løses. Læringsalgoritmer søker gjennom løsningsrommet for å finne en funksjon som har lavest mulig kostnad. $\textstyle C$

For applikasjoner der løsningen er avhengig av noen data, må kostnaden nødvendigvis være en funksjon av observasjonene , ellers ville vi ikke modellert alt relatert til dataene. Det er ofte definert som en statistikk som bare tilnærminger kan gjøres til. Som et enkelt eksempel kan du vurdere problemet med å finne modellen , minimere , for datapar hentet fra en eller annen distribusjon . I praktiske situasjoner ville vi bare ha prøver av , og for eksempelet ovenfor ville vi bare ha minimer . Derfor minimeres kostnadene gjennom et utvalg av dataene i stedet for hele distribusjonen av datagenerering. $F$ $C=E[(f(x)-y)^{2}]$ $(x,y)$ $D$ $N$ $D$ $C={\frac {i}{N}}\textstyle \sum{i=1}^{N}\displaystyle (f(x_{i})-y_{i})^{2}$

Når en eller annen form for nettbasert maskinlæring må brukes, hvor kostnaden er delvis minimert slik hvert nytt eksempel ser ut. Mens online maskinlæring ofte brukes når den er løst, er den mest nyttig i tilfeller der distribusjonen endres sakte over tid. I nevrale nettverksmetoder brukes ofte en form for online maskinlæring for endelige datasett. $N\rightarrow \infty$ $D$

Valget av en kostnadsfunksjon

Selv om det er mulig å definere en kostnadsfunksjon, vil en bestemt kostnad ofte bli brukt, enten fordi den har ønskelige egenskaper (som konveksitet ) eller fordi den oppstår naturlig fra en bestemt formulering av problemet (for eksempel i en sannsynlighetsformulering, bakre sannsynlighet for modellen kan brukes som en invers kostnad). Til syvende og sist vil kostnadsfunksjonen avhenge av ønsket oppgave.

Læringsparadigmer

Det er tre store læringsparadigmer, som hver tilsvarer en bestemt abstrakt læringsoppgave. Disse er veiledet læring , uovervåket læring og forsterkende læring .

Overvåket læring

I veiledet læring får vi en rekke sammenkoblede eksempler og målet er å finne en funksjon i den tillatte funksjonsklassen som tilsvarer eksemplene. Med andre ord ønsker vi å utlede kartleggingen utledet fra dataene; kostnadsfunksjonen er relatert til misforholdet mellom kartleggingen vår og dataene, og inneholder implisitt forkunnskap om problemdomenet. [ 36 ] $(x,y),x\in X,y\in Y$ $f:X\høyrepil Y$

En vanlig brukt kostnad er root mean square error , som prøver å minimere root mean square feilen mellom utgangene til nettverket og målverdien over alle eksemplariske par. Når man prøver å minimere denne kostnaden ved å bruke gradientnedstigning for klassen av nevrale nettverk kalt multilayer perceptrons (MLPs), får man den vanlige og velkjente tilbakepropageringsalgoritmen for nevrale nettverkstrening. $f(x)$ $y$

Oppgaver som faller inn under det veiledede læringsparadigmet er mønstergjenkjenning (også kjent som klassifisering) og regresjon (også kjent som funksjonstilnærming). Det overvåkede læringsparadigmet kan også brukes på sekvensielle data (f.eks. tale , håndskrift og gestgjenkjenning ). Dette kan betraktes som en form for læring med en «mester», i form av en funksjon som gir kontinuerlig tilbakemelding på kvaliteten på løsningene som er oppnådd så langt.

Uovervåket læring

I uovervåket læring gis noen data og kostnadsfunksjonen minimeres, som kan være hvilken som helst funksjon av dataene og nettverksutgangen, . $x$ $x$ $F$

Kostnadsfunksjonen avhenger av oppgaven (hva vi prøver å modellere) og våre implisitte a priori -antakelser (egenskapene til modellen vår, dens parametere og de observerte variablene).

Som et trivielt eksempel kan du vurdere modellen hvor er en konstant og kostnad . Minimering av denne kostnaden vil gi oss en verdi som er lik gjennomsnittet av dataene. Kostnadsfunksjonen kan være mye mer komplisert. Formen avhenger av applikasjonen: i komprimering kan den for eksempel være relatert til den gjensidige informasjonen mellom og , mens den i statistisk modellering kan være relatert til den bakre sannsynligheten for modellen gitt dataene (merk at i disse to eksemplene beløp ville bli maksimert i stedet for minimert). $f(x)=a$ $en$ $C=E[(xf(x))^{2}]$ $en$ $x$ $f(x)$

Oppgaver som faller innenfor det uovervåkede læringsparadigmet er generelle estimeringsproblemer ; applikasjoner inkluderer clustering , estimering av statistiske distribusjoner , datakomprimering og Bayesiansk spamfiltrering .

Forsterkende læring

I forsterkningslæring blir data vanligvis ikke gitt, men generert av en agents interaksjon med miljøet. På hvert tidspunkt utfører agenten en handling og miljøet genererer en observasjon og en øyeblikkelig kostnad , i henhold til noen (vanligvis ukjente) dynamikker. Målet er å finne en policy for aksjeutvelgelse som minimerer et visst mål for langsiktige kostnader, for eksempel den forventede kumulative kostnaden. Miljødynamikken og den langsiktige kostnaden for hver generell forsikring er ukjent, men kan estimeres. $x$ $du$ $y_{t}$ $x_{t}$ $c_{t}$

Mer formelt er miljøet modellert som en Markov Decision Process (MDP) med tilstander og handlinger med følgende sannsynlighetsfordelinger: den øyeblikkelige kostnadsfordelingen , observasjonsfordelingen og overgangen Mens en policy er definert som den betingede fordelingen på handlingene gitt observasjonene. Til sammen definerer de to en Markov-kjede (MC). Målet er å finne policyen (dvs. MC) som minimerer kostnadene. $s1,....,s_{n}\in S$ $a1,.....,a_{m}\in A$ $P(c_{t}|s_{t})$ $P(x_{t}|s_{t})$ $P(s_{t}+1|s_{t}a_{t})$

ANN-er brukes ofte i forsterkende læring som en del av den generelle algoritmen. [ 37 ] [ 38 ] Dynamisk programmering har blitt koblet til ANN-er (som gir nevrodynamisk programmering) av Bertsekas og Tsitsiklis [ 39 ] og brukt på flerdimensjonale ikke-lineære problemer, for eksempel de som er involvert i ruting av kjøretøy , naturressursforvaltning [ 40 ] 41 ] eller medisin [ 42 ] på grunn av ANNs evne til å redusere presisjonstap selv når nettverkstettheten reduseres ved diskretisering for å numerisk tilnærme løsningen av de opprinnelige kontrollproblemene.

Oppgaver som faller inn under paradigmet for forsterkende læring er kontrollproblemer, spill og andre sekvensielle oppgaver.

Oppføringstype

Til slutt kan ANN-er også klassifiseres i henhold til deres evne til å behandle informasjon av forskjellige typer i:

Analoge nettverk: behandle inngangsdata med kontinuerlige verdier og, vanligvis, avgrenset. Eksempler på denne typen nettverk er: Hopfield , Kohonen og konkurrerende læringsnettverk .
Diskrete nettverk: behandle inndata av diskret karakter; vanligvis boolske logiske verdier. Eksempler på denne andre typen nettverk er: Boltzmann- og Cauchy - maskinene og det diskrete Hopfield -nettverket .

Lærealgoritmer

Å trene en nevrale nettverksmodell betyr i hovedsak å velge en modell fra settet med tillatte modeller (eller, i et Bayesiansk rammeverk, bestemme en fordeling på settet med tillatte modeller) som minimerer kostnadskriteriet. Det er mange algoritmer tilgjengelig for trening av nevrale nettverksmodeller; de fleste av dem kan sees på som en direkte anvendelse av optimaliseringsteori og statistisk estimering .

De fleste algoritmer som brukes til å trene kunstige nevrale nettverk bruker en form for gradientnedstigning , ved å bruke tilbakepropagasjon for å beregne de faktiske gradientene. Dette gjøres ved ganske enkelt å ta den deriverte av kostnadsfunksjonen med hensyn til nettverksparametrene og deretter endre parametrene i en gradientrelatert retning. Algoritmer for ryggutbredelsestrening faller generelt inn i tre kategorier:

Gradientnedstigning (med variabel læringshastighet og momentum, elastisk tilbakepropagasjon (Rprop) );

kvasi-Newton ( Broyden-Fletcher-Goldfarb-Shannon , Secant Method );
Levenberg-Marquardt og konjugert gradient (Fletcher-Reeves-oppdatering, Polak-Ribiere-oppdatering, Powell-Beale-tilbakestilling, skalert konjugert gradient). [ 43 ]

Evolusjonære metoder , [ 44 ] genekspresjonsprogrammering , [ 45 ] simulert annealing , [ 46 ] forventningsmaksimering , ikke- parametriske metoder og partikkelsvermoptimalisering [ 47 ] er noen andre metoder for dannelse av nevrale nettverk.

Rekursiv konvergent læringsalgoritme

Dette er en læringsmetode som er spesielt utviklet for cerebellar modellartikulasjonskontroller (CMAC) nevrale nettverk. I 2004 ble en rekursiv minste kvadraters algoritme introdusert for å trene CMAC nevrale nettverk online. [ 48 ] Denne algoritmen kan konvergere i et enkelt trinn, og oppdatere alle vekter i et enkelt trinn med alle nye inndata. Til å begynne med hadde denne algoritmen en beregningskompleksitet på O ( N3 ) . Basert på QR-faktorisering , hadde denne rekursive læringsalgoritmen blitt forenklet for å gjøre den til O ( N ). [ 49 ]

Bruk av kunstige nevrale nettverk

Den kanskje største fordelen med ANN-er er deres evne til å bli brukt som en vilkårlig tilnærmingsfunksjonsmekanisme som "lærer" av observerte data. Bruken er imidlertid ikke så enkel, og en relativt god forståelse av den underliggende teorien er avgjørende.

Valg av modell Dette vil avhenge av datarepresentasjonen og applikasjonen. For komplekse modeller har en tendens til å føre til problemer i læringen. læringsalgoritme Det er mange avveininger mellom læringsalgoritmer. Nesten alle algoritmer vil fungere fint med de riktige hyperparametrene for å trene et spesifikt sett med faste data. Men å velge og justere en algoritme for trening på uventede data krever en betydelig mengde eksperimentering. Stødighet Hvis modellen, kostnadsfunksjonen og læringsalgoritmen velges riktig, kan den resulterende ANN være ekstremt robust.

Med riktig applikasjon kan ANN-er brukes naturlig i nettbasert læring og big data-applikasjoner. Den enkle implementeringen og eksistensen av for det meste lokale avhengigheter eksponert i rammeverket tillater raske og parallelle implementeringer i maskinvare.

Applikasjoner

ANN-er gjør dem ganske egnet for applikasjoner der det ikke er noen a priori identifiserbar modell som kan programmeres, men et grunnleggende sett med input-eksempler (forhåndsklassifisert eller ikke) er tilgjengelig. På samme måte er de svært robuste både mot støy og funksjonssvikt til spesifikke elementer og er lett parallelliserbare.

Dette inkluderer problemer med klassifisering og mønstergjenkjenning av tale , bilder, signaler osv. De har også blitt brukt til å finne mønstre for økonomisk svindel, lage spådommer i finansmarkedet, lage værmeldinger osv.

De kan også brukes når det ikke finnes presise matematiske modeller eller algoritmer med rimelig kompleksitet, for eksempel har Kohonen-nettverket blitt brukt med mer enn rimelig suksess på det klassiske reiseselgerproblemet ( et problem som det ikke finnes noen kjent algoritmisk løsning av polynomer for kompleksitet). ).

En annen spesiell type kunstige nevrale nettverk har blitt brukt i forbindelse med genetiske algoritmer (GA) for å lage kontrollere for roboter . Disiplinen som omhandler utviklingen av nevrale nettverk ved hjelp av genetiske algoritmer kalles Evolutionary Robotics . I denne typen applikasjoner består GA-genomet av nettverksparametrene (topologi, læringsalgoritme, aktiveringsfunksjoner, etc.) og tilstrekkeligheten til nettverket er gitt av tilstrekkeligheten til atferden som vises av den kontrollerte roboten (normalt en simulering av slik oppførsel).

Virkelige applikasjoner

Oppgavene som brukes på kunstige nevrale nettverk har en tendens til å falle inn i følgende generelle kategorier:

Funksjonstilnærming , eller regresjonsanalyse , inkludert tidsserieprediksjon , kondisjonsfunksjoner og modellering.
Klassifisering , inkludert mønstergjenkjenning og sekvensgjenkjenning, deteksjon og sekvensiell beslutningstaking.
Databehandling , inkludert filtrering, gruppering, blind separering av signaler og komprimering.
Robotikk , inkludert retning av manipulatorer og proteser .
Kontrollteknikk , inkludert numerisk datastyring .

Anvendelsesområder inkluderer systemidentifikasjon og kontroll (kjøretøykontroll, baneprediksjon, [ 50 ] prosesskontroll , naturressursforvaltning ), kvantekjemi , spill og beslutningstaking (backgammon, sjakk, poker ), mønstergjenkjenning (radarsystemer, ansiktsgjenkjenning , signalklassifisering, [ 51 ] objektgjenkjenning med mer), sekvensgjenkjenning (gest, stemme, håndskrevet tekstgjenkjenning), medisinsk diagnose , økonomisk-finansielle applikasjoner (for eksempel automatiserte systemer for handel i ulike aktivitetssektorer), datautvinning (eller kunnskapsoppdagelse i databaser, "KDD"), visualisering, maskinoversettelse , skille mellom ønskede og uønskede rapporter i sosiale nettverk, [ 52 ] forebygging av e-postspam .

Kunstige nevrale nettverk har også blitt brukt til diagnostisering av ulike typer kreft. Et ANN-basert hybrid lungekreftdeteksjonssystem kalt HLND forbedrer den diagnostiske nøyaktigheten og hastigheten til lungekreftradiologi. Disse nettverkene har også blitt brukt til å diagnostisere prostatakreft. Diagnostikk kan brukes til å lage spesifikke modeller tatt fra en stor gruppe pasienter sammenlignet med informasjon fra en gitt pasient. Modellene er ikke avhengige av antakelser om sammenhengene mellom ulike variabler. Kolorektal kreft har også blitt sett for seg ved bruk av nevrale nettverk. Nevrale nettverk kan forutsi utfallet av en kolorektal kreftpasient mer nøyaktig enn dagens kliniske metoder. Etter opplæring kunne nettverkene forutsi flere pasientutfall fra relaterte institusjoner.

Nevrale nettverk og nevrovitenskap

Teoretisk og beregningsmessig nevrovitenskap er feltet som omhandler teoretisk analyse og beregningsmodellering av biologiske nevrale systemer. Siden nevrale systemer er nært knyttet til kognitive og atferdsmessige prosesser, er feltet nært knyttet til kognitiv og atferdsmessig modellering.

Målet med feltet er å lage modeller av biologiske nevrale systemer for å forstå hvordan biologiske systemer fungerer. For å oppnå denne forståelsen streber nevrovitenskapsmenn etter å lage en kobling mellom observerte biologiske prosesser (data), biologisk plausible mekanismer for nevrale prosessering og læring ( biologiske nevrale nettverksmodeller ), og teori (statistisk læringsteori og læringsteori ). informasjonen ).

Modelltyper

Mange modeller brukes i feltet, definert på forskjellige abstraksjonsnivåer og modellerer forskjellige aspekter av nevrale systemer. De spenner fra modeller for kortsiktig oppførsel til individuelle nevroner , gjennom modeller for fremveksten av nevrale kretsdynamikk fra interaksjonen mellom individuelle nevroner, til modeller for fremveksten av atferden til abstrakte nevrale moduler som representerer komplette undersystemer. Disse inkluderer modeller for langsiktig og kortsiktig plastisitet, og av nevrale systemer og deres forhold til læring og hukommelse fra den enkelte nevron til systemnivå.

nettverk med minne

Integreringen av eksterne minnekomponenter med kunstige nevrale nettverk har en lang historie som går tilbake til tidlig forskning på distribuerte representasjoner og selvorganiserende kart . For eksempel, i sparsomt distribuert minne brukes mønstrene kodet av nevrale nettverk som minneadresser for innholdsadresserbart minne, med "nevroner" som i hovedsak fungerer som adressekodere og dekodere .

Nylig har dyp læring vist seg nyttig i semantisk hashing, der en dyp grafisk modell av ordtellingsvektorene hentes fra et stort sett med dokumenter. Dokumenter tilordnes til minneadresser på en slik måte at semantisk lignende dokumenter er plassert på nærliggende adresser. Dokumenter som ligner på et spørringsdokument kan da enkelt finnes ved å få tilgang til alle adresser som avviker med bare noen få biter fra spørringsdokumentadressen.

Memory Networks er en annen utvidelse av nevrale nettverk som inneholder langtidsminne som ble utviklet av Facebook Research. [ 53 ] Langtidshukommelsen kan leses og skrives til, med mål om å bruke den til prediksjon. Disse modellene har blitt brukt i sammenheng med svarspørring (QA), der langtidshukommelse faktisk fungerer som en (dynamisk) kunnskapsbase, og utdataene er et tekstsvar.

Neurale Turing-maskiner utviklet av Google DeepMind gjør det mulig å utvide mulighetene til dype nevrale nettverk ved å koble dem til eksterne minneressurser, som kan samhandle med oppmerksomhetsprosesser. Det kombinerte systemet er analogt med en Turing-maskin, men er differensierbart fra ende til ende, slik at det kan trenes effektivt med gradientnedstigning . Foreløpige resultater viser at nevrale Turing-maskiner kan utlede enkle algoritmer, som kopiering, sortering og assosiativ tilbakekalling fra input- og output-eksempler.

Differentiable Neural Computers (DNC) er en utvidelse av Neural Turing Machines, også fra DeepMind. De er laget av nevrale Turing-maskiner, korttidsminnesystemer og minnenettverk i sekvensbehandlingsoppgaver.

nevrale nettverksprogramvare

Nevrale nettverksprogramvare brukes til å simulere , forske på , utvikle og bruke kunstige nevrale nettverk, biologiske nevrale nettverk og, i noen tilfeller, et bredere spekter av adaptive systemer .

Typer kunstige nevrale nettverk

Typer av kunstige nevrale nettverk varierer fra de med bare ett eller to enveis logiske lag, til mange komplekse flerveis løkker av input- og tilbakemeldingslag. Generelt bruker disse systemene algoritmer i programmeringen for å bestemme kontrollen og organiseringen av funksjonene deres. De fleste systemer bruker "vekter" for å endre ytelsesparametere og forskjellige forbindelser til nevroner. Kunstige nevrale nettverk kan være autonome og lære ved input fra eksterne "lærere" eller til og med selvundervisning fra skriftlige inputregler. Neural Cube-stil nevrale nettverk utviklet av Gianna Giavelli gir et dynamisk rom der nettverk dynamisk rekombinerer informasjon og lenker på tvers av milliarder av uavhengige noder ved å bruke Darwinistisk nevrale tilpasning , en teknikk utviklet av Gerald Edelman , som gir mulighet for mer biologisk modellerte systemer.

Beregningskraft

Flerlagsperceptronen er en tilnærming av den universelle funksjonen, som vist av den universelle tilnærmingsteoremet . Beviset er imidlertid ikke konstruktivt når det gjelder antall nevroner som trengs, nettverkstopologien, konfigurasjonen av vektene og læringsparametrene.

Arbeidet til Hava Siegelmann og Eduardo D. Sontag har gitt bevis på at en spesifikk rekursiv arkitektur med rasjonelle verdivekter (i motsetning til fullpresisjon reelle tallverdier) har den fulle kraften til en universell Turing-maskin [59] som bruker en endelig antall nevroner og standard lineære forbindelser. Videre har det vist seg at bruk av irrasjonelle verdier for vekter resulterer i en maskin med super-Turing- kraft.

Evnen

Kunstige nevrale nettverksmodeller har en egenskap kalt "kapasitet", som omtrent tilsvarer deres evne til å modellere en gitt funksjon. Det er knyttet til mengden informasjon som kan lagres på nettverket og til forestillingen om kompleksitet.

Konvergens

Ingenting kan sies generelt om konvergens siden den avhenger av en rekke faktorer. For det første kan det være mange lokale minima. Dette avhenger av kostnadsfunksjonen og modellen. For det andre kan ikke optimaliseringsmetoden som brukes, garanteres å konvergere når den er borte fra et lokalt minimum. For det tredje, for en veldig stor mengde data eller parametere, blir noen metoder upraktiske. Generelt har teoretiske garantier om konvergens vist seg å være en pålitelig guide til praktisk anvendelse.

Generalisering og statistikk

I applikasjoner hvor målet er å lage et system som generaliserer godt til usynlige eksempler, har problemet med overtrening oppstått. Dette oppstår i kompliserte eller overspesifiserte systemer når kapasiteten til nettverket vesentlig overstiger de nødvendige ledige parametrene. Det er to tankeganger for å unngå dette problemet: Den første er å bruke kryssvalidering og lignende teknikker for å sjekke tilstedeværelsen av overtrening og optimalt velge hyper- slik at generaliseringsfeil minimeres. Det andre er å bruke en slags regularisering . Dette er et konsept som oppstår naturlig i et probabilistisk (bayesiansk) rammeverk, hvor regularisering kan gjøres ved å velge en større forhåndssannsynlighet fremfor de enklere modellene; men også i statistisk læringsteori, hvor målet er å minimere mer enn to størrelser: den 'empiriske risikoen' og den 'strukturelle risikoen', som grovt sett tilsvarer feilen på treningssettet og prediksjonsfeilen på dataene. sett på grunn av overtilpasning Overvåkede nevrale nettverk som bruker en gjennomsnittlig kvadratfeil (MSE) kostnadsfunksjon kan bruke formelle statistiske metoder for å bestemme konfidensen til den trente modellen MSEen i et valideringssett kan brukes som et variansestimat. Denne verdien kan brukes til å beregne konfidensintervallet for utgangen av nettverket, forutsatt en normalfordeling En konfidensanalyse utført på denne måten er statistisk gyldig så lenge utgangssannsynlighetsfordelingen forblir den samme og nettverket ikke er modifisert.

Ved å tilordne en softmax-aktiveringsfunksjon , en generalisering av den logistiske funksjonen , i utgangslaget til det nevrale nettverket (eller en softmax-komponent i et komponentbasert nevralt nettverk) til de kategoriske målvariablene, kan utgangene tolkes som sannsynligheter. Dette er veldig nyttig i klassifisering da det gir et mål på sikkerhet i klassifiseringene.

Softmax aktiveringsfunksjonen er: $y_{i}={\frac {e^{x_{i}}}{\sum \limitsj=1}^{c}e^{x_{j}}}}$

Kritikeren

Treningsting

En vanlig kritikk av nevrale nettverk, spesielt innen robotikk, er at de krever et stort mangfold av trening for drift i den virkelige verden. Dette er ikke overraskende, siden enhver læringsmaskin trenger nok representative eksempler for å fange opp den underliggende strukturen som lar den generalisere til nye tilfeller. Dean A. Powerless bruker i sin forskning presentert i artikkelen "Kunnskapsbasert opplæring av kunstige nevrale nettverk for autonom robotkjøring," et nevralt nettverk for å trene et robotkjøretøy til å kjøre på flere typer veier (fra et enkelt felt, flere veier). baner, skitt osv.). En stor mengde av forskningen hans er viet til (1) ekstrapolering av flere treningsscenarier fra en enkelt treningsopplevelse, og (2) å bevare tidligere treningsmangfold slik at systemet ikke blir overtrent. (hvis du for eksempel blir presentert med en serie med høyresvinger - du bør ikke lære å alltid svinge til høyre). Disse problemene er vanlige i nevrale nettverk som må avgjøre fra en lang rekke svar, men de kan håndteres på ulike måter, for eksempel ved å forvrenge treningseksemplene tilfeldig, ved å bruke en numerisk optimaliseringsalgoritme som ikke tar for store skritt når endre nettverksforbindelser ved å følge et eksempel, eller ved å gruppere eksempler i såkalte mini-batcher.

Teoretiske problemstillinger

AK Dewdney , en matematisk og informatiker ved University of Western Ontario og en tidligere Scientific American spaltist, skrev i 1997, "Selv om nevrale nettverk løser noen leketøysproblemer, er deres datakraft så begrenset at jeg er overrasket over at ingen tar dem seriøst som et generelt feilsøkingsverktøy." Det har aldri blitt vist noe nevrale nettverk som løser beregningsmessig vanskelige problemer, slik som N-Queens- problemet, problemet med reisende selger eller problemet med å faktorisere store heltall.

Bortsett fra deres nytte, er en grunnleggende innvending mot kunstige nevrale nettverk at de ikke klarer å speile hvordan ekte nevroner fungerer. Tilbakepropagering er kjernen i kunstige nevrale nettverk, og ikke bare er det ingen bevis for noen slik mekanisme for naturlige nevrale nettverk, [ 54 ] det ser ut til å motsi den grunnleggende læresetningen til ekte nevroner at informasjon bare kan strømme fremover langs aksonet. Hvordan informasjonen er kodet av faktiske nevroner er ennå ikke kjent. Det som er kjent er at sensoriske nevroner skyter aksjonspotensialer oftere med sensoraktivering, og muskelceller avfyrer sterkere når deres tilknyttede motoriske nevroner mottar aksjonspotensialer oftere. [ 55 ] Bortsett fra det enkleste tilfellet med bare å overføre informasjon fra et motornevron til et sensornevron, er nesten ingenting kjent om de generelle prinsippene som ligger til grunn for hvordan informasjon håndteres av ekte nevrale nettverk.

Formålet med kunstige nevrale nettverk er ikke nødvendigvis å replikere reell nevrale funksjon, men å trekke på naturlige nevrale nettverk som en tilnærming til iboende parallell databehandling som gir løsninger på hittil uløselige problemer. En sentral påstand fra kunstige nevrale nettverk er at de legemliggjør et kraftig nytt generelt prinsipp for informasjonsbehandling. Dessverre er disse generelle prinsippene dårlig definert og hevdes ofte å komme fra selve nevrale nettverket. Dette muliggjør enkel statistisk assosiasjon (den grunnleggende funksjonen til kunstige nevrale nettverk), beskrevet som læring eller gjenkjennelse . Som et resultat har kunstige nevrale nettverk, ifølge Dewdney, en "noe for ingenting kvalitet, som gir en særegen aura av latskap og en tydelig mangel på nysgjerrighet på hvor gode disse datasystemene er. sinn) griper inn; løsninger. De blir funnet. som ved magi, og ingen, ser det ut til, har lært noe." [ 56 ]

maskinvareproblemer

For å implementere stor og effektiv nevrale nettverksprogramvare, må betydelige prosesserings- og lagringsressurser brukes. Mens hjernen har tilpasset sin maskinvare til oppgaven med signalbehandling gjennom en graf av nevroner, kan simulering av selv en forenklet form i von Neumann-arkitekturen tvinge en nevrale nettverksdesigner til å bruke mange millioner rader med data.databaser for tilkoblingene dine, som kan bruke store mengder RAM og harddiskplass . I tillegg vil designeren av nevrale nettverkssystemer ofte måtte bruke utrolig mye prosessorkraft og CPU -tid for å simulere overføring av signaler på tvers av mange av disse forbindelsene og deres tilhørende nevroner .

Jürgen Schmidhuber bemerker at gjenoppblomstringen av nevrale nettverk i det 21. århundre, og deres fornyede suksess i bildegjenkjenningsoppgaver, i stor grad kan tilskrives fremskritt innen maskinvare: fra 1991 til 2015, datakraft, spesielt i det som leveres av GPGPUer (i GPUer ) , har den økt omtrent en million ganger, noe som gjør standard backpropagation-algoritmen levedyktig for treningsnettverk som er flere lag dypere enn før (men legger til at dette ikke løser de algoritmiske problemene som gradientfading-problemet "på en grunnleggende måte"). Bruk av GPU i stedet for vanlige CPUer kan redusere treningstiden for noen nettverk fra måneder til bare dager.

Datakraften fortsetter å vokse mer eller mindre i henhold til Moores lov , som kan gi nok ressurser til å utføre nye oppgaver. Nevromorfisk konstruksjon adresserer maskinvarevanskene direkte ved å bygge ikke-von Neumann-brikker med kretser designet for å implementere nevrale nettverk fra bunnen av. Google har også designet en brikke optimalisert for nevrale nettverksbehandling kalt Tensor Processing Unit, eller TPU.

Praktiske moteksempler på kritikk

Argumenter mot Dewdneys posisjon er at nevrale nettverk har blitt brukt med suksess for å løse mange komplekse og mangfoldige oppgaver, alt fra autonomt flygende fly til oppdagelse av kredittkortsvindel.

Teknologiskribent Roger Bridgman har kommentert DEWDNEYs uttalelser om nevrale nettverk:

Nevrale nettverk, for eksempel, er på kaien, ikke bare fordi de har blitt hyllet til den høye himmelen, (hva er galt, ikke sant?), men også fordi du kan lage et vellykket nettverk uten å forstå hvordan det fungerer: flokken med tall som fanger opp oppførselen deres ville etter all sannsynlighet være "en ugjennomsiktig, uleselig tabell... verdiløs som en vitenskapelig ressurs".

Til tross for hans ettertrykkelige uttalelse om at vitenskap ikke er teknologi, ser det ut til at Dewdney her latterliggjør nevrale nettverk som dårlig vitenskap når de fleste av dem som lager dem prøver å være gode ingeniører. En tabell du kan lese som en nyttig maskin fortsatt kunne lese, ville være vel verdt å ha.

Selv om det er sant at det er vanskelig å analysere det som er lært av et kunstig nevralt nettverk, er det mye lettere å gjøre enn å analysere det som er lært av et biologisk nevralt nettverk. På den annen side oppdager forskere som er involvert i å utforske læringsalgoritmer for nevrale nettverk gradvis generiske prinsipper som lar maskinlæring lykkes. For eksempel skrev Bengio og LeCun (2007) en artikkel om lokal kontra lokal læring. Ikke lokal så vel som grunn kontra dyp arkitektur.

Hybride tilnærminger

Noen annen kritikk kommer fra forsvarerne av hybridmodeller (kombinasjon av nevrale nettverk og symbolske tilnærminger), som mener at sammenblandingen av disse to tilnærmingene bedre kan fange mekanismene til det menneskelige sinnet.

konklusjon

Selv om noen informatikkfakulteter fortsetter å undervise i kunstige nevrale nettverk, har de ikke en klar vitenskapelig strenghet, og regnes som en pseudovitenskap av de fleste forskere og ingeniører.

Klassene og typene av RNA

Dynamisk nevralt nettverk
Feedforward Neural Network (FNN)
Tilbakevendende nevrale nettverk (RNN)
Hopfield nettverk
Boltzmann maskin
Enkle rekursive nettverk
Echo State Network
kort langtidshukommelse
Toveis RNN
Hierarkisk RNN
Stokastiske nevrale nettverk
Kohnen selvorganiserende kart
autoenkoder
Probabilistic Neural Network (PNN)
Time Delay Neural Network (TDNN)
Regulatory Feedback Network (RFNN)
statisk nevrale nettverk
neokognitron
McCulloch-Pitts nevron
Radial Basis Funksjon (RBF) nettverk
Lær vektorkvantisering
perceptron
Adaline modell
Convolution Neural Network (CNN)
modulære nevrale nettverk
Maskinkomité (COM)
Associative Neural Network (ASNN)
Nettverksminne
Google / Google DeepMind
Facebook / MemNN
holografisk assosiativ hukommelse
One-shot assosiativt minne
nevrale Turing-maskin
Adaptiv resonansteori
hierarkisk midlertidig minne
Andre typer nettverk
Øyeblikkelig trente nevrale nettverk (ITNN)
Surge Neural Network (SNN)
Drive Coded Neural Networks (PCNN)
Kaskadende nevrale nettverk
Neuro-fuzzy nettverk
Neural gass ( GNG ) halvmåne
Komposisjonsproduserende mønsternettverk
Ryggformeringsnettverk
oscillerende nevrale nettverk
hybrid nevrale nettverk
fysisk nevrale nettverk
optisk nevrale nettverk

Eksempler

Quake II Neuralbot

En bot er et program som simulerer en menneskelig spiller. Neuralbot er en bot for Quake II -spillet som bruker et kunstig nevralt nettverk for å bestemme oppførselen og en genetisk algoritme for læring. Det er veldig enkelt å teste den for å se utviklingen. Mer informasjon her [1]

Unbiased Protein Classifier

Det er et program som kombinerer ulike beregningsteknikker med sikte på å klassifisere familier av proteiner . En mulig metode er å bruke adaptive beregninger som: selvorganiserende kart og genetiske algoritmer .

Problemet med objektiv klassifisering basert på uttrykket av proteiner i aminosyrer kan konseptuelt reduseres til følgende:

Identifikasjon av grupper av proteiner som deler felles egenskaper.
Bestemmelsen av de strukturelle årsakene til at de aktuelle proteinene grupperes på angitt måte.
Unngå ideen om å etablere klassifiseringskriterier ("partisk") basert på forutinntatte ideer for å oppnå deres klassifisering. I denne forbindelse er det to forhold å vurdere:
- Hvordan oppnå proteinkarakterisering på en objektiv måte
- Hvordan oppnå det ovennevnte uten å ty til grupperingstiltak som igjen innebærer en slags skjevhet på nevnte gruppering.

ANN-er har blitt brukt på et økende antall problemer i det virkelige liv og av betydelig kompleksitet, der deres største fordel er å løse problemer som er ganske komplekse for dagens teknologi, og håndtere problemer som ikke har en algoritmisk eller algoritmisk løsning. er for kompleks til å bli funnet.

Generelt, fordi de ligner de i den menneskelige hjernen, er ANN-er godt navngitt, da de er flinke til å løse problemer som mennesker kan løse, men datamaskiner ikke. Disse problemene inkluderer mønstergjenkjenning og værprediksjon. I alle fall har mennesket kapasitet til mønstergjenkjenning, men kapasiteten til nevrale nettverk påvirkes ikke av tretthet, arbeidsforhold, følelsesmessig tilstand og kompensasjoner.

Fem utbredte teknologiske anvendelser er kjent:

Gjenkjennelse av håndskrevne tekster
talegjenkjenning
Simulering av kraftverk
deteksjon av eksplosiver
Identifikasjon av radarmål

Galleri

Et enkeltlags feedforward kunstig nevralt nettverk. Piler som kommer fra x2 er utelatt for klarhetens skyld. Det er P-innganger til dette nettverket og q-utganger. I dette systemet beregnes verdien av den qte utgangen, y_q som y_q=K*(∑(x_i*w_iq )-b_q )

Et to-lags feedforward kunstig nevrale nettverk.

Et kunstig enkeltlags feed forward neuralt nettverk med 4 innganger, 6 skjulte og 2 utganger. Sender ut status og retning gitt hjulposisjonsbaserte kontrollverdier
Et kunstig feed-forward to-lags nevralt nettverk med 8 innganger, 2x8 skjulte og 2 utganger. Oppgi bestemt posisjon, retning og andre verdier miljø. Kontrollverdier basert på pusher-utganger.

Udefinert
Udefinert

Programvareverktøy

Det er mange programvareverktøy som implementerer kunstige nevrale nettverk, både gratis og kommersielle, for eksempel:

Se også

Referanser

↑ [url= http://www.itnuevolaredo.edu.mx/takeyas/apuntes/Inteligencia%20Artificial/Apuntes/tareas_alumnos/RNA/Redes%20Neuronales2.pdf «historien om nevrale nettverk»].
^ McCulloch, Warren; Walter Pitts (1943). "En logisk beregning av ideer som er immanente i nervøs aktivitet". Bulletin of Mathematical Biophysics 5 (4): 115-133. doi : 10.1007/BF02478259 .
↑ Figueroba, Alex. "Hebbs lov: Det nevropsykologiske grunnlaget for læring" . Psykologi og sinn . Hentet 24. oktober 2018 .
^ Hebb, Donald (1949). Organisasjonen av atferd . _ New York: Willy. ISBN 978-1-135-63190-1 .
↑ Republication of Turings artikkel fra 1948: Turing, AM (1992). Samlede verk av AM Turing—Mechanical Intelligence. [ Collective Works of AM Turing—Mechanical Intelligence ] (på engelsk) . Elsevier Science Publishers.
^ Webster, CS (2012). Alan Turings uorganiserte maskiner og kunstige nevrale nettverk: hans bemerkelsesverdige tidlige arbeid og fremtidige muligheter . s. 35-43. Webster CS. Alan Turings uorganiserte maskiner og kunstige nevrale nettverk: hans bemerkelsesverdige tidlige arbeid og fremtidige muligheter. Evolutionary Intelligence 2012: 5; 35-43.
^ Farley, B.G.; W. A. Clark (1954). Simulering av selvorganiserende systemer med digital datamaskin. IRE Transactions on Information Theory 4 (4): 76-84. doi : 10.1109/TIT.1954.1057468 .
^ Rochester, N.; JH Holland; LH Vane; W.L. Doubt (1956). "Tester på en cellesammenstillingsteori om hjernens handling ved bruk av en stor digital datamaskin." IRE Transactions on Information Theory 2 ( 3): 80-93. doi : 10.1109/TIT.1956.1056810 .
↑ Matich, Damian Jorge (2001). «Nevrale nettverk: Grunnleggende konsepter og applikasjoner.» (PDF) . Buenos Aires, Argentina. s. 6 . Hentet 26. oktober 2018 .
^ Rosenblatt, F. (1958). "Perceptronen: En sannsynlighetsmodell for informasjonslagring og organisering i hjernen" . Psychological Review 65 (6): 386-408. PMID 13602029 . doi : 10.1037/h0042519 .
^ a b Werbos, PJ (1975). Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences . Harvard University.
^ Hubel, David H.; Wiesel, Torsten (2005). Hjerne og visuell persepsjon: historien om et 25 - årig samarbeid . Oxford University Press USA. s. 106. ISBN 978-0-19-517618-6 .
^ Schmidhuber, J. (2015). "Dyp læring i nevrale nettverk: en oversikt". Neural Networks 61 : 85-117. PMID 25462637 . arXiv : 1404.7828 . doi : 10.1016/j.neunet.2014.09.003 .
↑ Ivakhnenko, A.G. (1973). Kybernetiske prediksjonsenheter . CCM Information Corporation.
↑ Ivakhnenko, AG; Grigorʹevich Lapa, Valentin (1967). Kybernetikk og prognoseteknikker . American Elsevier Pub. Co.
↑ Minsky, Marvin; Papert, Seymour (1969). Perceptrons: An Introduction to Computational Geometry . MIT Press. ISBN 0-262-63022-2 .
^ Rumelhart, DE; McClelland, James (1986). Parallell distribuert prosessering: undersøkelser i mikrostrukturen til kognisjon . Cambridge: MIT Press. ISBN 978-0-262-63110-5 .
↑ Qian, N.; Sejnowski, T.J. (1988). "Forutsi den sekundære strukturen til globulære proteiner ved bruk av nevrale nettverksmodeller." Journal of Molecular Biology 202 : 865-884. Qian1988 .
^ Rost, B.; Sander, C. (1993). "Prediksjon av protein sekundær struktur med bedre enn 70% nøyaktighet". Journal of Molecular Biology 232 : 584-599. Rost1993 .
↑ Weng, J.; Ahuja, N.; Huang, T.S. (1992). "Cresceptron: et selvorganiserende nevralt nettverk som vokser adaptivt" . proc. International Joint Conference on Neural Networks (Baltimore, Maryland) 1 : 576-581.
↑ Weng, J.; Ahuja, N.; Huang, T.S. (1993). "Lære gjenkjennelse og segmentering av 3-D-objekter fra 2-D-bilder" . proc. 4th International Conf. Computer Vision (Berlin, Tyskland): 121-128.
↑ Weng, J.; Ahuja, N.; Huang, T.S. (1997). "Lære gjenkjennelse og segmentering ved hjelp av Cresceptron" . International Journal of Computer Vision 25 (2): 105-139.
↑ Scherer, Dominik; Mueller, Andreas C.; Behnke, Sven (2010). "Evaluering av sammenslåingsoperasjoner i konvolusjonelle arkitekturer for objektgjenkjenning" . 20th International Conference Artificial Neural Networks (ICANN) : 92-101. doi : 10.1007/978-3-642-15825-4_10 .
↑ S. Hochreiter., " Untersuchungen zu dynamischen neuronalen Netzen ," Diplomoppgave. Institutt f. Informatikk, Technische Univ. München. Rådgiver: J. Schmidhuber , 1991.
↑ Hochreiter, S.; et al. (15. januar 2001). "Gradientflyt i tilbakevendende nett: vanskeligheten med å lære langsiktige avhengigheter" . I Kolen, John F.; Kremer, Stefan C., red. En feltguide til dynamiske tilbakevendende nettverk . John Wiley og sønner. ISBN 978-0-7803-5369-5 .
↑ J. Schmidhuber., "Lære komplekse, utvidede sekvenser ved å bruke prinsippet om historiekomprimering," Neural Computation , 4, s. 234–242, 1992.
^ Behnke, Sven (2003). Hierarkiske nevrale nettverk for bildetolkning. . Forelesningsnotater i informatikk 2766 . Springer.
↑ Yang, JJ; Pickett, M.D.; Li, XM; Ohlberg, DAA; Stewart, DR; Williams, RS (2008). "Memristiv byttemekanisme for metall / oksid / metall nanoenhet". Nat. Nanotechnol. 3 : 429-433. doi : 10.1038/nnano.2008.160 .
↑ Strukov, DB; Snider, G.S.; Stewart, DR; Williams, RS (2008). "Den savnede memristor funnet". Nature 453 (7191): 80-83. Bibcode : 2008Natur.453...80S . PMID 18451858 . doi : 10.1038/nature06932 .
↑ Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca Maria; Schmidhuber, Jurgen (21. september 2010). "Dyp, store, enkle nevrale nett for håndskrevet siffergjenkjenning" . Neural Computation 22 (12): 3207-3220. ISSN 0899-7667 . doi : 10.1162/neco_a_00052 .
↑ Yang, JJ; Pickett, M.D.; Li, XM; Ohlberg, DAA; Stewart, DR; Williams, RS (2008). "Memristiv byttemekanisme for metall / oksid / metall nanoenheter". Nat. Nanotechnol. 3 (7): 429-433. doi : 10.1038/nnano.2008.160 .
↑ Strukov, DB; Snider, G.S.; Stewart, DR; Williams, RS (2008). "Den savnede memristor funnet". Nature 453 (7191): 80-83. Bibcode : 2008Natur.453...80S . PMID 18451858 . doi : 10.1038/nature06932 .
↑ Cireşan, Dan; Meier, Ueli; Masci, Jonathan; Schmidhuber, Jürgen (august 2012). "Multi-kolonne dypt nevralt nettverk for trafikkskiltklassifisering" . Nevrale nettverk . Utvalgte artikler fra IJCNN 2011 32 : 333-338. doi : 10.1016/j.neunet.2012.02.023 .
^ Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Juergen (2012). Pereira, F.; Burges, CJC; Bottou, L. et al. , red. Fremskritt innen nevrale informasjonsbehandlingssystemer 25 . Curran Associates, Inc.pp. 2843-2851.
^ "The Machine Learning Dictionary" . Arkivert fra originalen 26. august 2018 . Hentet 19. september 2018 .
↑ Ojha, Varun Kumar; Abraham, Ajith; Snášel, Václav (1. april 2017). "Metaeuristisk design av feedforward nevrale nettverk: En gjennomgang av to tiår med forskning" . Engineering Applications of Artificial Intelligence 60 : 97-116. doi : 10.1016/j.engappai.2017.01.013 .
↑ Dominic, S.; Das, R.; Whitley, D.; Anderson, C. (juli 1991). "Genetisk forsterkningslæring for nevrale nettverk" . IJCNN-91-Seattle International Joint Conference on Neural Networks (Seattle, Washington, USA: IEEE). ISBN 0-7803-0164-1 . doi : 10.1109/IJCNN.1991.155315 .
↑ Hoskins, JC; Himmelblau, D.M. (1992). "Prosesskontroll via kunstige nevrale nettverk og forsterkende læring" . Computers & Chemical Engineering 16 (4): 241-251. doi : 10.1016/0098-1354(92)80045-B .
↑ Bertsekas, DP; Tsitsiklis, J. N. (1996). Neuro dynamisk programmering . Athena Scientific. s. 512. ISBN 1-886529-10-8 .
↑ de Rigo, D.; Rizzoli, A.E.; Soncini-Sessa, R.; Weber, E.; Zenesi, P. (2001). "Neurodynamisk programmering for effektiv styring av reservoarnettverk" . Proceedings of MODSIM 2001, International Congress on Modeling and Simulation (Canberra, Australia: Modeling and Simulation Society of Australia and New Zealand). ISBN 0-867405252 . doi : 10.5281/zenodo.7481 . Hentet 2012-07-29 .
↑ Damer, M.; Salmeron, M.; Diaz, A.; Ortega, J.; Prieto, A.; Olivares, G. (2000). "Genetiske algoritmer og nevrodynamisk programmering: applikasjon til vannforsyningsnettverk" . Proceedings of 2000 Congress on Evolutionary Computation (La Jolla, California, USA: IEEE). ISBN 0-7803-6375-2 . doi : 10.1109/CEC.2000.870269 .
^ Deng, Geng; Ferris, M.C. (2008). "Neuro-dynamisk programmering for fraksjonert strålebehandlingsplanlegging". Springer-optimalisering og dens applikasjoner . Springer Optimization and Its Applications 12 : 47-70. ISBN 978-0-387-73298-5 . doi : 10.1007/978-0-387-73299-2_3 .
↑ M. Forouzanfar; H.R. Dajani; VZ Groza; M. Bolic; S. Rajan (juli 2010). Sammenligning av feed-forward-nevrale nettverksopplæringsalgoritmer for oscillometrisk blodtrykksestimering . Arad, Romania: IEEE.
↑ de Rigo, D.; Castelletti, A.; Rizzoli, A.E.; Soncini-Sessa, R.; Weber, E. (januar 2005). "En selektiv forbedringsteknikk for å feste nevro-dynamisk programmering i vannressursnettverksstyring" . I Pavel Zitek, red. Proceedings of the 16th IFAC World Congress – IFAC-PapersOnLine (Praha, Tsjekkia: IFAC) 16 . ISBN 978-3-902661-75-3 . doi : 10.3182/20050703-6-CZ-1902.02172 . Hentet 30. desember 2011 .
↑ Ferreira, C. (2006). "Designe nevrale nettverk ved å bruke genuttrykksprogrammering" . I A. Abraham, B. de Baets, M. Köppen og B. Nickolay, red., Applied Soft Computing Technologies: The Challenge of Complexity, side 517–536, Springer-Verlag.
↑ Da, Y.; Xiurun, G. (juli 2005). «En forbedret PSO-basert ANN med simulert glødeteknikk». I T. Villmann, red. New Aspects in Neurocomputing: 11th European Symposium on Artificial Neural Networks (Elsevier). doi : 10.1016/j.neucom.2004.07.002 .
↑ Wu, J.; Chen, E. (mai 2009). Wang H, Shen Y, Huang T, Zeng Z, red. Et nytt ikke-parametrisk regresjonsensemble for nedbørsprognose ved bruk av partikkelsvermoptimaliseringsteknikk kombinert med kunstig nevrale nettverk . Springer. ISBN 978-3-642-01215-0 . doi : 10.1007/978-3-642-01513-7-6 .
↑ TingQin, et al. "En læringsalgoritme for CMAC basert på RLS." Neural Processing Letters 19.1 (2004): 49–61.
↑ TingQin, et al. "Kontinuerlig CMAC-QRLS og dens systoliske array." Neural Processing Letters 22.1 (2005): 1–16.
↑ Zissis, Dimitrios (oktober 2015). "En skybasert arkitektur som er i stand til å oppfatte og forutsi adferd hos flere fartøyer" . Applied Soft Computing 35 : 652-661. doi : 10.1016/j.asoc.2015.07.002 .
↑ Sengupta, Nandini; Sahidullah, MD; Saha, Goutam (august 2016). "Lungelydklassifisering ved bruk av cepstra-baserte statistiske funksjoner" . Datamaskiner i biologi og medisin 75 (1): 118-129. doi : 10.1016/j.compbiomed.2016.05.013 .
↑ Schechner, Sam (15. juni 2017). "Facebook øker AI for å blokkere terrorpropaganda" . Wall Street Journal (på amerikansk engelsk) . ISSN 0099-9660 . Hentet 16. juni 2017 .
↑ https://nmas1.org/news/2018/06/22/fb-musica-ra-tecnologia
^ Crick, Francis (1989). "Den nylige spenningen om nevrale nettverk" . Nature 337 (6203): 129-132. Bibcode : 1989Natur.337..129C . PMID 2911347 . doi : 10.1038/337129a0 .
↑ Adrian, Edward D. (1926). "Impulsene produsert av sensoriske nerveender" . The Journal of Physiology 61 (1): 49-72. PMC 1514809 . PMID 16993776 . doi : 10.1113/jphysiol.1926.sp002273 .
↑ Dewdney, AK (1. april 1997). Ja, vi har ingen nøytroner: en øyeåpnende tur gjennom vendingene til dårlig vitenskap . Wiley. s. 82. ISBN 978-0-471-10806-1 .

Eksterne lenker

Wikimedia Commons har et mediegalleri på Artificial Neural Network .
Opplæring av det polytekniske universitetet i Madrid (spansk)
Introduksjon til kunstige nevrale nettverk (spansk)
Artikler om kunstige nevrale nettverk (engelsk)
Nettsted om kunstige nevrale nettverk, eksempler og applikasjoner (spansk)
Introduksjon til nevrale nettverk og deres modeller (spansk)
kunstig nervesystem
Hva er nevrale nettverk? (spansk)
nevrale nettverkslager på GitHub (PHP)
Forstå hvordan nevrale nettverk fungerer på mindre enn 10 minutter (spansk)