Distribuert hasjtabell

Distribuerte Hash Tables , kjent under forkortelsen DHT ( Distribuerte Hash Tables ) , er en type hashtabeller som lagrer nøkkelverdi-par og tillater spørring av verdien knyttet til en nøkkel, der dataene lagres på en distribuert måte i en serie av noder ( distribuerte systemer ) og gir en effektiv søketjeneste som gjør det mulig å finne verdien knyttet til en nøkkel. For sistnevnte bruker de et rutesystem som gjør det mulig å effektivt finne noden hvor informasjonen som trengs er lagret.

Ansvaret for å opprettholde kartleggingen av nøkler til verdier er fordelt mellom nodene, slik at en endring i settet med deltakere forårsaker et minimum av forstyrrelser. Dette lar DHT-er skalere til ekstremt store antall noder, og håndtere konstante feil, nodeankomster og nodefall.

DHT-er danner en infrastruktur som kan brukes til å bygge mer komplekse tjenester, for eksempel distribuerte filsystemer , peer-to-peer fildeling , innholdsleveringssystemer, cooperativ web caching , multicast , anycast , DNS -tjenester og meldingstjenester. snapshot . Viktige distribuerte nettverk som bruker DHT inkluderer BitTorrent -protokollen distribuerte sporere, Kad -nettverket , Storm -botnettet , YaCy , Coral Content Distribution Network , Retroshare , etc...

Historikk

Søk via DHT-er ble opprinnelig motivert av peer-to-peer-systemer som Napster , Gnutella og Freenet , som utnyttet distribuerte ressurser på Internett for å tilby en enkelt applikasjon. Spesielt utnyttet de den økende båndbredden og diskkapasiteten til å tilby en fildelingstjeneste.

Forskjellen mellom disse systemene var i hvordan de fant dataene som jevnaldrende hadde:

Napster var det første storskala P2P - innholdsdistribusjonssystemet . Den hadde en sentral indekseringstjeneste der hver gang en node ble med, sendte den en liste over filene den eide lokalt til serveren. Serveren hadde ansvaret for å utføre søkene og dirigere dem til nodene som inneholdt resultatene. Ulempen var at denne kjernekomponenten gjorde systemet sårbart for angrep, så vel som søksmål.
Gnutella og lignende nettverk brukte en query-flooding-modell, der hver spørring resulterte i en melding som ble gjentatt til alle maskiner på nettverket. Denne metoden unngikk problemet med å ha et enkelt feilpunkt (den sentraliserte serveren), men var betydelig mindre effektiv enn Napster.
Freenet ble også fullt distribuert, og brukte en nøkkelrutingsheuristikk, der hver fil ble assosiert med en nøkkel. Filer med lignende nøkler hadde en tendens til å bli gruppert i lignende nodesett. På denne måten var det mulig at søkene ble rutet til disse settene, uten å måtte besøke mange noder. Det var imidlertid ikke garantert at dataene ville bli funnet.

DHT-er bruker nøkkelbasert ruting som inkluderer de desentraliserte fordelene med Gnutella og Freenet, og effektiviteten og garanterte resultatene til Napster. En ulempe er at DHT-er, som Freenet, kun støtter eksakte søk, men det er mulig å implementere søkeordsøkefunksjonalitet som et lag over DHT-er.

De fire første DHT-ene - CAN , Chord , Pastry og Tapestry - dukket opp omtrent samtidig i 2001. Siden den gang har denne formen for søk vært mye brukt, hovedsakelig siden BitTorrent inkorporerte dem.

Egenskaper

DHT-er fremhever følgende egenskaper:

Autonomi og desentralisering : nodene danner sammen systemet uten noen sentral koordinering.
Skalerbarhet – Systemet må fungere effektivt, selv med tusenvis eller millioner av noder .
Feiltoleranse – Systemet må være pålitelig (på en måte), selv med noder som kontinuerlig slutter seg til, forlater og svikter.

En nøkkelteknikk som brukes for å oppnå disse målene er at enhver node må koordinere med bare noen få noder i systemet - oftest O(log n) av de n deltakerne (se nedenfor) - slik at ved en endring i sammensetningen bare krever en begrenset mengde arbeid. Noen DHT-design søker å være sikre mot ondsinnede deltakere [2] og lar deltakerne forbli anonyme, selv om dette er mindre vanlig enn i mange andre peer-to-peer-systemer (spesielt for fildeling), se peer-to-peer. anonymous to-peer . Til slutt må DHT-er håndtere mer tradisjonelle distribuerte systemproblemer , for eksempel systembelastningsbalansering , dataintegritet og ytelse (spesielt sikre at operasjoner som dataruting og lagring eller gjenoppretting utføres fullt ut).

DHT-nettverk er bra for:

Distribuert oppbevaring av ting med kjente navn.
Veldig skalerbar da de automatisk distribuerer belastningen til nye noder som blir med i nettverket.
Dataene er robuste mot nodefeil og migrerer automatisk fra mislykkede noder.
De er selvorganiserte, de trenger ikke en sentral server. Den sentraliserte delen er kun for å lokalisere nodene som fortsetter å avhenge av DNS.

er dårlige for:

Søk; konsekvens av hash-algoritmen siden "abc" og "abcd" tilsvarer totalt forskjellige noder (selv om verdien som søkes er veldig lik)
Sikkerhetsproblemer; det er vanskelig å verifisere integriteten til de lagrede dataene

Struktur

Strukturen til en DHT kan brytes ned i et stort antall komponenter. Basen er et abstrakt nøkkelrom . Et nøkkelromspartisjoneringsskjema deler dette nøkkelrommet mellom nodene . Et overleggsnettverk kobler sammen nodene, slik at innehaveren av en hvilken som helst nøkkel i nøkkelrommet kan bli funnet .

Når disse komponentene er på plass, kan DHT brukes til lagring og henting på følgende måte: Anta at nøkkelrommet er en serie med 160-biters strenger . For å lagre en fil med et navn og data i DHT, blir SHA1-hashen brukt på filnavnet, og oppnår en 160-biters "K" -nøkkel. En put(K, data) melding sendes deretter til nodene som deltar i DHT. Meldingen sendes fra node til node gjennom nettverket til den når noden som er ansvarlig for nøkkelen "K" , spesifisert i nøkkelrommet . (K, data) -paret er lagret i denne noden . Hvis en klient ønsker å få innholdet i filen, må den hash filnavnet, som produserer nøkkelen "K" ; Med dette genereres en get(K) melding, som rutes til den når den ansvarlige noden, som vil svare med de lagrede dataene. Deretter beskrives komponentene i nøkkelrommet og nettverket, med sikte på å fange hovedideen til DHT-ene; mange design er forskjellige i detaljer.

Tastaturpartisjonering

De fleste DHT-er bruker en eller annen variant av hash-hash for å kartlegge nøkler til noder. Denne teknikken implementerer en funksjon δ(k1,k2) som definerer en abstrakt forestilling om avstanden mellom nøkkelen k1 og k2 , som ikke er relatert til geografisk avstand eller nettverkslatens. Hver node er tildelt en unik nøkkel kalt ID. En node med ID "i" eier alle nøklene der "i" er den nærmeste ID, målt med funksjonen δ .

Eksempel: DHT-akkorden behandler tangenter som punkter på en sirkel og δ(k1,k2) er avstanden rundt sirkelen fra k1 til k2 med klokken. Dermed er det sirkulære nøkkelrommet delt inn i sammenhengende segmenter hvis endepunkter er nodeidentifikatorene. Hvis i1 og i2 er to tilstøtende identifikatorer, eier noden med ID i2 alle nøklene mellom i1 og i2 .

Hashing har egenskapen at fjerning eller tillegg av en node bare endrer nøklene til noder med tilstøtende IDer, og de andre nodene påvirkes ikke. I en tradisjonell hash-tabell betyr tillegg eller fjerning av en node at nesten hele nøkkelplassen blir omfordelt. Siden enhver endring vanligvis skyldes intens båndbreddebruk forårsaket av å flytte objekter lagret i DHT fra en node til en annen, er det nødvendig å minimere slik omorganisering for å effektivt støtte høye nodeankomst- og feilrater. Locality hashing prøver å sikre at lignende nøkler tildeles kjente objekter. Dette kan tillate en mer effektiv utførelse av søket, og tillate områdesøk i logaritmisk tid.

Overlegg nettverk

Hver node opprettholder en serie lenker til andre noder (dens naboer eller rutetabell ). Sammen danner disse koblingene nettverket. En node velger sine naboer i henhold til en spesifikk struktur, kalt "nettverkstopologien" . Alle DHT-topologier deler en eller annen variant av følgende egenskap: for enhver nøkkel "k", hender det at noden har en ID som har "k" eller har en lenke til en node hvis ID er nærmere "k", i form av avstanden definert i nøkkelrommet. På denne måten er det enkelt å rute en melding til eieren av en hvilken som helst nøkkel "k" ved å bruke en "grådig" algoritme , som ikke nødvendigvis er globalt optimal. Algoritmen består i å suksessivt videresende meldingen til naboen hvis ID er nærmest "k", og når den naboen ikke eksisterer, er det fordi den nærmeste noden med "k" er nådd. Denne rutingstilen kalles ofte "nøkkelbasert ruting". Utover nøyaktigheten til grunnleggende ruting , er to viktige begrensninger på topologien å sikre at maksimalt antall hopp på en hvilken som helst bane (banelengde) er lavt slik at forespørsler fullføres raskt; og at det maksimale antallet naboer til enhver node er minimalt, slik at vedlikeholdskostnadene ikke er for store.

Noen vanlige alternativer for å evaluere effektiviteten til DHT-er er graden/lengden på banen til noden som inneholder informasjonen som søkes. er antall noder til DHT, ved bruk av Big-O-notasjon : $n$

Grad	veilengde	Merk
$ELLER(1)$	$På)$
$ELLER(\log n)$	$ELLER(\log n/\log(\log n))$
$ELLER(\log n)$	$ELLER(\log n)$	mest vanlig, men ikke optimal
$ELLER(1)$	$ELLER(\log n)$
$ELLER({\sqrt {n}})$	$ELLER(1)$

Det vanligste alternativet er grad/stilengde , det er ikke optimalt med tanke på lengde, men det gir større fleksibilitet i valg av naboer. Ulike DHT-er bruker fleksibiliteten til å velge naboer som er nære når det gjelder underliggende nettverksforsinkelse. $ELLER(\log n)$

Maksimal lengde på nettverket er nært knyttet til dets diameter, det er antall hopp på den lengste banen, mellom de korteste banene mellom nodene. I verste fall er rutelengden til nettverket minst like stor som diameteren og kan være større siden den grådige rutingalgoritmen kanskje ikke finner den korteste veien.

Algoritmer for overleggsnettverk

I tillegg til ruting, er det mange algoritmer som utnytter overleggsnettverksstrukturen for å sende en melding til alle noder, eller et undersett av noder, i en DHT. Disse algoritmene brukes i applikasjoner for å utføre multicasting, spørringer eller for å samle inn statistikk.

Ruting i én dimensjon

DHT-implementeringer er forskjellige i blant annet datastrukturen de bruker for oppslag i . $ELLER(\log n)$

Chord, for eksempel, bruker en skip-liste- lignende struktur . Referanser til noen av nodene opprettholdes på en slik måte at en node er halvparten av avstanden, en en fjerdedel, og så videre følger potensene 2. Noden som mottar forespørselen videresender den til noden med ID høyere og mindre enn nøkkelen.

En ny node kommer inn i systemet ved å gjøre et oppslag på IDen (den kan velges tilfeldig fra nøkkelrommet), for å finne noden som er ansvarlig for IDen, oppdaterer den sin etterfølger og forgjenger for å peke på den nye noden. Dermed blir noden med i nettverket. Kademlia, Pastry og Tapestry bruker en lignende lenkestruktur.

En variant av akkorden fra år 2013 bruker Bruijn-sekvenser , ifølge hvilke den bare krever at hver node vet om to andre, og dermed holde søket inne . $ELLER(\log n)$

Ruting i flere dimensjoner

På den annen side kan CAN for eksempel bruke et n-dimensjonalt kartesisk rom. Plassen er delt inn i hyperrektangler kalt soner og hver node er ansvarlig for nøklene som tilhører en sone. I likhet med rutetabellen har hver node referanser til sine naboer i det kartesiske planet. En ny node for å bli med i DHT velger tilfeldig et punkt i rommet og bruker oppslag for å finne ut hvem som er noden som er ansvarlig for partisjoneringssonen, og noden annonserer seg selv til naboer som oppdaterer rutetabellene sine.

Real-world implementeringer av DHT og deres forskjeller og forbedringer i forhold til den grunnleggende modellen

De mest bemerkelsesverdige forskjellene funnet i praktiske tilfeller av DHT-implementeringer inkluderer følgende:

Adresseområdet er en parameter for DHT. Ulike DHT-er bruker et adresseområde på 128 eller 160 biter.
Noen DHT-er bruker andre hash -funksjoner enn SHA1 .
Nøkkelen k kan være en hash av innholdet i en fil i stedet for en hash av navnet. Denne måten å gi nytt navn til filen hindrer ikke brukere i å finne den.
Noen DHT-er kan også publisere objekter av forskjellige typer. For eksempel kan nøkkelen k være IDen til noden og de tilknyttede dataene kan beskrive hvordan man kontakter denne noden. Dette tillater publisering av ofte brukt tilstedeværelsesinformasjon i direktemeldingsapplikasjoner . Det enkleste tilfellet av identifikasjon er et tilfeldig tall som brukes direkte som nøkkelen k (i 160-bits DHT-er vil ID-en derfor være et 160-bits tall, vanligvis valgt tilfeldig). I noen DHT-er brukes også publisering av node-IDer for å optimalisere DHT-operasjoner.
En nøkkel k kan lagres i mer enn én node for å forbedre påliteligheten til DHT gjennom redundans. I stedet for å velge en enkelt node, velger DHT-algoritmer typisk de i passende nodene, i som er en implementeringsspesifikk parameter for DHT. I disse DHT-designene er nodene enige om å administrere et bestemt nøkkelrom, hvor størrelsen på rommet må velges dynamisk.
Noen avanserte DHT-er som Kademlia gjør først iterative søk i DHT-en for å velge et sett med passende noder og sende put- (k, data) meldinger bare til disse nodene. Dette reduserer ubrukelig trafikk drastisk, siden publiserte meldinger bare sendes til de aktuelle nodene for å lagre nøkkelen k, og de iterative oppslagene dekker et lite sett med noder i stedet for hele DHT. I en slik overføring kan put(k, data)-meldinger vises som en del av en selvhelbredende algoritme: hvis en destinasjonsnode mottar en put(k, data)-melding, men anser k for å være utenfor sitt område og kjenner en nærmeste node (i form av DHT-tasterommet), blir meldingen videresendt til den noden. Ellers indekseres dataene lokalt. Dette fører til en selvbalanserende atferd. Disse algoritmene krever at nodene publiserer tilstedeværelsesdataene sine i DHT, slik at iterative søk kan utføres.

Eksempler

Apache Cassandra

BATON Overlegg

Mainline DHT - Standard DHT brukt av BitTorrent (basert på Kademlia

CAN (innholdsadresserbart nettverk)

akkord

Kademlia

kake

P rutenett

tapet

TomP2P

Applikasjoner som bruker DHT

BitTorrent : Distribusjon av filer. BitTorrent bruker DHT som en distribuert tracker for å matche klienter som deler en bestemt fil.
Codeen : Webbufring
Coral Content Distribution Network
Freenet : Anonymt nettverk.
Deluge : BitTorrent-klient.
Dijjer : Distribuert nettverk som ligner på Freenet.
eMule : Fildeling.
FAROO : Peer-to-peer søkemotor.
GNUnet : Distribusjonsnettverk som ligner på Freenet.
JXTA : P2P-plattform med åpen kildekode.
KTorrent : KDE BitTorrent-klient.
LimeWire : Fildeling.
NEOnet : Fildeling.
OneSwarm : Fildeling. DHT Kademlia brukes til å lagre krypterte IP-adresser.
Overnett : Fildeling.
The Circle : Fildeling og chat.
Overføring : BitTorrent-klient.
µTorrent : BitTorrent-klient.
Vuze - Første BitTorrent-klient som implementerte DHT. Vuze på den tiden ble kalt Azureus.
Warez P2P : Fildeling.
YaCy : Distribuert søkemotor.
Ares Galaxy : Last ned Per To Per-program.
Twister: Peer-to-peer mikroblogging.
GNU Ring: Meldings- og VoIP-programvare