Menneskets genom

Det menneskelige genomet er DNA -sekvensen som finnes i 23 par kromosomer i kjernen til hver diploid menneskecelle . Av de 23 parene er 22 autosomale kromosomer og ett kjønnsbestemmende par (to X-kromosomer hos kvinner og ett X og ett Y hos menn). Det haploide genomet (dvs. en enkelt representasjon for hvert par) har en total lengde på omtrent 3,2 milliarder DNA-basepar ( 3,2 milliardersom inneholder omtrent 20 000-25 000 gener . [1 ] Av de 3 200 Mb tilsvarer 2 950 Mb eukromatin og omtrent 250 Mb heterokromatin . Human Genome Project produserte en referansesekvens av det eukromatiske menneskelige genomet, brukt over hele verden i biomedisinske vitenskaper .

DNA-sekvensen som utgjør det menneskelige genomet inneholder den kodede informasjonen som er nødvendig for det svært koordinerte og miljøtilpassbare uttrykket av det menneskelige proteomet , det vil si av alle menneskelige proteiner. Proteiner, ikke DNA, er hovedeffektorbiomolekylene ; de har strukturelle, enzymatiske , metabolske , regulatoriske og signalerende funksjoner, og organiserer seg i enorme funksjonelle nettverk av interaksjoner. Kort sagt baserer proteomet den spesielle morfologien og funksjonaliteten til hver celle . På samme måte utgjør den strukturelle og funksjonelle organiseringen av de forskjellige cellene hvert vev og hvert organ , og til slutt den levende organismen som helhet. Dermed inneholder det menneskelige genom den grunnleggende informasjonen som er nødvendig for den fysiske utviklingen til et komplett menneske.

Det menneskelige genomet har en mye lavere gentetthet enn først forutsagt, med bare 1,5 % [ 2 ] av lengden som består av proteinkodende eksoner . 70 % består av ekstragent DNA og 30 % av genrelaterte sekvenser. Av det totale ekstragene DNA tilsvarer omtrent 70 % spredte repetisjoner, slik at mer eller mindre halvparten av det menneskelige genomet tilsvarer repeterende DNA-sekvenser. For sin del, av det totale DNA relatert til gener, anslås det at 95 % tilsvarer ikke-kodende DNA: pseudogener , genfragmenter, introner eller UTR -sekvenser , blant andre.

Mer enn 280 000 regulatoriske elementer, omtrent totalt 7 Mb sekvens, er påvist i det menneskelige genomet, som stammer fra mobile elementinnsettinger. Disse regulatoriske regionene er bevart i ikke-eksoniske elementer (CNEEs), de ble navngitt som: SINE, LINE, LTR. [ 2 ] Det er kjent at minst 11 % til 20 % av disse genregulerende sekvensene, som er bevart mellom arter, var bygd opp av mobile elementer.

Human Genome Project, som startet i 1990, hadde som formål å dechiffrere den genetiske koden som finnes i de 23 kromosomparene, i sin helhet. I 2005 ble denne studien avsluttet, og nådde omtrent 28 000 sekvenserte gener. Og 2. juni 2016 kunngjorde forskere formelt Human Genome -Write Project (HGP-Write), en plan for å syntetisere det menneskelige genomet. [ 3 ]​ [ 4 ]​ [ 5 ]​ [ 6 ]​ [ 7 ]​ [ 8 ]

Funksjonen til de aller fleste baser i det menneskelige genomet er ukjent. ENCODE - prosjektet (akronym for ENC yclopedia Of DNA Elements ) har kartlagt områder for transkripsjon, assosiasjon med transkripsjonsfaktorer , kromatinstruktur og histonmodifikasjon . Disse dataene har gjort det mulig å tilordne biokjemiske funksjoner til 80 % av genomet, hovedsakelig utenfor proteinkodende eksoner . ENCODE-prosjektet gir ny innsikt i organisering og regulering av gener og genom, og en viktig ressurs for studiet av menneskelig biologi og sykdom.

Geninnhold og genomstørrelse for ulike organismer [ 9 ]
Arter Genomstørrelse (
Mb )
antall
gener
Candidatus Carsonella ruddii 0,15 182
Streptococcus pneumoniae 2.2 2300
Escherichia coli 4.6 4400
Saccharomyces cerevisiae 12 5800
Caenorhabditis elegans 97 19 000
Arabidopsis thaliana 125 25500
Drosophila melanogaster (flue) 180 13700
Oryza sativa (ris) 466 45 000-55 000
Mus musculus (mus) 2500 29 000
Homo sapiens (menneske) 2900 27 000

Komponenter

Kromosomer

Det menneskelige genomet (som det til enhver eukaryot organisme ) består av kromosomer , som er lange kontinuerlige sekvenser av DNA som er svært romlig organisert (ved hjelp av histon- og ikke-histonproteiner) for å adoptere en ultrakondensert form i metafase . De kan observeres med konvensjonell lysmikroskopi eller fluorescens ved bruk av cytogenetiske teknikker og er arrangert og danner en karyotype .

Den normale menneskelige karyotypen inneholder totalt 23 forskjellige par kromosomer: 22 par autosomer pluss 1 par kjønnskromosomer som bestemmer kjønnet til individet. Kromosomene 1-22 ble nummerert i avtagende størrelsesrekkefølge basert på karyotype. Senere ble det imidlertid funnet at kromosom 22 faktisk er større enn 21.

De somatiske cellene i en organisme har totalt 46 kromosomer (23 par) i kjernen : et sett med 22 autosomer fra hver forelder og et par kjønnskromosomer, et X-kromosom fra moren og et X eller et Y fra faren ... (Se bilde 1) . Kjønnscellene - egg og sædceller - har et haploid sett med 23 kromosomer.

Kromosom gener Antall basepar Sekvenserte basepar [ note 1 ]
1 4220 247 199 719 224 999 719
to 1491 242 751 149 237 712 649
3 1550 199 446 827 194 704 827
4 446 191 263 063 187 297 063
5 609 180 837 866 177 702 766
6 2281 170 896 993 167 273 993
7 2135 158 821 424 154 952 424
8 1106 146 274 826 142 612 826
9 1920 140 442 298 120 312 298
10 1793 135 374 737 131 624 737
elleve 379 134 452 384 131 130 853
12 1430 132 289 534 130 303 534
1. 3 924 114 127 980 95 559 980
14 1347 106 360 585 88 290 585
femten 921 100 338 915 81 341 915
16 909 88 822 254 78 884 754
17 1672 78 654 742 77 800 220
18 519 76 117 153 74 656 155
19 1555 63 806 651 55 785 651
tjue 1008 62 435 965 59 505 254
tjueen 578 46 944 323 34 171 998
22 1092 49 528 953 34 893 953
X (kjønnskromosom) 1846 154 913 754 151 058 754
Y (kjønnskromosom) 454 57 741 652 25 121 652
Total 32 185 3.079.843.747 2 857 698 560

Intragent DNA

Gener

Et gen er den grunnleggende arvelighetsenheten, og det bærer den genetiske informasjonen som er nødvendig for syntesen av et protein (kodende gener) eller ikke-kodende RNA (RNA-gener). Den er dannet av en promotersekvens , som regulerer dets uttrykk, og en sekvens som transkriberes , sammensatt i tur og orden av: UTR-sekvenser (utranslaterte flankerende regioner), nødvendige for translasjonen og stabiliteten til mRNA, eksoner (koder) og introner , som er uoversatte DNA-sekvenser plassert mellom to eksoner som vil bli fjernet i mRNA-prosessering ( "spleising" ).

Det menneskelige genomet er for tiden anslått å inneholde mellom 20 000 og 25 000 proteinkodende gener , et mye lavere estimat enn tidligere spådommer på 100 000 gener eller mer. Dette innebærer at det menneskelige genomet har færre enn dobbelt så mange gener som mye enklere eukaryote organismer, som fruktfluen eller nematoden Caenorhabditis elegans . Imidlertid bruker menneskelige celler i stor grad alternativ spleising for å produsere flere forskjellige proteiner fra det samme genet, som en konsekvens av at det menneskelige proteomet er større enn det til mye enklere organismer. I praksis bærer genomet bare den nødvendige informasjonen for et perfekt koordinert og regulert uttrykk for settet med proteiner som utgjør proteomet, dette er den som har ansvaret for å utføre de fleste cellulære funksjoner.

Basert på de første resultatene av ENCODE -prosjektet [ 10 ] (akronym for ENC yclopedia Of DNA Elements ) , har noen forfattere foreslått å redefinere det nåværende genbegrepet. De siste observasjonene gjør det vanskelig å opprettholde det tradisjonelle synet på et gen, som en sekvens som består av UTR-er, eksoner og introner. Detaljerte studier har funnet et mye høyere antall transkripsjonsstartsekvenser per gen enn innledende estimater, og noen av disse sekvensene er lokalisert i områder langt unna den oversatte, slik at 5' UTR-ene kan spenne over lange sekvenser som gjør avgrensningen vanskelig. På den annen side kan samme transkripsjon gi opphav til totalt forskjellige modne RNA-er (fullstendig mangel på overlapping), på grunn av stor bruk av alternativ spleising . På denne måten kan samme primærtranskripsjon gi opphav til proteiner med svært forskjellige sekvenser og funksjoner. Følgelig har noen forfattere foreslått en ny definisjon av et gen: [ 11 ] [ 12 ] foreningen av genomiske sekvenser som koder for et sammenhengende sett med potensielt overlappende funksjonelle produkter . På denne måten blir RNA-gener og sett med delvis overlappende oversatte sekvenser identifisert som gener (dermed er UTR-sekvenser og introner ekskludert, som nå betraktes som "genassosierte regioner", sammen med promotere). I følge denne definisjonen skal det samme primære transkriptet som gir opphav til to ikke-overlappende sekundære transkripsjoner (og to proteiner) faktisk betraktes som to forskjellige gener, uavhengig av om de presenterer en total eller delvis overlapping av sine primære transkripsjoner.

De nye bevisene fra ENCODE, ifølge hvilke UTR-regionene ikke lett avgrenses og strekker seg over lange avstander, vil gjøre det nødvendig å gjenidentifisere genene som faktisk utgjør det menneskelige genomet. I henhold til den tradisjonelle definisjonen (gjelder for tiden) vil det være nødvendig å identifisere som samme gen alle de som viser en delvis overlapping (inkludert UTR-regionene og intronene), slik at genene i lys av de nye observasjonene vil inkludere flere proteiner med svært ulik sekvens og funksjonalitet. Samtidig vil antallet gener som utgjør det menneskelige genomet reduseres. Den foreslåtte definisjonen er i stedet basert på det funksjonelle produktet av genet, og opprettholder dermed et mer konsistent forhold mellom et gen og en biologisk funksjon. Som en konsekvens, med vedtakelsen av denne nye definisjonen, vil antallet gener i det menneskelige genomet øke betydelig.

RNA-gener

I tillegg til proteinkodende gener, inneholder det menneskelige genomet flere tusen RNA-gener , hvis transkripsjoner reproduserer overførings-RNA (tRNA), ribosomalt RNA (rRNA), mikroRNA (miRNA) eller andre ikke-kodende RNA-gener. Ribosomale og overførings-RNA-er er essensielle i konstitusjonen av ribosomer og i translasjonen av proteiner. På sin side er mikroRNA av stor betydning i reguleringen av genuttrykk, og det anslås at opptil 20-30 % av genene i det menneskelige genomet kan være regulert av miRNA-interferens. Til dags dato har mer enn 300 miRNA-gener blitt identifisert, og det er anslått at det kan være så mange som 500.

Gendistribusjon

Nedenfor er noen gjennomsnittsverdier av det menneskelige genomet. Det skal imidlertid bemerkes at den enorme heterogeniteten som disse variablene presenterer, gjør gjennomsnittsverdiene lite representative, selv om de har veiledende verdi.

Gjennomsnittlig gentetthet er 1 gen per 100 kb, med en gjennomsnittlig størrelse på 20-30 kb, og et gjennomsnittlig antall eksoner på 7-8 per gen, med en gjennomsnittlig størrelse på 150 nukleotider. Den gjennomsnittlige størrelsen på et mRNA er 1,8-2,2 kb, inkludert UTR - regionene (flankerende utranslaterte regioner), med den gjennomsnittlige lengden på den kodende regionen 1,4 kb.

Det menneskelige genomet er preget av en stor heterogenitet i sekvensen. Spesielt er rikdommen i baser av guanin (G) og cytosin (C) sammenlignet med de av adenin (A) og tymin (T) fordelt heterogent, med regioner som er veldig rike på G+C flankert av svært fattige regioner, som gjennomsnittlig G+C-innhold på 41 %, lavere enn teoretisk forventet (50 %). Denne heterogeniteten er korrelert med genrikhet, slik at gener har en tendens til å være konsentrert i de rikeste områdene i G+C. Dette faktum har vært kjent i årevis takket være separasjonen ved hjelp av tetthetsgradientsentrifugering av regioner rike på G+C (som fikk navnet isokore H; fra engelsk High ) og regioner rike på A+T (isokorer L; fra engelsk Lav ).

Reguleringssekvenser

Genomet har ulike systemer for å regulere genuttrykk, basert på regulering av bindingen av transkripsjonsfaktorer til promotersekvenser, på mekanismer for epigenetisk modifikasjon ( DNA - metylering eller histonmetylering - acetylering ) eller på kontroll av tilgjengeligheten til promotere bestemt av grad av kromatinkondensering ; alle er svært beslektede. I tillegg er det andre regulatoriske systemer på nivå med mRNA-prosessering, stabilitet og translasjon, blant annet. Derfor er genuttrykk sterkt regulert, noe som muliggjør utvikling av flere fenotyper som karakteriserer de ulike celletypene til en flercellet eukaryot organisme, samtidig som den gir cellen den nødvendige plastisiteten til å tilpasse seg et miljø i endring. Imidlertid er all informasjon som er nødvendig for regulering av genuttrykk, avhengig av cellemiljøet, kodet i DNA-sekvensen, akkurat som gener er.

Regulatoriske sekvenser er typisk korte sekvenser som er tilstede i nærheten av eller innenfor (ofte i introner) gener. Foreløpig er systematisk kunnskap om disse sekvensene og hvordan de virker i komplekse genreguleringsnettverk, følsomme for eksogene signaler, svært knapp og begynner å bli utviklet gjennom komparativ genomikk, bioinformatikk og systembiologistudier . Identifikasjonen av regulatoriske sekvenser er delvis basert på søket etter evolusjonært konserverte ikke-kodende regioner. [ 13 ] For eksempel skjedde den evolusjonære divergensen mellom mus og menneske for 70 til 90 millioner år siden. [ 14 ] Gjennom komparative genomiske studier, ved å samkjøre sekvenser av begge genomer, kan regioner med høy grad av tilfeldighet identifiseres, mange tilsvarer gener og andre til ikke-proteinkodende sekvenser, men av stor funksjonell betydning, gitt at de har blitt utsatt for til selektivt press..

Ultrakonserverte elementer

Dette navnet er gitt til regioner som har vist nesten total evolusjonskonstans, enda større enn proteinkodende sekvenser, gjennom sammenlignende genomiske studier . Disse sekvensene overlapper generelt med introner av gener involvert i transkripsjonsregulering eller embryonal utvikling og med eksoner av gener involvert i RNA-prosessering. Dens funksjon er generelt lite kjent, men den er sannsynligvis av ekstrem betydning gitt nivået av evolusjonær bevaring, som nevnt i forrige punkt.

Foreløpig har rundt 500 segmenter større enn 200 basepar vist seg å være fullstendig konservert (100 % sammenfall) mellom menneske-, mus- og rotte-genomet, og nesten fullstendig konservert hos hunden (99 %) og kyllingen (95 %). %). [ 15 ]

Gener anskaffet ved horisontal overføring

I følge noen estimater ble 145 gener i det menneskelige genomet ervervet ved horisontal genoverføring fra andre organismer. Eventuelt fra bakterier , sopp , protister o.l. [ 16 ]

Pseudogenes

Rundt 19 000 pseudogener er også funnet i det menneskelige genomet , som er fulle eller delvise versjoner av gener som har akkumulert forskjellige mutasjoner og som vanligvis ikke blir transkribert. De er klassifisert i ubehandlede pseudogener (~30%) og bearbeidede pseudogener (~70%) [ 17 ]

  • Ubehandlede pseudogener er kopier av gener som vanligvis stammer fra duplisering, som ikke blir transkribert fordi de mangler en promotersekvens og har akkumulert flere mutasjoner, hvorav noen er tull (som forårsaker for tidlige stoppkodoner ). De er karakterisert ved å ha både eksoner og introner.
  • Behandlede pseudogener, derimot, er retrotranskriberte kopier av messenger-RNA satt inn i genomet. Følgelig mangler de introner og en promotorsekvens.

Intergenisk DNA

Intergene eller ekstragene regioner omfatter det meste av den humane genomsekvensen, og deres funksjon er generelt ukjent. En god del av disse regionene består av repeterende elementer, klassifiserbare som tandem-repetisjoner eller spredte repetisjoner, selv om resten av sekvensen ikke reagerer på et definert og klassifiserbart mønster. Mye av det intergene DNA kan være en evolusjonær artefakt uten en spesifikk funksjon i det nåværende genomet, og det er derfor disse regionene tradisjonelt har blitt kalt "søppel" DNA ( Junk DNA ), et navn som også inkluderer introniske sekvenser og pseudogener. Dette navnet er imidlertid ikke det mest nøyaktige gitt den kjente regulatoriske rollen til mange av disse sekvensene. I tillegg ser den bemerkelsesverdige graden av evolusjonær bevaring av noen av disse sekvensene ut til å indikere at de har andre essensielle funksjoner som fortsatt er ukjente eller lite kjente. Derfor foretrekker noen å kalle det «ikke-kodende DNA» (selv om såkalt «søppel-DNA» også inkluderer kodende transposoner) eller «repetitivt DNA». Noen av disse regionene utgjør faktisk forløpergener for syntesen av mikroRNA (regulatorer av genuttrykk og gendemping).

Nylige studier innrammet i ENCODE-prosjektet har oppnådd overraskende resultater, som krever omformulering av vår visjon om organiseringen og dynamikken til det menneskelige genomet. I følge disse studiene transkriberes 15 % av den menneskelige genomsekvensen til modne RNA-er, og opptil 90 % transkriberes til minst umodne transkripsjoner i noe vev: [ 12 ] En stor del av det menneskelige genomet koder altså for gener av funksjonelle RNA. Dette er i samsvar med trenden i nyere vitenskapelig litteratur til å tillegge økende betydning til RNA i genregulering . Detaljerte studier har også identifisert et mye større antall transkripsjonsinitieringssekvenser per gen, noen langt unna den nesten oversatte regionen. Som en konsekvens er det nå vanskeligere å definere en region av genomet som genisk eller intergen, siden gener og genrelaterte sekvenser strekker seg inn i regioner som vanligvis anses som intergene.

Tandemly gjentatt DNA

De er repetisjoner som er ordnet fortløpende, slik at identiske sekvenser, eller nesten, er ordnet etter hverandre.

Satellitter

Settet med satellittlignende tandem-repetisjoner omfatter totalt 250 Mb av det menneskelige genomet. De er sekvenser på mellom 5 og flere hundre nukleotider som gjentas i tandem tusenvis av ganger, og genererer gjentatte regioner med størrelser fra 100 kb (100 000 nukleotider) til flere megabaser.

De får navnet sitt fra de første observasjonene av tetthetsgradientsentrifugeringer av fragmentert genomisk DNA, som rapporterte et hovedbånd som tilsvarer det meste av genomet og tre satellittbånd med lavere tetthet. Dette skyldes det faktum at satellittsekvensene har en rikdom på A+T-nukleotider som er høyere enn gjennomsnittet av genomet, og følgelig er de mindre tette.

Det er hovedsakelig 6 typer satellitt-DNA-repetisjoner [ 15 ]

  1. Satellitt 1: grunnleggende sekvens på 42 nukleotider. Plassert ved sentromerene til kromosom 3 og 4 og den korte armen til de akrosentriske kromosomene (distal til den rRNA-kodende klyngen).
  2. Satellitt 2: Grunnsekvensen er ATTCCATTCG. Tilstede nær sentromerene til kromosom 2 og 10, og ved den sekundære innsnevringen av 1 og 16.
  3. Satellitt 3: Grunnsekvensen er ATTCC. Tilstede ved den sekundære innsnevringen av kromosom 9 og Y, og proksimalt til rDNA-klyngen til den korte armen til de akrosentriske kromosomene.
  4. Alfa-satellitt: grunnleggende sekvens på 171 nukleotider. Det er en del av DNAet til de kromosomale sentromerene.
  5. Beta-satellitt: grunnleggende sekvens på 68 nukleotider. Det vises rundt sentromeren på akrosentriske kromosomer og ved den sekundære innsnevringen av kromosom 1.
  6. Gamma-satellitt: grunnleggende sekvens på 220 nukleotider. Nær sentromeren til kromosom 8 og X.
Minisatellitter

De er sammensatt av en grunnleggende sekvensenhet på 6-25 [ 15 ] nukleotider som gjentas i tandem og genererer sekvenser på mellom 100 og 20 000 basepar. Det menneskelige genomet er anslått å inneholde rundt 30 000 minisatellitter.

Ulike studier har relatert minisatellitter til reguleringsprosesser for genuttrykk, for eksempel kontroll av transkripsjonsnivå , alternativ spleising eller avtrykk . På samme måte har de blitt assosiert med punkter med kromosomal skjørhet siden de er lokalisert nær foretrukne steder for kromosombrudd, genetisk translokasjon og meiotisk rekombinasjon . Til slutt er noen humane minisatellitter (~10%) hypermutable, og presenterer en gjennomsnittlig mutasjonsrate mellom 0,5% og 20% ​​i kimlinjeceller , og er dermed de mest ustabile regionene i det menneskelige genomet kjent til dags dato.

I det menneskelige genomet er omtrent 90 % av minisatellittene lokalisert ved telomerene til kromosomene. Den grunnleggende sekvensen av seks nukleotider TTAGGG gjentas tusenvis av ganger i tandem, og genererer 5-20 kb-regioner som utgjør telomerer.

Noen minisatellitter, på grunn av deres store ustabilitet, har en betydelig variasjon mellom ulike individer. De betraktes som multialleliske polymorfismer , siden de kan forekomme i et svært varierende antall repetisjoner, og kalles VNTR (akronym for Variable number tandem repeat ). De er mye brukte markører i rettsgenetikk, siden de gjør det mulig å etablere et karakteristisk genetisk fingeravtrykk for hvert individ, og de kan identifiseres ved hjelp av Southern blot og hybridisering .

Mikrosatellitter

De er sammensatt av grunnleggende sekvenser på 2-4 nukleotider, hvis tandem-repetisjon ofte stammer fra sekvenser på mindre enn 150 nukleotider. Noen viktige eksempler er dinukleotidet CA og trinukleotidet CAG.

Mikrosatellitter er også multialleliske polymorfismer, kalt STR (akronym for Short Tandem Repeats ) og kan identifiseres ved PCR , raskt og enkelt. Det menneskelige genomet er beregnet å inneholde rundt 200 000 mikrosatellitter, som er mer eller mindre homogent fordelt, i motsetning til minisatellitter, noe som gjør dem mer informative som markører.

Spredt gjentatt DNA

De er DNA-sekvenser som gjentas sparsomt gjennom genomet, og utgjør 45 % av det menneskelige genomet. De kvantitativt viktigste elementene er LINE-ene og SINE-ene, som er kjennetegnet ved størrelsen på den repeterende enheten.

Disse sekvensene har potensial til å forplante seg selv ved å bli transkribert til et mellomliggende mRNA, reversert transkribert og satt inn på et annet punkt i genomet. Dette fenomenet forekommer med lav frekvens, og anslår at 1 av hver 100-200 nyfødte bærer en ny innsetting av en Alu eller en L1, som kan være patogen ved insersjonsmutagenese, ved deregulering av ekspresjonen av nærliggende gener (av promotorene selv av SINE og LINE) eller ved illegitim rekombinasjon mellom to identiske kopier av forskjellige kromosomale steder (intra eller interkromosomal rekombinasjon), spesielt mellom Alu-elementer.

Frekvenser og typer gjentakelser spredt i genomet til ulike organismer [ 15 ]
gjenta type Homo
sapiens
Drosophila
melanogaster
Caenorhabditis
elegans
Arabidopsis
thaliana
LINJE, SINE 33,4 % 0,7 % 0,4 % 0,5 %
LTR /BOIL 8,1 % 1,5 % 0 % 4,8 %
DNA-transposoner 2,8 % 0,7 % 5,3 % 5,1 %
Total 44,4 % 3,1 % 6,5 % 10,4 %
SINE

Akronym for Short Interspersed Nuclear E lements . _ _ De er korte sekvenser, vanligvis noen hundre baser lange, som vises gjentatt tusenvis av ganger i det menneskelige genomet. De står for 13 % av det menneskelige genomet, [ 15 ] 10 % skyldes utelukkende Alu-familien av elementer (karakteristisk for primater).

Alu-elementer er sekvenser på 250-280 nukleotider tilstede i 1 500 000 [ 15 ] kopier spredt utover genomet. Strukturelt er de nesten identiske dimerer, bortsett fra at den andre enheten inneholder et innskudd på 32 nukleotider, som er større enn den første. Når det gjelder sekvensen deres, har de en betydelig rikdom i G+C (56%), [ 15 ] , som er grunnen til at de dominerer i R-båndene , og begge monomerene presenterer en polyA-hale (adeninsekvens), en rest av deres mRNA-opprinnelse ... De har også en RNA-polymerase III-promoter for å transkribere. De betraktes som ikke-autonome retrotransposoner, siden de for deres utbredelse er avhengige av revers transkripsjon av deres mRNA av en revers transkriptase som er tilstede i mediet.

LINE

Akronym for Long I nspersed Nuclear E lements . _ De utgjør 20 % av det menneskelige genomet, inneholder omtrent 100 000-500 000 kopier av L1 retrotransposoner, som er familien av størst kvantitativ betydning, det er en 6 kb sekvens som gjentas omtrent 800 000 ganger spredt utover genomet, selv om den store mesteparten av kopier er ufullstendige, og presenterer 5'-enden avkortet av en ufullstendig omvendt transkripsjon. Dermed er det anslått at det er omtrent 5000 komplette kopier av L1, hvorav bare 90 er aktive, [ 15 ] resten hemmes av metylering av promotoren.

Deres rikdom i G+C er 42 %, [ 15 ] nær gjennomsnittet av genomet (41 %) og de er fortrinnsvis lokalisert i G-båndene til kromosomene. De har også en RNA-polymerase II-promoter.

Komplette LINE-elementer er koding. Nærmere bestemt koder LINE-1 for to proteiner:

  1. RNA-bindende protein (''RNA-bindende protein''): kodet av åpen leseramme 1 (ORF1, akronym for ''Åpen leseramme 1'')
  2. Enzym med revers transkriptase og endonukleaseaktivitet : kodet av ORF2. Begge proteinene er nødvendige for retrotransposisjon.

Disse mobile elementene er flankert av 2 ikke-kodende regioner, betegnet som 5'UTR og 3'UTR.

Derfor betraktes de som autonome retrotransopsoner, siden de koder for proteinene de trenger for å forplante seg. RNA-polymerase II som er tilstede i mediet, transkriberer LINE, og dette mRNA blir oversatt i begge leserammene og produserer en revers transkriptase som virker på mRNA og genererer en DNA-kopi av LINE, potensielt i stand til å sette seg inn i genomet. På samme måte kan disse proteinene brukes av bearbeidede pseudogener eller SINE-elementer for deres forplantning.

Transkripsjon starter ved en intern promoter ved 5'UTR-enden. L1-endonukleasen genererer et hakk i en enkelt tråd av genomisk DNA, ved en konsensussekvens 5'TTTTT/A3'.

Ulike studier har vist at LINE-sekvenser kan være viktige i reguleringen av genuttrykk, etter å ha bekreftet at gener nær LINE har et lavere uttrykksnivå. Dette er spesielt relevant fordi omtrent 80 % av genene i det menneskelige genomet inneholder et eller annet L1-element i intronene deres. [ 15 ]

Det har blitt sett at tilfeldig innsetting av aktiv L1 i det menneskelige genomet har gitt opphav til genetiske sykdommer, siden det forstyrrer normalt uttrykk. En forkjærlighet for L1 for AT-rike regioner er også observert.

HERV

Akronym for H uman e ndogent retrovirus . _ _ Retrovirus er virus hvis genom består av RNA, som er i stand til å retrotranskribere og integrere dets genom i det til den infiserte cellen. Dermed er HERV-er delvise kopier av genomet til retrovirus integrert i det menneskelige genomet gjennom hele utviklingen av virveldyr, rester av eldgamle retrovirale infeksjoner som påvirket cellene i kimlinjen. Noen estimater angir at det er rundt 98 000 [ 18 ] HERV-sekvenser, mens andre sier at det er mer enn 400 000. [ 15 ] I alle fall er det akseptert at rundt 5-8 % av det menneskelige genomet består av tidligere virus. genomer. Størrelsen på et komplett retroviralt genom er rundt 6-11 kb, men de fleste HERV-er er ufullstendige kopier.

Gjennom evolusjonen har disse sekvensene uten interesse for vertsgenomet akkumulert tullmutasjoner og slettinger som har inaktivert dem. Selv om de fleste HERV-er er millioner av år gamle, er minst én familie av retrovirus integrert under den evolusjonære divergensen mellom mennesker og sjimpanser , HERV-K(HML2)-familien, som utgjør omtrent 1 % av HERV-er.

DNA-transposoner

Retrotransposoner, som bearbeidede pseudogener, SINE-er og LINE-er, er noen ganger inkludert under overskriften transposoner. I dette tilfellet snakker vi om klasse I-transposoner for å referere til retrotransposoner, og klasse II for å referere til DNA-transposoner, som denne delen er dedikert til.

Komplette DNA-transposoner har potensial til å forplante seg selv uten et mellomliggende mRNA etterfulgt av revers transkripsjon. Et transposon inneholder genet for et transposase-enzym, flankert av inverterte repetisjoner. Transponeringsmekanismen er basert på klipp og lim , og flytter sekvensen til et annet sted i genomet. Ulike typer transposaser virker forskjellig, med noen i stand til å binde seg til hvilken som helst del av genomet mens andre binder seg til spesifikke målsekvenser. Transposasen som er kodet av transposonet selv, trekker den ut ved å lage to flankerende kutt i DNA-tråden, generere klebrige ender , og setter den inn i målsekvensen på et annet punkt i genomet. En DNA-polymerase fyller ut hullene som genereres av de klebrige endene, og en DNA-ligase gjenoppretter fosfodiesterbindingene , og gjenoppretter kontinuiteten til DNA-sekvensen. Dette fører til en duplisering av målsekvensen rundt transposonet, på dens nye plassering.

Det menneskelige genomet er beregnet å inneholde rundt 300 000 kopier [ 15 ] av spredte gjentatte elementer som stammer fra DNA-transposoner, og utgjør 3 % av genomet. Det er flere familier, som det er verdt å merke seg på grunn av deres patogene betydning på grunn av generering av kromosomale omorganiseringer, marineelementene, samt MER1- og MER2-familiene.

Variabilitet

Selv om to mennesker av samme kjønn deler en svært høy prosentandel (rundt 99,9 %) [ 15 ] av deres DNA-sekvens, noe som gjør at vi kan jobbe med en enkelt referansesekvens, er små genomiske variasjoner grunnlaget for mye av variasjonen interindividuell fenotypisk . En variasjon i genomet, ved substitusjon , sletting eller innsetting, kalles en polymorfisme eller genetisk allel . Den kan være lokalisert i både kodende og ikke-kodende regioner. Ikke alle genetiske polymorfismer forårsaker en endring i sekvensen til et protein eller dets ekspresjonsnivå, det vil si at mange er stille og mangler fenotypisk uttrykk.

SNP -er

Hovedkilden til variasjon i genomene til to mennesker kommer fra variasjoner i et enkelt nukleotid, kjent som SNPs ( Single nucleotide polymorphisms ) , som de fleste studier har fokusert på . Gitt dens betydning, er det for tiden et internasjonalt prosjekt ( International HapMap Project ) for å katalogisere SNP-ene til det menneskelige genomet i stor skala. I denne sammenhengen er betegnelsen på SNP-er ofte begrenset til de enkeltnukleotidpolymorfismer der den mindre hyppige allelen forekommer i minst 1% av befolkningen.

SNP-er er tetraleliske markører, gitt at det i teorien kan være fire forskjellige nukleotider i en posisjon, som hver vil identifisere en allel; men i praksis presenterer de vanligvis bare to alleler i populasjonen. Det er anslått at frekvensen av SNP i det humane genomet er en SNP hver 500-100 basepar, [ 15 ] hvorav en relevant del er kodende polymorfismer, som forårsaker substitusjon av en aminosyre med en annen i et protein.

Takket være deres overflod og det faktum at de presenterer en tilnærmet jevn fordeling i genomet, har de vært svært nyttige som markører for koblingskart , et grunnleggende verktøy i Human Genome Project. Videre er de lett påviselige i stor skala ved hjelp av DNA-brikker (ofte kjent som mikroarrayer ).

Gradvis får studien deres ved bruk av nye sekvenseringsteknikker ( NGS ) større fremtreden i den kliniske settingen fordi mange av dem har vist seg å være assosiert med sykdommer og kan tjene som følsomhetsmarkører.

Identifikasjonen av nye enkeltnukleotidvarianter oppnådd ved denne metoden kalles SNVs ( Single Nucleotide Variants ) og har ingen frekvensbegrensninger. Selv om dens brede utbredelse er kjent, er det regioner med høyere grad av bevaring, eller hva som er det samme, mindre tendens til variasjon, gitt den nære tilknytningen til en mulig cellulær funksjon og essensalitet. På denne måten er områdene som koder for proteiner mer konserverte enn intergene områder, på samme måte som eksoner og fremfor alt donor- og akseptorspleisingsområder ( med svært lav toleranse for endringer) med hensyn til introner i intragene regioner, siden endringer i disse posisjonene kan føre til trunkering av det aktuelle proteinet. [ 19 ] Det er verdt å nevne at innenfor eksonene er det en differensiell berikelse av antall varianter i de forskjellige posisjonene som utgjør kodonene og at de har en tendens til å følge et mønster preget av tap av intoleranse overfor variasjonen av den tredje. nukleotid i den posisjonen, [ 19 ] som en konsekvens av degenerasjonen av den genetiske koden . På den annen side, i regionene som koder for RNA som ikke gir opphav til proteiner, finner man en større variasjon når det gjelder snoRNA sammenlignet med lncRNA. [ 19 ] Når det gjelder ikke-transkriberte regulatoriske sekvenser, er variabiliteten konsentrert i transkripsjonsfaktorbindingsseter og promotersoner, hvor sistnevnte er de mest variable elementene i genomet. [ 19 ]

Strukturell variasjon

Disse typer variasjoner refererer til duplikasjoner, inversjoner , innsettinger eller kopiantallvarianter av store segmenter av genomet (vanligvis 1000 nukleotider eller mer). Disse variantene involverer en stor andel av genomet, så de antas å være minst like viktige som SNP -ene . [ 20 ]

Strukturell variasjon er den generelle betegnelsen for å omfatte en gruppe genomiske endringer som involverer DNA-segmenter større enn 1 Kb. Strukturell variasjon kan være kvantitativ (variant av kopinummer, inkludert: slettinger, innsettinger og dupliseringer), posisjonelle (translokasjoner) og orienteringsmessige (inversjoner).

Selv om dette studieretningen er relativt ny (de første storskalastudiene ble publisert i 2004 og 2005), har det boomet til det punktet at det er opprettet et nytt prosjekt for å studere denne typen varianter hos de samme personene som HapMap-prosjektet var basert på .

Selv om det fortsatt er tvil om årsakene til denne typen varianter, er det økende bevis på at det er et tilbakevendende fenomen som fortsetter å forme og skape nye genomvarianter.

Disse typer variasjoner har fremmet ideen om at det menneskelige genomet ikke er en statisk enhet, men snarere en som er i konstant endring og utvikling.

Genetiske sykdommer

Endringen av DNA-sekvensen som utgjør det menneskelige genomet kan forårsake unormal ekspresjon av ett eller flere gener, som stammer fra en patologisk fenotype. Genetiske sykdommer kan være forårsaket av mutasjon av DNA-sekvensen, påvirker kodingssekvensen (produserer feil proteiner ) eller regulatoriske sekvenser (endrer ekspresjonsnivået til et gen), eller av kromosomale, numeriske eller strukturelle endringer. Endringen av kjønnscellegenomet til et individ overføres ofte til dets avkom. For tiden er antallet kjente genetiske sykdommer omtrent 4000, den vanligste er cystisk fibrose .

Studiet av genetiske sykdommer har ofte vært inkludert i populasjonsgenetikk. Resultatene fra Human Genome Project har stor betydning for identifisering av nye genetiske sykdommer og for utvikling av nye og bedre genetiske diagnosesystemer, samt for forskning på nye behandlingsformer, inkludert genterapi .

Mutasjoner

Genmutasjoner kan være:

  • Substitusjoner (endringer av ett nukleotid for et annet): Substitusjoner kalles overganger hvis de involverer en endring mellom baser av samme kjemiske type, eller transversjoner hvis de er en purin (A, G) → pyrimidin (C, T) eller pyrimidin → purin endring.
  • Delesjoner eller insersjoner : de er henholdsvis eliminering eller tillegg av en viss sekvens av nukleotider, av variabel lengde. Store delesjoner kan til og med påvirke flere gener, til det punktet at de er merkbare på kromosomnivå med cytogenetiske teknikker. Innsettinger eller slettinger av noen få basepar i en kodende sekvens kan forårsake rammeskift , slik at nukleotidsekvensen til mRNA-en leses feil.

Genmutasjoner kan påvirke:

  • Koding av DNA : Hvis endringen i et nukleotid forårsaker en endring i en aminosyre i proteinet, kalles mutasjonen ikke-synonym. Ellers kalles de synonyme eller stille (mulig fordi den genetiske koden er degenerert). Ikke-synonyme mutasjoner klassifiseres også som missense mutasjoner hvis de forårsaker endring av en aminosyre for en annen, non-sense mutasjoner hvis de endrer et kodende kodon for et stoppkodon (TAA, TAG, TGA ) eller med sense gain hvis det motsatte skjer.
  • Ikke-kodende DNA : De kan påvirke regulatoriske sekvenser, promotere eller de som er involvert i spleising. Sistnevnte kan forårsake en feilaktig prosessering av mRNA, med ulike konsekvenser i uttrykket av proteinet kodet av det genet.
Monogene lidelser

De er genetiske sykdommer forårsaket av mutasjon i et enkelt gen, som presenterer en lett forutsigbar arv av Mendelsk type. De viktigste arvemønstrene de kan vise, deres egenskaper og noen eksempler er oppsummert i tabellen.


arvemønster Beskrivelse eksempler
autosomalt dominant Sykdommer som manifesterer seg hos heterozygote individer . En mutasjon i en av de to kopiene (husk at hvert individ har et par av hvert kromosom) av et gen er nok til at sykdommen manifesterer seg. Syke individer har vanligvis en av sine to syke foreldre. Sannsynligheten for å ha påvirket avkom er 50 % siden hver forelder bidrar med ett av kromosomene til hvert par. De korresponderer ofte med mutasjoner med funksjonsforsterkning (slik at det muterte allelet ikke er inaktivt, men har en ny funksjon som forårsaker utviklingen av sykdommen) eller på grunn av funksjonstap av det muterte allelet med effekt av gendose, også kjent som haploinsuffisiens. De er ofte sykdommer med lav penetranse , det vil si at bare en del av individene som bærer mutasjonen utvikler sykdommen. Huntingtons sykdom , nevrofibromatose 1 , Marfans syndrom , arvelig nonpolypose kolorektal kreft
autosomal recessiv Sykdommen viser seg kun hos homozygote recessive individer, det vil si de der begge kopiene av et gen er mutert. De er mutasjoner som forårsaker funksjonstap, slik at årsaken til sykdommen er fraværet av virkningen av et gen. Mutasjonen i bare en av de to kopiene kompenseres av eksistensen av den andre (når en enkelt kopi ikke er nok, oppstår haploinsuffisiens, med autosomal dominant arv). Vanligvis har et sykt individ begge friske foreldre, men bærere av mutasjonen ( heterozygot genotype : Aa). I et slikt tilfelle vil 25 % av avkommet være berørt. Cystisk fibrose , sigdcelleanemi , Tay-Sachs sykdom , spinal muskelatrofi
X-linked dominant X-koblede dominante sykdommer er forårsaket av mutasjoner på det kromosomet og har et spesielt arvemønster. Bare noen få arvelige sykdommer viser dette mønsteret. Kvinner har en høyere forekomst av sykdommen enn menn, siden de får ett X-kromosom fra sin mor og ett fra sin far, som begge kan bære mutasjonen. Menn, på den annen side, mottar alltid Y-kromosomet fra sin far. Dermed vil en syk mann (xY) ha alle sine friske sønner (XY) og alle sine syke døtre (Xx), mens en syk kvinne (Xx) vil ha 50 % av hennes avkom syke, uavhengig av kjønn. Noen av disse sykdommene er dødelige hos menn (xY), så det er bare kvinnelige pasienter (og menn med Klinefelters syndrom , XxY). Hypofosfatemi , Aicardis syndrom
X-bundet recessiv X-koblede recessive sykdommer er også forårsaket av mutasjoner på X-kromosomet.Mannen er oftere rammet. En mannlig bærer vil alltid være syk (xY) siden han kun har ett X-kromosom, som er mutert. Deres avkom vil være friske hanner (XY) og bærende døtre (Xx). En kvinnelig bærer vil ha et avkom som består av 50 % bærende døtre og 50 % syke hanner. Hemofili A , Duchenne muskeldystrofi , fargeblindhet , androgen alopecia muskeldystrofi
Y-lenket De er sykdommer forårsaket av mutasjon i Y-kromosomet. Følgelig kan det bare manifestere seg hos menn, hvis avkom vil være 100 % friske døtre og 100 % syke mannlige sønner. Gitt funksjonene til Y-kromosomet, forårsaker disse sykdommene ofte bare infertilitet, som ofte kan overvinnes terapeutisk. arvelig mannlig infertilitet
mitokondrie Sykdommer forårsaket av mutasjon i gener i mitokondriegenomet . Gitt de spesielle egenskapene til nevnte genom, er overføringen matrilineær (mitokondriegenomet overføres fra mor til barn). Alvorlighetsgraden av en mutasjon avhenger av prosentandelen av berørte genomer i populasjonen av mitokondrier, et fenomen som kalles heteroplasmi (i motsetning til heterozygositet), som varierer med asymmetrisk mitotisk segregering. Leber arvelig optisk nevropati (LHON)


Polygene og multifaktorielle lidelser

Andre genetiske endringer kan være mye mer komplekse i forbindelse med en patologisk fenotype. De er multifaktorielle eller polygene sykdommer, det vil si de som er forårsaket av kombinasjonen av flere genotypiske alleler og eksogene faktorer, som miljø eller livsstil. Følgelig presenterer de ikke et klart arvelig mønster, og mangfoldet av etiologiske og risikofaktorer gjør risikoestimering, diagnostisering og behandling vanskelig.

Noen eksempler på multifaktorielle sykdommer med delvis genetisk etiologi er:

Kromosomavvik

Genetiske endringer kan også forekomme på et kromosomalt nivå ( kromosomavvik ), som forårsaker alvorlige lidelser som påvirker flere gener og som ofte er dødelige, og forårsaker premature aborter . De er ofte forårsaket av en feil under celledeling , som imidlertid ikke forhindrer at de fullføres. Kromosomavvik reflekterer en abnormitet i antall eller struktur av kromosomer, så de er klassifisert som numeriske og strukturelle. De forårsaker svært forskjellige fenotyper, men har ofte noen fellestrekk:

  • Psykisk utviklingshemning og utviklingshemning.
  • Ansiktsendringer og anomalier i hode og nakke.
  • Medfødte misdannelser, med fortrinnsvis involvering av lemmer, hjerte, etc.
Numerisk Aneuploidifrekvenser per 1000 levendefødte . [ 15 ]
aneuploidi Frekvens
(/1000)
Syndrom
Trisomi 21 1.5 ned
trisomi 18 0,12 av Edwards
trisomi 13 0,07 av Patau
Monosomi X 0,4 Turners
XXY 1.5 av Klinefelter
XYY 1.5 av XYY

Det er en endring av det normale antallet kromosomer til et individ, som normalt har 23 par kromosomer (46 totalt), hvert kromosomsett er fra en forelder ( diploidy ). Hvis endringen bare påvirker ett par kromosomer, kalles det aneuploidi , så det kan bare være ett kromosom ( monosomi ) eller mer enn to ( trisomi , tetrasomi ...). Et eksempel på høy prevalens er trisomi 21, ansvarlig for Downs syndrom. Hvis endringen derimot påvirker alle kromosomene, snakker vi om euploidi , slik at individet i teorien har et enkelt kromosomsett ( haploidy , totalt 23 kromosomer) eller mer enn to sett ( triploidy : 69 kromosomer; tetraploidi : 92). kromosomer...). I praksis forårsaker euploidier embryonal dødelighet (aborter) med svært få levendefødte, og de dør veldig tidlig. Aneuploidier er for det meste dødelige, bortsett fra trisomier av kromosom 13, 18, 21, X og Y (XXY, XYY), og monosomi av X-kromosomet. Hyppigheten av levendefødte med disse endringene er vist i tabellen.

Strukturell

Dette er navnet gitt til endringer i strukturen til kromosomer, slik som store slettinger eller innsettinger, omorganiseringer av genetisk materiale mellom kromosomer... som kan påvises med cytogenetiske teknikker.

  • Dupliseringer - En betydelig region av et kromosom dupliseres. Et eksempel er Charcot-Marie-Tooths sykdom type 1A, som kan være forårsaket av duplisering av genet som koder for perifert myelinprotein 22 (PMP22) på kromosom 17.
  • Translokasjoner - Når en del av ett kromosom overføres til et annet kromosom. Det er to hovedtyper av translokasjoner: den resiproke translokasjonen, der segmenter av to forskjellige kromosomer utveksles, og den Robertsonske translokasjonen, der to akrosentriske kromosomer (13, 14, 15, 21, 22) smelter sammen ved sine sentromerer (sentrisk fusjon ). ).
  • Inversjoner - En del av genomet brytes av og reorienterer seg i motsatt retning før den reassosieres, noe som får den sekvensen til å virke invertert. De kan være parasentriske (hvis de bare påvirker én arm) eller perisentriske (hvis den inverterte sekvensen inkluderer sentromeren).
  • Ringkromosomer: En del av genomet brytes av og danner en ring ved sirkularisering. Dette kan skje med materielle tap eller uten materielle tap.
  • Isokromosomer : symmetriske kromosomer, med sine to identiske armer på grunn av sletting av en av armene og duplisering av den andre. Det vanligste er isokromosom X, der den korte armen til X-kromosomet går tapt, noe som forårsaker fenotyper av Turner syndrom.

Kromosomale ustabilitetssyndromer er en gruppe lidelser preget av stor ustabilitet i kromosomene, som ofte lider av strukturelle endringer. De er assosiert med økt malignitet av neoplasmer .

Evolusjon

Komparative genomiske studier er basert på storskala genomiske sekvenssammenligninger, vanligvis ved bruk av bioinformatikkverktøy . Disse studiene lar oss fordype oss i kunnskapen om evolusjonære aspekter av en svært variert tidsmessig og romlig skala, fra studiet av utviklingen av de første levende vesener for milliarder av år siden eller fylogenetiske strålinger hos pattedyr, til studiet av migrasjonene til vesener mennesker de siste 100 000 årene, noe som forklarer den nåværende fordelingen av de forskjellige menneskerasene.

Komparativ genomikk mellom forskjellige arter

Genomiske studier sammenlignet med pattedyrs genomer antyder at omtrent 5 % av det menneskelige genomet har blitt evolusjonært bevart i løpet av de siste 200 millioner årene; som inkluderer de aller fleste gener og regulatoriske sekvenser. Imidlertid utgjør for tiden kjente gener og regulatoriske sekvenser bare 2% av genomet, noe som tyder på at det meste av den genomiske sekvensen med stor funksjonell betydning er ukjent. En betydelig prosentandel av menneskelige gener har en høy grad av evolusjonær bevaring. Likheten mellom det menneskelige genomet og sjimpansens ( Pan troglodytes ) er 98,77 %. I gjennomsnitt skiller et menneskelig protein seg fra sin sjimpanseortolog med bare to aminosyrer , og nesten en tredjedel av genene har samme sekvens. En viktig forskjell mellom de to genomene er det menneskelige kromosom 2, som er produktet av en fusjon mellom sjimpanse kromosom 12 og 13 [ 21 ]

En annen konklusjon fra sammenligningen av genomet til forskjellige primater er det bemerkelsesverdige tapet av luktreseptorgener som har skjedd parallelt med utviklingen av fargesyn (trikrom) under evolusjon av primater. [ 22 ]

Komparativ genomikk mellom menneskelige genomer

I flere tiår har det eneste beviset som tillot å utdype kunnskapen om opprinnelsen og utvidelsen av Homo sapiens vært de få arkeologiske funnene. Imidlertid gir sammenlignende genomiske studier basert på genomene til nåværende individer fra hele verden svært relevant informasjon. Dens grunnleggende grunnlag er å identifisere en polymorfisme, en mutasjon, som antas å ha sin opprinnelse i et individ fra en forfedrepopulasjon, og å ha arvet alt dets avkom frem til i dag. Videre, siden mutasjoner ser ut til å forekomme med en konstant hastighet, kan alderen til en gitt mutasjon estimeres basert på størrelsen på haplotypen den er lokalisert i, det vil si størrelsen på den konserverte sekvensen som flankerer mutasjonen. Denne metodikken er komplisert av fenomenet rekombinasjon mellom kromosomparene til et individ, som kommer fra dets to foreldre. Imidlertid er det to regioner der denne ulempen ikke eksisterer fordi de presenterer uniparental arv: det mitokondrielle genomet (matrilineær arv), og Y-kromosomet (patrilineær arv).

De siste tiårene har komparative genomiske studier basert på mitokondrie-genomet, og i mindre grad på Y-kromosomet, rapportert om svært interessante konklusjoner. Ulike studier har sporet fylogenien til disse sekvensene, og anslår at alle nåværende mennesker deler en felles kvinnelig stamfar som levde i Afrika for rundt 150 000 år siden. For sin del, av grunner som fortsatt er dårlig forstått, fastslår den større konvergensen av DNAet til Y-kromosomet at den siste vanlige mannlige stamfaren stammer fra rundt 60 000 år siden. Disse personene har blitt kalt mitokondriell Eva og Y-kromosom Adam .

Det største mangfoldet av genetiske markører, og følgelig de korteste haplotypene, er funnet i Afrika. Hele resten av verdens befolkning har bare en liten del av disse markørene, så den genomiske sammensetningen av resten av den nåværende menneskelige befolkningen er bare en undergruppe av det som kan sees i Afrika. Dette fører til konklusjonen at en liten gruppe mennesker (kanskje rundt tusen) migrerte fra det afrikanske kontinentet til kysten av det vestlige Asia, for rundt 50 000 til 70 000 år siden, ifølge studier basert på mitokondrielle genom. For rundt 50 000 år siden nådde de Australia og for 40 000 til 30 000 år siden koloniserte andre underpopulasjoner Vest-Europa og Sentral-Asia. På samme måte anslås det at for 20 000 til 15 000 år siden nådde de det amerikanske kontinentet gjennom Beringstredet (havnivået var lavere under den siste istiden, eller Würm eller Wisconsin -isen ), og befolket Sør-Amerika for rundt 15 000-12 år siden. 000 år siden. . Disse dataene er imidlertid kun estimater, og metodikken har visse begrensninger. For tiden er trenden å kombinere komparative genomiske studier basert på mitokondriell DNA med analyse av Y-kromosomsekvensen.

Karakteriseringen av genetisk mangfold i Afrika er et avgjørende skritt for de fleste analyser og for å rekonstruere evolusjonshistorien. En studie publisert av tidsskriftet Science 13. november 2015 [ 23 ] viser det første eldgamle genomet funnet på det afrikanske kontinentet. Til nå har ingen studier klart å sekvensere det eldgamle genomet som er hentet fra fossiler på dette kontinentet. Årsaken var ustabiliteten til selve DNA-molekylet, som ble påvirket av temperatur- og fuktighetsforhold. Derfor er dette nye funnet et gjennombrudd.

"Mota"-restene ble datert til rundt 4500 år siden og er dermed forut for både Bantu-utvidelsen og, enda viktigere, det som er kjent som Vest-Eurasia Ebb. Det er en migrasjonshendelse som skjedde for rundt 3000 år siden, da bestander fra vestlige eurasiske regioner, som Midtøsten og Anatolia, flommet tilbake til Afrikas Horn.

Ved å sammenligne de 250 000 baseparene i Mota-genomet med 40 afrikanske populasjoner og 81 samtidige europeiske og asiatiske populasjoner, ble Mota funnet å være nærmest beslektet med Ari, en etnisk gruppe som bor nær det etiopiske høylandet. Man ser at Mota ligner mer på Ari-populasjonene. Den er også ganske lik Sandawe i det sørlige Tanzania.Disse likhetene er svært viktige, blant annet for å tyde det gamle demografiske landskapet i Afrika.

Bortsett fra Y- og mitokondrielle kromosomer, har mye data blitt hentet fra autosomale kromosomer. Fra et sett med genomiske studier av forskjellige menneskelige populasjoner, er de forskjellige genomiske variasjonene som hjelper til med å bestemme menneskelig migrasjon, oppnådd. Det mest komplette og komplekse ville være 1000 Genomes Project , selv om andre prosjekter som Simons Genomic Diversity Project , International HapMap Project , etc. De har også levert mye data. Alle har gitt informasjon om forskjellige SNP , STR , VNTR og andre som bidrar til å fullføre de genetiske trærne til menneskelige populasjoner, som fortsatt er ufullstendige. [ 24 ]

Det er eget genom til mitokondriene til eukaryote celler . Mitokondriene er en essensiell subcellulær organell i den aerobe eller oksidative metabolismen til eukaryote celler. Deres opprinnelse er endosymbiont , det vil si at de tidligere var uavhengige prokaryote organismer fanget av en forfedres eukaryot celle, som de utviklet et symbiotisk forhold til. Egenskapene til genomet er derfor svært lik de til en nåværende prokaryot organisme, og dens genetiske kode er litt forskjellig fra den som anses som universell . For å tilpasse seg den intracellulære nisjen og øke replikasjonshastigheten, har mitokondriegenomet blitt betydelig redusert gjennom dens samevolusjon, og har for tiden en størrelse på 16 569 basepar. Dermed er det store flertallet av proteinene lokalisert i mitokondriene (~1500 hos pattedyr) kodet av kjernegenomet (som alle de foregående avsnittene refererer til), slik at mange av disse genene ble overført fra mitokondriene til cellekjernen i løpet av samevolusjonen av den eukaryote cellen. Hos de fleste pattedyr er det bare hunnen som overfører mitokondriene sine til zygoten , så de presenterer, som allerede sagt, et matrilineært arvelig mønster. Generelt inneholder en gjennomsnittlig menneskelig celle 100-10 000 kopier av mitokondrie-genomet per celle, med en hastighet på omtrent 2-10 DNA-molekyler per mitokondrier. [ 25 ]

Det mitokondrielle genomet har 37 gener: [ 15 ]

I motsetning til det som skjedde med kjernegenomet, hvor kun 1,5 % koder, tilsvarer 97 % av det mitokondrielle genomet kodende sekvenser. Det er et enkelt sirkulært dobbelttrådet DNA-molekyl. En av halvstrengene kalles tungkjeden eller H-kjeden, og den inneholder 28 av de 37 genene (2 rRNA, 14 tRNA og 12 polypeptider). Den komplementære tråden (lett eller L-kjede) koder for de resterende 9 genene. I begge kjedene opptrer tRNA-genene fordelt mellom to rRNA eller proteinkodende gener, noe som er av stor betydning for prosesseringen av mitokondrielt RNA.

Se også

Notater

  1. Sekvensprosenter er basert på eukromatinfraksjoner, som et av målene for Human Genome Project for å bestemme bare den eukromatiske delen av genomet. Telomerer , sentromerer og andre heterokromatiske regioner har blitt stående ubestemte, og det samme har et lite uklonerbart antall tomrom. Se http://www.ncbi.nlm.nih.gov/genome/seq/ for mer informasjon om Human Genome Project.

Referanser

  1. International Human Genome Sequencing Consortium (2004). "Avslutte den eukromatiske sekvensen til det menneskelige genomet." Nature 431 (7011): 931-45. PMID  15496913 . [1] 
  2. a b International Human Genome Sequencing Consortium (2001). "Initial sekvensering og analyse av det menneskelige genomet." . Nature 409 (6822): 860-921. PMID  11237011 . 
  3. Pollack, Andrew (2. juni 2016). "Forskere kunngjør HGP-Write, prosjekt for å syntetisere det menneskelige genomet" . New York Times . Hentet 2. juni 2016 . 
  4. ^ Boeke, Jef D. (2. juni 2016). "The Genome Project–Write" . Vitenskap (tidsskrift) . doi : 10.1126/science.aaf6850 . Hentet 2. juni 2016 . 
  5. Callaway, Ewen (2. juni 2016). "Plan for å syntetisere menneskelig genom utløser en blandet respons" . ScientificAmerican . Hentet 2. juni 2016 . 
  6. Regalado, Antonio (2. juni 2016). "Plan for å lage et genom reiser spørsmål om designermennesker" . MIT Technology Review . Hentet 2. juni 2016 . 
  7. Akst, Jef (2. juni 2016). ""Human Genome Project-Write" avduket" . TheScientist . Hentet 2. juni 2016 . 
  8. ^ Opal, Puneet; Kini, Ameet (3. juni 2016). "Den modige nye verdenen til det syntetiske menneskelige genomet" . Tid . Hentet 12. juni 2016 . 
  9. ^ Watson, JD, Baker TA, Bell SP, Gann A, Levine M, Losick R. (2004). "Ch9-10," Molecular Biology of the Gene, 5. utg., Peason Benjamin Cummings; CSHL Trykk.
  10. ENCODE-prosjektkonsortiet. (2007). «Identifisering og analyse av funksjonelle elementer i 1 % av det menneskelige genomet ved ENCODE-pilotprosjektet.». Nature 447 (7146): 799-816. PMID  17571346 .  .
  11. Mark B. Gerstein, Can Bruce, Joel S. Rozowsky, Deyou Zheng, Jiang Du, Jan O. Korbel, Olof Emanuelsson, Zhengdong D. Zhang, Sherman Weissman og Michael Snyder (2007). «Hva er et gen, post-ENCODE? Historie og oppdatert definisjon». Genome Research 17 : 669-681. [2] Fullversjon fritt tilgjengelig. 
  12. a b https://web.archive.org/web/20080601160822/http://www.unav.es/genetica/GH/cap5.html Nettside med nylige oppdateringer av Dr. Novos bok. Inkluderer en video på spansk om redefinisjonen av genbegrepet [3] ( brutt lenke tilgjengelig på Internet Archive ; se historikk , første og siste versjon ). .
  13. ^ Loots G, Locksley R, Blankespoor C, Wang Z, Miller W, Rubin E, Frazer K (2000). "Identifisering av en koordinatregulator av interleukin 4, 13 og 5 ved sekvenssammenligninger på tvers av arter." Science 288 (5463): 136-40. PMID 10753117 . Sammendrag 
  14. ^ Nei M, Xu P, Glazko G (2001). "Estimering av divergenstider fra multiproteinsekvenser for noen få pattedyrarter og flere fjernt beslektede organismer." . Proc Natl Acad Sci USA 98 (5): 2497-502. PMID 11226267 . 
  15. a b c d e f g h i j k l m n ñ o Novo Villaverde, FJ (2007). Menneskelig genetikk . Madrid: Pearson. ISBN  978-84-8322-359-8 .  (Anbefalt)
  16. ^ "Menneskets forfedre har rutinemessig stjålet gener fra andre arter" . The Economist . 14. mars 2015 . Hentet 17. mars 2015 . 
  17. Torrents D., Suyama M., Zdobnov E. og Bork s. (2003). "En genomomfattende undersøkelse av menneskelige pseudogener." Genome Research 13 (12): 2559-2567. PMID 14656963 . [4] 
  18. Robert Belshaw, (2004). "Langsiktig reinfeksjon av det menneskelige genomet av endogene retrovirus". ( brutt lenke tilgjengelig på Internet Archive ; se historikk , første og siste versjon ). Proc Natl Acad Sci USA . 6. april 2004; 101(14): 4894–4899
  19. ^ abcd Telenti , A. , et al (2016). "Dyp sekvensering av 10 000 menneskelige genomer" . Proceedings of the National Academy of Sciences (2016): 201613365 . 
  20. Feuk L., Carson AR og Scherer SW (2006). "Strukturell variasjon i det menneskelige genomet". Nature Reviews Genetics 7 (2): 85-97. PMID 16418744 . [5]  
  21. " Menneskelig kromosom 2 resulterte fra en fusjon av to forfedres kromosomer som forble atskilt i sjimpanselinjen " The Chimpanzee Sequencing and Analysis Consortium (2005). "Initial sekvens av sjimpansegenomet og sammenligning med det menneskelige genomet." Nature 437 (7055): 69-87. PMID 16136131 . " Storskala sekvensering av sjimpansegenomet er nå nært forestående. " Olson M, Varki A (2003). "Sekvensering av sjimpansegenomet: innsikt i menneskelig evolusjon og sykdom." Nat Rev Genet 4 (1): 20-8. PMID 12509750 . 
     
  22. " Funnene våre tyder på at forverringen av luktrepertoaret skjedde samtidig med tilegnelsen av fullt trikromatisk fargesyn hos primater. " Gilad Y, Wiebe V, Przeworski M, Lancet D, Pääbo S (2004). "Tap av olfaktoriske reseptorgener sammenfaller med oppkjøpet av fullt trikromatisk syn hos primater." PLoS Biol 2 (1): E5. PMID 14737185 . 
  23. Gallego Llorente, M. (2015). "Gamle etiopiske genom avslører omfattende eurasisk blanding over hele det afrikanske kontinentet." Science 350, 820-822 . 
  24. Mallick, Swapan; Li, Heng; Lipson, Mark; Mathieson, Iain; Gymrek, Melissa; Cluster, Fernando; Zhao, Mengyao; Chennagiri, Niru et al. (13. oktober 2016). "The Simons Genome Diversity Project: 300 genomer fra 142 forskjellige populasjoner" . Nature 538 ( 7624): 201-206. ISSN 0028-0836 . PMC 5161557 . PMID 27654912 . doi : 10.1038/nature18964 . Hentet 15. februar 2017 .    
  25. ^ Sykes, Bryan (9. oktober 2003). "Mitokondrielt DNA og menneskets historie" . Det menneskelige genom. Arkivert fra originalen 7. september 2015 . Hentet 19. september 2006 . 

Eksterne lenker

På spansk

Foreninger, foreninger og institutter:

Artikler

Utdanningsressurser og informative artikler:

På engelsk