SMIL

SMIL
http://www.daylight.com/smiles/
Generell informasjon
filutvidelse .smi
mime-type kjemiske/x-dagslys-smiler
formattype kjemi filformat
åpent format ?

I kjemi er Simplified Molecular Input Line Entry Specification ( SMILES ) en spesifikasjon for entydig beskrivelse av strukturen til et molekyl ved hjelp av korte ASCII- strenger . SMILES-strenger kan importeres av de fleste molekylære redaktører for konvertering til 2D -tegninger eller 3D - modeller av molekylene.

Den originale SMILES-spesifikasjonen ble utviklet av Arthur Weininger og David Weininger på slutten av 1980-tallet. Den har blitt modifisert og utvidet av andre, spesielt Daylight Chemical Information Systems Inc. En åpen standard kalt "OpenSMILES" ble utviklet av fellesskapet i 2007. Blue Obelisk åpen kildekode kjemi bibliotek . Andre lineære notasjoner inkluderer Wiswesser Linear Notation (WLN), ROSDAL og SLN (Tripos Inc.)

I august 2006 introduserte IUPAC InChI som en standard for representasjon av molekylære strukturer. SMILES anses generelt å ha fordelen av å være mer forståelig for menneskelig lesing enn InChI; den har også en bredere base av programvarestøtte basert på grafteori .

Terminologi

Begrepet SMILES refererer til en lineær notasjon for koding av molekylære strukturer, mens spesifikke forekomster bør kalles SMILES-strenger. Imidlertid brukes begrepet SMILES også ofte for å referere til enten en enkelt SMILES-streng eller et antall SMILES-strenger, og den nøyaktige betydningen fremgår av konteksten. Begrepene kanonisk og isomer kan føre til litt forvirring når de brukes på SMILES. Begrepene beskriver forskjellige attributter til SMILES-strenger og utelukker ikke hverandre.

Generelt kan et antall like gyldige SMILES-strenger skrives for et molekyl. For eksempel spesifiserer CCO, OCC og C(O)C etanol likt . Algoritmer er utviklet for å sikre at den samme SMILES-strengen genereres for et molekyl, uavhengig av rekkefølgen på atomene i strukturen. Denne SMILES-strengen er unik for hver struktur, selv om den er avhengig av "kanoniserings"-algoritmen som brukes til å generere den, og kalles " kanoniske SMILES " . Disse algoritmene konverterer først SMILES til en intern representasjon av molekylstrukturen og manipulerer ikke bare strengene som noen ganger antas. Algoritmene for å generere kanoniske SMILES ble utviklet ved Daylight Chemical Information Systems , OpenEye Scientific Software og Chemical Computing Group . En vanlig anvendelse av kanoniske SMILES er for indeksering og for å sikre unike molekyler i en database .

SMILES-notasjonen tillater spesifikasjon av stereoisomerer . Disse strukturelle funksjonene kan ikke spesifiseres av tilkobling alene, så SMILES-strengene som koder for denne informasjonen kalles isomere SMILES . Et bemerkelsesverdig trekk ved disse reglene er at de tillater streng delvis spesifikasjon av chiralitet . Begrepet "isomeriske SMILES" brukes også ofte på SMILES-strenger der isotoper er spesifisert .

Eksempler

Atomer

Atomer er representert med standardforkortelsen for hvert kjemisk element , i firkantede parenteser, for eksempel [Au] for gull . Klammer kan utelates for "organiske delmengder" av B, C, N, O, P, S, F, Cl, Br og I. Alle andre elementer må stå i parentes. Hvis de firkantede parentesene utelates, antas det riktige antall underforståtte hydrogenatomer; for eksempel er SMILES-strengen for vann ganske enkelt O.

Et atom som bærer en eller flere elektriske ladninger er omsluttet av firkantede parenteser (uansett hva det måtte være), etterfulgt av symbolet H hvis det er bundet til ett eller flere hydrogenatomer (disse etterfølges av nummeret deres) , bortsett fra hvis det ikke er ett: NH4 for ammonium ), etter '+'-tegnet for en positiv ladning, eller '-'-tegnet for en negativ ladning. Antall belastninger spesifiseres da etter tegnet (bortsett fra hvis det ikke er en); men det er altså mulig å skrive fortegnet til ladningen(e) like mange ganger som ionet har av dem: i stedet for "Ti+4", kan de godt skrive "Ti++++" ( Titanium IV , Ti 4+ ) . Hydroksydanionet er således representert ved [OH-], oksoniumkationen med [OH3+], og kobolt III -kationen ( Co 3+ ) av [Co+3] eller av [Co+++].

Linker

Bindinger mellom alifatiske atomer antas å være enkeltstående, med mindre annet er spesifisert, og antydes av tilstøtelse i SMILES-kjeder. For eksempel kan SMILES-strengen for etanol skrives som CCO. Ringlukkingsmerker kan brukes for å indikere tilkobling mellom ikke-tilstøtende atomer i SMILES-kjeden, som for cykloheksan og dioksan er henholdsvis C1CCCCC1 og O1CCOCC1. Med en andre syklus vil etiketten være 2 ( naftalen : c1cccc2c1cccc2 ); utover 9, er det nødvendig å legge til tegnet '%' foran etiketten, for å skille den fra to forskjellige etiketter festet til samme atom (~C12~ vil bety at karbonatomet bærer ringsluttende bindinger 1 og 2 , selv om ~C%12~ vil indikere en enkelt kode, 12). Dobbelt- og trippelbindinger kan representeres med henholdsvis symbolene '=' og '#', som illustrert av kjeden SMILES O=C=O ( karbondioksid ) og C#N ( hydrogencyanid ).

Aromatitet

Aromatiske atomer C, O, S og N er representert med deres små bokstaver 'c', 'o', 's' og 'n' henholdsvis. Benzen , pyridin og furan kan representeres av henholdsvis SMILES-kjedene c1ccccc1 , n1ccccc1 og o1cccc1. Bindinger mellom aromatiske atomer er som standard aromatiske, selv om de kan gjøres eksplisitte ved å bruke symbolet ':'. Aromatiske atomer kan være enkeltbundet til hverandre, og bifenyl kan derfor representeres av c1ccccc1-c2ccccc2. Det aromatiske nitrogenatomet bundet til hydrogen, som funnet i pyrrol , skal presenteres av [nH], og imidazol er skrevet med SMILES-notasjonen n1c[nH]cc1.

Dagslys- og OpenEye - algoritmene for å generere kanoniske SMILES-strenger er forskjellige i behandlingen av aromatisitet.

Grener

Grener er beskrevet med parenteser, som i CCC(=O)O for propionsyre , og C(F)(F)F for fluoroform . Substituerte ringer kan skrives med forgreningspunktet på ringen, som illustrert av SMILES-strengene COc(c1)cccc1C#N ( se representasjon ) og COc(cc1)ccc1C#N ( se representasjon ), som koder for 3-cyanoanisolen og 4-cyanoanisol isomerer. Å skrive SMILES-strenger for erstattede ringer på denne måten kan gjøre dem mer lesbare.

Stereokjemi

Konfigurasjonen av de doble koblingene spesifiseres ved hjelp av tegnene "/" og "\". For eksempel er F/C=C/F ( se representasjon ) en representasjon av E - difluoreten , der fluoratomene er på motsatte sider av dobbeltbindingen, mens F/C=C\F ( se representasjon ) er en mulig representasjon for Z -difluoreten , der fluoratomene er på samme side av dobbeltbindingen, som vist i figuren.

Konfigurasjonen av det tetraedriske karbonatomet er spesifisert av @ eller @@. L-alanin, den vanligste enantiomeren av aminosyren alanin , kan skrives som N[C@H](C)C(=O)O ( se representasjon ). @@-spesifikasjonen indikerer at sett fra nitrogenatomet langs bindingen til det chirale senteret, vises sekvensen av hydrogen (H), metyl (C) og karboksylat (C(=O)O) substituenter med klokken. D-alanin kan skrives som N[C@H](C)C(=O)O ( se representasjon ). Rekkefølgen på substituentene på SMILES-kjeden er veldig viktig, og D-alanin kan kodes som N[C@H](C(=O)O)C ( se representasjon ).

Isotoper er spesifisert med et tall som er lik massetallet til isotopen foran symbolet for atomer. Benzen , hvor ett karbonatom er erstattet med karbon-14 , er skrevet som [14c]1ccccc1, og deuteriokloroform er [2H]C(Cl)(Cl)Cl.

Søknad

Molekyl Struktur SMILES kjede
dinitrogen N≡N N#N
Metylisocyanat (MIC) CH3 - N=C=O C-N=C=O
Kobbersulfat (II) Cu 2+ SO4 2- [Cu+2].[O-]S(=O)(=O)[O-]
Enantotoksin (C 17 H 22 O 2 ) CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO
Pyrethrin II ( C21H28O5 ) _ _ _ COC(=O)C(\C)=C\C1C(C)(C)[C@H]1C(=O)O[C@@H]2C(C)=C(C(=O)C2 )CC=CC=C
Aflatoksin B1 ( C17H12O6 ) _ _ _ O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
Glukose (glukopyranose) (C 6 H 12 O 6 ) OC[C@H](O1)[C@H](O)[C@H](O)[C@@H](O)[C@H](O)1
Cuscutin aka Bergenin (harpiks) (C 14 H 16 O 9 ) OC[C@H](O1)[C@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c( O)cc3C(=O)02
Et feromon fra den kaliforniske melbugen CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
2S,5R- Chalcogran : feromon fra boreren Pityogenes chalcographus [ 1 ] CC[C@H](O1)CC[C@@]12CCCO2
Vanillin O=Cc1ccc(O)c(OC)c1
Melatonin ( C13H16N2O2 ) _ _ _ _ _ _ CC(=O)NCCC1=CNc2c1cc(OC)cc2
Flavopereirin ( C17H15N2 ) _ _ _ _ Ccc(c1)ccc2[n+]1ccc3c2Nc4c3cccc4
Nikotin ( C10H14N2 ) _ _ _ _ CN1CCC[C@H]1c2cccnc2
a-thujon (C 10 H 16 O) CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2
Tiamin (C 12 H 17 N 4 OS + )
(vitamin B1)
OCCc1c(C)[n+](=cs1)Cc2cnc(C)nc(N)2

Illustrasjon med et molekyl med mer enn 9 sykluser, Cephalostatin -1 [ 2 ]​ (steroidmolekyl med empirisk formel C 54 H 74 N 2 O 10 produsert av en marin orm fra Hydrophiloidea -familien , Cephalodiscus gilchristi ):

Vil gi, med utgangspunkt i metylradikalet lengst til venstre i figuren:

C[C@@](C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[ C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[ C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C )C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H]( O)C[C@]%13(C)CO

(Legg merke til '%' foran indeksen til de avsluttende ringemerkene høyere enn 9, se delen "Koblinger", høyere).

Andre eksempler på SMILES

SMILES-notasjon er omfattende beskrevet i SMILES-teorihåndboken levert av Daylight Chemical Information Systems , og en rekke illustrerende eksempler er til stede. Daylights bildeverktøy gir brukerne muligheten til å sjekke sine egne eksempler på SMILES og er et verdifullt pedagogisk verktøy.

Utvidelser

SMARTS er en lineær notasjon for spesifikasjon av substrukturelle skjemaer i molekyler. Selv om den bruker mange av SMILES-symbolene, tillater den også spesifikasjon av joker -atomer og -bindinger , som kan brukes til å definere substrukturelle spørringer for søk i en kjemisk database . En vanlig misforståelse er at SMARTS-basert substrukturelt søk innebærer å sammenligne SMILES og SMARTS-strenger. Faktisk blir både SMILES- og SMARTS-strengene først konvertert til interne grafiske representasjoner, som det søkes etter med subgrafisk isomorfisme . SMIRKS er en lineær notasjon for å spesifisere transformasjoner i en reaksjon.

Konvertering

SMILES-strenger kan konverteres til todimensjonale representasjoner ved å bruke strukturdiagramgenereringsalgoritmer (Helson, 1999). Denne konverteringen er ikke alltid entydig. Konvertering til tredimensjonale representasjoner oppnås ved energiminimeringstilnærminger. Det er mange nedlastbare nettbaserte konverteringsverktøy tilgjengelig.

Se også

Referanser

  1. ISOLASJON AV FEROMONSYNERGISTER AV BARKEBILE, Pityogenes chalcographus, FRA KOMPLEKSE INSEKT-PLANTE-LUKT VED FRAKJONERING OG SUBTRAKTIV-KOMBINASJON BIOASSAY
  2. PubChem-forbindelse CID=183413 (Cephalostatin-1)

Eksterne lenker

Spesifikasjoner

SMILES-relaterte programvareverktøy