SMIL | ||
---|---|---|
http://www.daylight.com/smiles/ | ||
Generell informasjon | ||
filutvidelse | .smi | |
mime-type | kjemiske/x-dagslys-smiler | |
formattype | kjemi filformat | |
åpent format | ? | |
I kjemi er Simplified Molecular Input Line Entry Specification ( SMILES ) en spesifikasjon for entydig beskrivelse av strukturen til et molekyl ved hjelp av korte ASCII- strenger . SMILES-strenger kan importeres av de fleste molekylære redaktører for konvertering til 2D -tegninger eller 3D - modeller av molekylene.
Den originale SMILES-spesifikasjonen ble utviklet av Arthur Weininger og David Weininger på slutten av 1980-tallet. Den har blitt modifisert og utvidet av andre, spesielt Daylight Chemical Information Systems Inc. En åpen standard kalt "OpenSMILES" ble utviklet av fellesskapet i 2007. Blue Obelisk åpen kildekode kjemi bibliotek . Andre lineære notasjoner inkluderer Wiswesser Linear Notation (WLN), ROSDAL og SLN (Tripos Inc.)
I august 2006 introduserte IUPAC InChI som en standard for representasjon av molekylære strukturer. SMILES anses generelt å ha fordelen av å være mer forståelig for menneskelig lesing enn InChI; den har også en bredere base av programvarestøtte basert på grafteori .
Begrepet SMILES refererer til en lineær notasjon for koding av molekylære strukturer, mens spesifikke forekomster bør kalles SMILES-strenger. Imidlertid brukes begrepet SMILES også ofte for å referere til enten en enkelt SMILES-streng eller et antall SMILES-strenger, og den nøyaktige betydningen fremgår av konteksten. Begrepene kanonisk og isomer kan føre til litt forvirring når de brukes på SMILES. Begrepene beskriver forskjellige attributter til SMILES-strenger og utelukker ikke hverandre.
Generelt kan et antall like gyldige SMILES-strenger skrives for et molekyl. For eksempel spesifiserer CCO, OCC og C(O)C etanol likt . Algoritmer er utviklet for å sikre at den samme SMILES-strengen genereres for et molekyl, uavhengig av rekkefølgen på atomene i strukturen. Denne SMILES-strengen er unik for hver struktur, selv om den er avhengig av "kanoniserings"-algoritmen som brukes til å generere den, og kalles " kanoniske SMILES " . Disse algoritmene konverterer først SMILES til en intern representasjon av molekylstrukturen og manipulerer ikke bare strengene som noen ganger antas. Algoritmene for å generere kanoniske SMILES ble utviklet ved Daylight Chemical Information Systems , OpenEye Scientific Software og Chemical Computing Group . En vanlig anvendelse av kanoniske SMILES er for indeksering og for å sikre unike molekyler i en database .
SMILES-notasjonen tillater spesifikasjon av stereoisomerer . Disse strukturelle funksjonene kan ikke spesifiseres av tilkobling alene, så SMILES-strengene som koder for denne informasjonen kalles isomere SMILES . Et bemerkelsesverdig trekk ved disse reglene er at de tillater streng delvis spesifikasjon av chiralitet . Begrepet "isomeriske SMILES" brukes også ofte på SMILES-strenger der isotoper er spesifisert .
Atomer er representert med standardforkortelsen for hvert kjemisk element , i firkantede parenteser, for eksempel [Au] for gull . Klammer kan utelates for "organiske delmengder" av B, C, N, O, P, S, F, Cl, Br og I. Alle andre elementer må stå i parentes. Hvis de firkantede parentesene utelates, antas det riktige antall underforståtte hydrogenatomer; for eksempel er SMILES-strengen for vann ganske enkelt O.
Et atom som bærer en eller flere elektriske ladninger er omsluttet av firkantede parenteser (uansett hva det måtte være), etterfulgt av symbolet H hvis det er bundet til ett eller flere hydrogenatomer (disse etterfølges av nummeret deres) , bortsett fra hvis det ikke er ett: NH4 for ammonium ), etter '+'-tegnet for en positiv ladning, eller '-'-tegnet for en negativ ladning. Antall belastninger spesifiseres da etter tegnet (bortsett fra hvis det ikke er en); men det er altså mulig å skrive fortegnet til ladningen(e) like mange ganger som ionet har av dem: i stedet for "Ti+4", kan de godt skrive "Ti++++" ( Titanium IV , Ti 4+ ) . Hydroksydanionet er således representert ved [OH-], oksoniumkationen med [OH3+], og kobolt III -kationen ( Co 3+ ) av [Co+3] eller av [Co+++].
Bindinger mellom alifatiske atomer antas å være enkeltstående, med mindre annet er spesifisert, og antydes av tilstøtelse i SMILES-kjeder. For eksempel kan SMILES-strengen for etanol skrives som CCO. Ringlukkingsmerker kan brukes for å indikere tilkobling mellom ikke-tilstøtende atomer i SMILES-kjeden, som for cykloheksan og dioksan er henholdsvis C1CCCCC1 og O1CCOCC1. Med en andre syklus vil etiketten være 2 ( naftalen : c1cccc2c1cccc2 ); utover 9, er det nødvendig å legge til tegnet '%' foran etiketten, for å skille den fra to forskjellige etiketter festet til samme atom (~C12~ vil bety at karbonatomet bærer ringsluttende bindinger 1 og 2 , selv om ~C%12~ vil indikere en enkelt kode, 12). Dobbelt- og trippelbindinger kan representeres med henholdsvis symbolene '=' og '#', som illustrert av kjeden SMILES O=C=O ( karbondioksid ) og C#N ( hydrogencyanid ).
Aromatiske atomer C, O, S og N er representert med deres små bokstaver 'c', 'o', 's' og 'n' henholdsvis. Benzen , pyridin og furan kan representeres av henholdsvis SMILES-kjedene c1ccccc1 , n1ccccc1 og o1cccc1. Bindinger mellom aromatiske atomer er som standard aromatiske, selv om de kan gjøres eksplisitte ved å bruke symbolet ':'. Aromatiske atomer kan være enkeltbundet til hverandre, og bifenyl kan derfor representeres av c1ccccc1-c2ccccc2. Det aromatiske nitrogenatomet bundet til hydrogen, som funnet i pyrrol , skal presenteres av [nH], og imidazol er skrevet med SMILES-notasjonen n1c[nH]cc1.
Dagslys- og OpenEye - algoritmene for å generere kanoniske SMILES-strenger er forskjellige i behandlingen av aromatisitet.
Grener er beskrevet med parenteser, som i CCC(=O)O for propionsyre , og C(F)(F)F for fluoroform . Substituerte ringer kan skrives med forgreningspunktet på ringen, som illustrert av SMILES-strengene COc(c1)cccc1C#N ( se representasjon ) og COc(cc1)ccc1C#N ( se representasjon ), som koder for 3-cyanoanisolen og 4-cyanoanisol isomerer. Å skrive SMILES-strenger for erstattede ringer på denne måten kan gjøre dem mer lesbare.
Konfigurasjonen av de doble koblingene spesifiseres ved hjelp av tegnene "/" og "\". For eksempel er F/C=C/F ( se representasjon ) en representasjon av E - difluoreten , der fluoratomene er på motsatte sider av dobbeltbindingen, mens F/C=C\F ( se representasjon ) er en mulig representasjon for Z -difluoreten , der fluoratomene er på samme side av dobbeltbindingen, som vist i figuren.
Konfigurasjonen av det tetraedriske karbonatomet er spesifisert av @ eller @@. L-alanin, den vanligste enantiomeren av aminosyren alanin , kan skrives som N[C@H](C)C(=O)O ( se representasjon ). @@-spesifikasjonen indikerer at sett fra nitrogenatomet langs bindingen til det chirale senteret, vises sekvensen av hydrogen (H), metyl (C) og karboksylat (C(=O)O) substituenter med klokken. D-alanin kan skrives som N[C@H](C)C(=O)O ( se representasjon ). Rekkefølgen på substituentene på SMILES-kjeden er veldig viktig, og D-alanin kan kodes som N[C@H](C(=O)O)C ( se representasjon ).
Isotoper er spesifisert med et tall som er lik massetallet til isotopen foran symbolet for atomer. Benzen , hvor ett karbonatom er erstattet med karbon-14 , er skrevet som [14c]1ccccc1, og deuteriokloroform er [2H]C(Cl)(Cl)Cl.
Molekyl | Struktur | SMILES kjede |
---|---|---|
dinitrogen | N≡N | N#N |
Metylisocyanat (MIC) | CH3 - N=C=O | C-N=C=O |
Kobbersulfat (II) | Cu 2+ SO4 2- | [Cu+2].[O-]S(=O)(=O)[O-] |
Enantotoksin (C 17 H 22 O 2 ) | CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO | |
Pyrethrin II ( C21H28O5 ) _ _ _ | COC(=O)C(\C)=C\C1C(C)(C)[C@H]1C(=O)O[C@@H]2C(C)=C(C(=O)C2 )CC=CC=C | |
Aflatoksin B1 ( C17H12O6 ) _ _ _ | O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5 | |
Glukose (glukopyranose) (C 6 H 12 O 6 ) | OC[C@H](O1)[C@H](O)[C@H](O)[C@@H](O)[C@H](O)1 | |
Cuscutin aka Bergenin (harpiks) (C 14 H 16 O 9 ) | OC[C@H](O1)[C@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c( O)cc3C(=O)02 | |
Et feromon fra den kaliforniske melbugen | CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C | |
2S,5R- Chalcogran : feromon fra boreren Pityogenes chalcographus [ 1 ] | CC[C@H](O1)CC[C@@]12CCCO2 | |
Vanillin | O=Cc1ccc(O)c(OC)c1 | |
Melatonin ( C13H16N2O2 ) _ _ _ _ _ _ | CC(=O)NCCC1=CNc2c1cc(OC)cc2 | |
Flavopereirin ( C17H15N2 ) _ _ _ _ | Ccc(c1)ccc2[n+]1ccc3c2Nc4c3cccc4 | |
Nikotin ( C10H14N2 ) _ _ _ _ | CN1CCC[C@H]1c2cccnc2 | |
a-thujon (C 10 H 16 O) | CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2 | |
Tiamin (C 12 H 17 N 4 OS + ) (vitamin B1) |
OCCc1c(C)[n+](=cs1)Cc2cnc(C)nc(N)2 |
Illustrasjon med et molekyl med mer enn 9 sykluser, Cephalostatin -1 [ 2 ] (steroidmolekyl med empirisk formel C 54 H 74 N 2 O 10 produsert av en marin orm fra Hydrophiloidea -familien , Cephalodiscus gilchristi ):
Vil gi, med utgangspunkt i metylradikalet lengst til venstre i figuren:
C[C@@](C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[ C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[ C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C )C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H]( O)C[C@]%13(C)CO
(Legg merke til '%' foran indeksen til de avsluttende ringemerkene høyere enn 9, se delen "Koblinger", høyere).
SMILES-notasjon er omfattende beskrevet i SMILES-teorihåndboken levert av Daylight Chemical Information Systems , og en rekke illustrerende eksempler er til stede. Daylights bildeverktøy gir brukerne muligheten til å sjekke sine egne eksempler på SMILES og er et verdifullt pedagogisk verktøy.
SMARTS er en lineær notasjon for spesifikasjon av substrukturelle skjemaer i molekyler. Selv om den bruker mange av SMILES-symbolene, tillater den også spesifikasjon av joker -atomer og -bindinger , som kan brukes til å definere substrukturelle spørringer for søk i en kjemisk database . En vanlig misforståelse er at SMARTS-basert substrukturelt søk innebærer å sammenligne SMILES og SMARTS-strenger. Faktisk blir både SMILES- og SMARTS-strengene først konvertert til interne grafiske representasjoner, som det søkes etter med subgrafisk isomorfisme . SMIRKS er en lineær notasjon for å spesifisere transformasjoner i en reaksjon.
SMILES-strenger kan konverteres til todimensjonale representasjoner ved å bruke strukturdiagramgenereringsalgoritmer (Helson, 1999). Denne konverteringen er ikke alltid entydig. Konvertering til tredimensjonale representasjoner oppnås ved energiminimeringstilnærminger. Det er mange nedlastbare nettbaserte konverteringsverktøy tilgjengelig.