SMILES
SMILES jest ponadprogramowe i absolutnie niewymagane w szkole, ale bardzo ciekawe, więc polecam lekturę. Znajduje głównie zastosowanie w chemii organicznej, ale spokojnie można w nim tworzyć prawie wszystkie związki nieorganiczne.
SMILES to skrót od ang. Simplified Molecular Input Line Entry Specification 'uproszczona specyfikacja liniowego wprowadzania informacji o cząsteczce'. Jest techniką, która pozwala, wykorzystując tylko znaki dostępne ze standardowej klawiatury, wyrażać wzory strukturalne w postaci ciągu znaków. SMILES umożliwił wykonywanie wielu operacji z wykorzystaniem komputerów bez konieczności opisywania każdej cząsteczki stosami liczb. SMILES może być podstawą do nadania nazwy, (choć nie zawsze), może być informacją wyjściową o składzie i sposobie połączenia atomów, a te można wykorzystać do wyliczania właściwości.
SMILES jest własnością firmy DayLight.
Zanim przejdziemy do szybkiego kursu tworzenia i odczytu SMILES - przykład. Pamiętasz wzór kwasu salicylowego? W zapisie SMILES jego wzór to: c1cccc(c1C(=O)O)O.
Choć jest to jedna z praktycznie nieskończonej ilości wzorów SMILES, które reprezentują tą cząsteczkę. Można napisać też: c1(C(=O)O)ccccc1O lub c1(C(=O)O)c(O)cccc1 i jeszcze inaczej... wynik zawsze będzie ten sam.
Wzory są automatycznie linkami do serwisu depic.
Atomy
Atomy należy przedstawiać za pomocą symboli takich, jakie figurują w układzie okresowym. Pierwsza litera jest wielka, kolejne powinny być małe, choć nie muszą. Jedynie atomy aromatyczne (w pierścieniu aromatycznym) należy zapisywać za pomocą małych liter. Atomami aromatycznymi mogą być: węgiel, tlen, siarka i azot.
O atomach wodoru należy zapomnieć - podczas odtwarzania wzoru strukturalnego wodór jest uzupełniany automatycznie.
Nazwa | SMILES |
---|---|
metan | C |
etan | C-C |
1-bromo-3-chloropropan | Br-C-C-C-Cl Cl-C-C-C-Br |
Praktycznie wszystkie symbole atomów poza C, O, N, S, F, Cl, Br, I muszą być zapisywane w ten sposób:
[ masa symbol wodór ładunek ]
Przy czym wszystko oprócz symbolu i nawiasów kwadratowych może być pominięte. Za symbol można podstawić także znak * jako atom nieznany, np.: [*]OS(=O)(=O)O[*], co oznacza pewien siarczan(VI).
Gdy chcemy podstawić do wzoru wody tryt (woda ciężka) możemy napisać tak: [3H]O[3H]. Inne przykłady (pamiętaj, że wzory to linki): [Na+].[Cl-], [Na]OC(=O)C.
Zauważ, jaka jest różnica we wzorach:
Tioformaldehyd: C=S
Siarczek węgla: [C]=S
Disiarczek węgla: S=[C]=S lub S=C=S
Przykładowy jon z atomem ze wszystkimi danymi: C[20SH2+]=C.
Wiązania
Najważniejsze trzy rodzaje wiązań to:
- - pojedyncze
= - podwójne
# - potrójne
Wiązania pojedyncze można pomijać i zamiast C-C-C=O można (czyt. należy) pisać CCC=O.
Nazwa | SMILES |
---|---|
but-2-yn | CC#CC |
akrylonitryl | C=CC#N |
5-bromopent-1-en-3-yn | BrCC#CC=C |
Nawiasy
Za pomocą nawisów można zaznaczać rozgałęzienia w cząsteczce - można je zagnieżdżać. SMILES nie może zaczynać się nawiasem - jest wtedy nieprawidłowy. Przed nawiasem może znajdować się tylko symbol atomu, z którym połączony jest pierwszy element w nawiasie - typ wiązania zamieszczamy w środku, czyli CC(=O), a nie CC=(O)O. Dwa (lub więcej) nawiasy otwierające pod rząd nigdy nie są potrzebne do uzyskania prawidłowego wzoru. Tam gdzie nie są potrzebne, stosowanie nawiasów nie jest zabronione. Można pisać zarówno C(C(C(C))), ale lepiej, bo krócej jest CCCC.
Nazwa | SMILES |
---|---|
propano-1,2,2-triol | OCC(O)(O)C |
kwas cytrynowy | C(C(=O)O)C(C(=O)O)(O)C(C(=O)O) |
3-izobutylopenta-1,3-dien | CC=C(CC(C)C)C=C |
Pierścienie
To jedna z najbardziej dokuczliwych części SMILES. Oto kilka reguł:
- Struktury cykliczne wymagają użycia cyfr określających początek i koniec pierścienia. Można wykorzystywać cyfry od 1 do 9.
- Do oznaczenia zarówno początku jak i końca pierścienia używa się tej samej cyfry. Atomy z tymi samymi cyframi są połączone ze sobą nawet, jeśli nie wynika to z kolejności atomów w SMILES.
- Każda cyfra, która się pojawia musi pojawić się dwa razy i ani mniej ani więcej. Jednak przy dużej ilości pierścieni dopuszczalne jest ponowne wykorzystanie już użytej cyfry, np.: c1ccccc1c1ccccc1, znaczy to samo, co c1ccccc1c2ccccc2.
- Cyfry mogą występować tylko po symbolach atomu rozpoczynającego i kończącego pierścień. Np. nie poprawny jest zapis: c1ccccc(Br)1. Bromobenzen można opisać jako c1ccccc1(Br) lub po prostu c1ccccc1Br. Symbol wiązania wielokrotnego można umieszczać pomiędzy symbolem pierwiastka a cyfrą, np.: C1CC#1 dla cyklopropynu.
- Przy jednym atomie może występować więcej cyfr rozpoczynających bądź kończących. Np. naftalen można zapisać jako c12ccccc1cccc2. Ciąg cyfr 12 nie oznacza liczby dwanaście, tylko jeden i dwa. Mówi o tym, że dany atom jest połączony zarówno z atomem końcowym nr 1 jak i nr 2.
Nazwa | Ilustracja | SMILES |
---|---|---|
benzen | C1=CC=CC=C1 c1ccccc1 |
|
naftalen | C12C=CC=CC2=CC=CC=1 c12ccccc2cccc1 |
|
kwas salicylowy | c1(C(=O)O)ccccc1O |
Aromatyczność
Zamiast męczyć się i wstukiwać dla benzenu miejsca, w których występują wiązania podwójne: C1=CC=CC=C1, można napisać, że jest to pierścień aromatyczny. W tym celu nie stosuje się wiązań podwójnych, tylko symbole atomów aromatycznych (małe znaki): c1ccccc1. Podobnie było w przypadku naftalenu w poprzednim paragrafie. Istnieje jeszcze kilka atomów, które można zapisać w pierścieniu. Atomy te nazywane są aromatycznymi. Są to: węgiel, tlen, siarka i azot.
W zapisie wygląda to tak:
Nazwa | SMILES (alifatyczny) | SMILES (aromatyczny) |
---|---|---|
benzen | C1=CC=CC=C1 | c1ccccc1 |
pirydyna | C1=CC=CC=N1 | c1ccccn1 |
furan | O1C=CC=C1 | o1cccc1 |
tiofen | S1C=CC=C1 | s1cccc1 |
Widać, że przekształcenie: SMILES (alifatyczny) ↔ SMILES (aromatyczny), nie jest problematyczne.