Basis data kimia adalah suatu basis data yang secara khusus dirancang untuk menyimpan informasi kimia. Informasi ini mencakup struktur kimia dan kristal, spektrum, reaksi dan sintesis, serta data termofisika.
Jenis
Struktur kimia
Struktur kimia secara tradisional diwakili dengan menggunakan garis yang menunjukkan ikatan kimia antara atom dan digambar di atas kertas (rumus struktur 2D). Meskipun ini merupakan representasi visual ideal untuk kimiawan, metode ini tidak sesuai untuk penggunaan komputasi dan terutama untuk pencarian dan penyimpanan. Molekul kecil (juga disebut ligan dalam aplikasi perancangan obat), biasanya diwakili dengan menggunakan daftar atom dan hubungannya. Molekul besar seperti protein diwakili lebih kompak dengan menggunakan rangkaian blok pembangun asam amino.
Basis data kimia besar untuk struktur diharapkan menangani penyimpanan dan pencarian informasi tentang jutaan molekul yang mengambil terabyte memori fisik.
Basis data literatur
Basis data literatur kimia mengkorelasikan struktur atau informasi kimia lainnya ke referensi yang relevan seperti makalah akademis atau paten. Jenis basis data ini termasuk STN, Scifinder, dan Reaxys. Tautan ke literatur juga termasuk dalam banyak basis data yang berfokus pada karakterisasi zat kimia.
Basis data kristalografi
Basis data kristalografi menyimpan data struktur kristal dari hasil kristalografi sinar-X. Contoh umum meliputi Protein Data Bank dan Cambridge Structural Database.
Basis data spektrum NMR
Basis data spektrum NMR menghubungkan struktur kimia dengan data NMR. Basis data ini sering menyertakan data karakterisasi lainnya seperti FTIR dan spektrometri massa.
Basis data reaksi
Sebagian besar basis data kimia menyimpan informasi pada molekul yang stabil namun dalam basis data untuk reaksi juga zat antara dan molekul yang dibuat sementara tidak disimpan. Basis data reaksi berisi informasi tentang produk, eduk, dan mekanisme reaksi.
Basis data termofisika
Data termofisika adalah informasi tentang
Representasi struktur kimia
Terdapat dua teknik utama untuk merepresentasikan struktur kimia dalam basis data digital
- Sebagai tabel koneksi/adjacency matrices/daftar dengan informasi tambahan mengenai ikatan (tepi) dan atribut atom (node), seperti:
- MDL Molfile, PDB, CML
- Sebagai notasi string linear berdasarkan kedalaman pertama atau keluasan pencarian pertama, seperti:
- SMILES/SMARTS, SLN, WLN, InChI
Pendekatan ini telah disempurnakan untuk memungkinkan representasi perbedaan stereokimia dan muatan serta jenis ikatan khusus seperti yang terlihat pada senyawa organologam. Keuntungan utama dari representasi komputer adalah kemungkinan untuk meningkatkan penyimpanan dan pencarian cepat serta fleksibel.
Pencarian
Substruktur
Kimiawan dapat mencari basis data dengan menggunakan bagian-bagian struktur, bagian dari nama IUPAC mereka dan juga berdasarkan pada batasan pada sifatnya. Basis data kimia sangat berbeda dengan basis data tujuan umum lainnya dalam dukungan mereka untuk pencarian sub-struktur. Jenis pencarian ini dicapai dengan mencari subgrafik isomorfisme (terkadang juga disebut monomorfisme) dan merupakan aplikasi teori graf yang banyak dipelajari. Algoritme untuk pencarian bersifat komputasi intensif, sering kali O (n3) atau O (n4) kali kompleksitas (di mana n adalah jumlah atom yang terlibat). Komponen pencarian yang intensif disebut atom-by-atom-searching (ABAS), di mana pemetaan pencarian substruktur atom dan ikatan dengan molekul target dicari. Pencarian ABAS biasanya menggunakan algoritme Ullman[1] atau variasinya (mis. SMSD[2]). Percepatan dicapai dengan amortisasi waktu, yaitu beberapa saat pada tugas pencarian disimpan dengan menggunakan informasi prakomputasi. Perhitungan awal ini biasanya melibatkan pembuatan bitstring yang mewakili ada tidaknya fragmen molekul. Dengan melihat fragmen yang ada dalam struktur pencarian, dimungkinkan untuk menghilangkan kebutuhan perbandingan ABAS dengan molekul target yang tidak memiliki fragmen yang ada dalam struktur pencarian. Penghapusan ini disebut skrining/ penyaringan (jangan dikelirukan dengan prosedur penyaringan yang digunakan dalam penemuan obat terlarang). Bit-string yang digunakan untuk aplikasi ini juga disebut kunci struktural. Kinerja tombol seperti itu tergantung pada pilihan fragmen yang digunakan untuk membangun kunci dan probabilitas kehadiran mereka dalam basis data molekul. Jenis kunci lainnya menggunakan hash-code berdasarkan fragmen yang diturunkan secara komputasi. Hal ini disebut 'sidik jari' meski istilahnya kadang-kadang digunakan secara sinonim dengan kunci struktural. Jumlah memori yang dibutuhkan untuk menyimpan kunci struktural dan sidik jari ini dapat dikurangi dengan 'lipat', yang dicapai dengan menggabungkan bagian-bagian kunci dengan menggunakan operasi bitwise dan dengan demikian mengurangi keseluruhan panjangnya.[3]
Pencarian dengan mencocokkan konformasi 3D dari molekul atau dengan menentukan batasan spasial adalah fitur lain yang terutama digunakan dalam desain obat. Penelusuran semacam ini bisa sangat mahal. Banyak metode perkiraan yang telah diajukan, misalnya BCUTS, representasi fungsi khusus, momen inersia, histogram penelusuran sinar, histogram jarak jauh, bentuk multipola untuk beberapa nama.[4][5][6][7][8]
Deskriptor
Semua sifat molekul di luar strukturnya dapat dibagi menjadi atribut fisikokimia atau farmakologi yang juga disebut deskriptor. Selain itu, ada berbagai sistem penamaan buatan dan yang kurang lebih standar untuk molekul yang memasok lebih banyak atau lebih banyak nama dan sinonim yang tidak jelas. Nama IUPAC biasanya merupakan pilihan yang baik untuk mewakili struktur molekul dalam string yang mudah dibaca dan unik meskipun menjadi berat bagi molekul yang lebih besar. Nama trivial di sisi lain semakin banyak dengan homonim dan sinonim dan oleh karena itu merupakan pilihan yang buruk untuk mendefinisikan kunci basis data. Sementara deskriptor fisiko-kimia seperti berat molekul, muatan (parsial), kelarutan, dan lain-lain dapat dihitung secara langsung berdasarkan struktur molekul, deskriptor farmakologis hanya dapat diturunkan. Secara tidak langsung menggunakan statistik multivariat yang terlibat atau hasil eksperimen (pemilihan, bioassay). Semua deskriptor tersebut dapat karena alasan usaha komputasi disimpan bersamaan dengan representasi molekul dan biasanya seperti itu.
Kesamaan
Tidak ada definisi tunggal dari kesamaan molekuler, namun konsepnya dapat didefinisikan sesuai dengan aplikasi dan sering digambarkan sebagai invers dari ukuran jarak dalam ruang deskriptor. Dua molekul mungkin dianggap lebih mirip misalnya jika perbedaannya berat molekul lebih rendah daripada bila dibandingkan dengan yang lain. Berbagai ukuran lain dapat dikombinasikan untuk menghasilkan ukuran jarak beragam. Tindakan jarak sering dikelompokkan ke dalam ukuran Euclidean dan non-Euclidean tergantung pada apakah pertidaksamaan segitiga berlaku. Maximum Common Subgraph (MCS) berdasarkan pencarian substruktur[2](kesamaan atau ukuran jarak) juga sangat umum. MCS juga digunakan untuk penyaringan obat seperti senyawa dengan cara "memukul" molekul, yang memiliki subgraf umum (substruktur).[9]
Bahan kimia dalam basis data mungkin dikelompokkan ke dalam kelompok molekul yang 'serupa' berdasarkan kesamaan. Pendekatan clustering hierarkis dan non-hirarkis dapat diterapkan pada entitas kimia dengan beberapa atribut. Atribut atau sifat molekuler ini dapat ditentukan secara empiris atau komputasi berbasis deskriptor. Salah satu pendekatan clustering yang paling populer adalah algoritme Jarvis-Patrick.[10]
Dalam farmakologi penyimpanan kimia yang berorientasi, kesamaan biasanya didefinisikan dalam kaitannya dengan efek biologis senyawa (ADME/tox) yang pada gilirannya dapat disimpulkan secara semi-otomatis dari kombinasi deskriptor fisiko-kimia yang serupa dengan menggunakan metode QSAR.
Sistem registrasi
Sistem basis data untuk memelihara catatan unik pada senyawa kimia disebut sebagai sistem registrasi. Sistem ini sering digunakan untuk pengindeksan kimia, sistem paten dan basis data industri.
Sistem registrasi biasanya memberlakukan keunikan bahan kimia yang ditunjukkan dalam basis data melalui penggunaan representasi unik. Dengan menerapkan peraturan yang didahulukan untuk menghasilkan notifikasi yang diperkuat, seseorang dapat memperoleh representasi string unik/'kanonikal' seperti 'kanonikal SMILES'. Beberapa sistem registrasi seperti sistem CAS menggunakan algoritme untuk menghasilkan kode hash unik untuk mencapai tujuan yang sama.
Perbedaan utama antara sistem registrasi dan database kimia sederhana adalah kemampuan untuk secara akurat mewakili apa yang diketahui, tidak diketahui, dan sebagian diketahui. Misalnya, database kimia mungkin menyimpan molekul dengan stereokimia tidak ditentukan, sedangkan sistem registrasi kimia mengharuskan petugas pendaftaran untuk menentukan apakah konfigurasi stereo tidak diketahui, campuran tertentu (yang dikenal), atau rasemat. Masing-masing akan dianggap sebagai catatan yang berbeda dalam sistem registrasi kimia.
Sistem registrasi juga molekul preprocess untuk menghindari mempertimbangkan perbedaan sepele seperti perbedaan ion halogen dalam bahan kimia.
Contohnya adalah sistem registrasi Chemical Abstracts Service (CAS). Lihat pula nomor CAS.
Perangkat
Representasi komputasi biasanya dibuat transparan bagi para kimiawan dengan tampilan grafis data. Entri data juga disederhanakan melalui penggunaan editor struktur kimia. Editor ini secara internal mengubah data grafis menjadi representasi komputasi.
Terdapat pula banyak algoritme untuk interkonversi berbagai format representasi. Utilitas sumber terbuka untuk konversi adalah OpenBabel. Algoritme pencarian dan konversi ini diimplementasikan baik dalam sistem basis data itu sendiri atau seperti sekarang tren diimplementasikan sebagai komponen eksternal yang sesuai dengan sistem basis data relasional standar. Baik sistem berbasis Oracle dan PostgreSQL menggunakan teknologi kartrid yang memungkinkan tipe data yang ditentukan pengguna. Ini memungkinkan pengguna membuat kueri SQL dengan kondisi pencarian kimia (Misalnya, kueri untuk mencari catatan yang memiliki cincin fenil dalam strukturnya yang ditunjukkan sebagai string SMILES di kolom SMILESCOL dapat berupa
SELECT * FROM CHEMTABLE WHERE SMILESCOL.CONTAINS('c1ccccc1')
Algoritme untuk konversi nama IUPAC menjadi representasi struktur dan sebaliknya juga digunakan untuk mengekstrak informasi struktur dari teks. Namun, terdapat kesulitan karena adanya beberapa dialek IUPAC. Pekerjaan tengah dilakukan untuk menetapkan standar IUPAC yang unik (lihat InChI).
Lihat pula
Referensi
- ^ Ullmann, Julian R. (1976), "An algorithm for subgraph isomorphism", Journal of the ACM, 23 (1): 31–42, doi:10.1145/321921.321925
- ^ a b Rahman, S. A.; Bashton, M.; Holliday, G. L.; Schrader, R.; Thornton, J. M. (2000). "Small Molecule Subgraph Detector (SMSD) toolkit". Journal of Cheminformatics. 1: 12. doi:10.1186/1758-2946-1-12.
- ^ Cummings, Maxwell D.; Maxwell, Alan C.; DesJarlais, Renee L. (2007). "Processing of Small Molecule Databases for Automated Docking". Medicinal Chemistry. 3 (1): 107–113. doi:10.2174/157340607779317481.
- ^ Pearlman, R.S.; Smith, K.M. (1999). "Metric Validation and the Receptor-Relevant Subspace Concept". J. Chem. Inf. Comput. Sci. 39: 28–35. doi:10.1021/ci980137x.
- ^ Lin, Jr., Hung; Clark, Timothy (2005). "An analytical, variable resolution, complete description of static molecules and their intermolecular binding properties". JCIM. 45 (4): 1010–1016. doi:10.1021/ci050059v.
- ^ Meek, P. J.; Liu, Z.; Tian, L.; Wang, C. J; Welsh, W. J; Zauhar, R. J (2006). "Shape Signatures: speeding up computer aided drug discovery". DDT 2006. 19-20: 895–904.
- ^ Grant, J. A; Gallardo, M. A.; Pickup, B. T. (1996). "A fast method of molecular shape comparison: A simple application of a Gaussian description of molecular shape". JCIC. 17 (14): 1653–1666. doi:10.1002/(sici)1096-987x(19961115)17:14<1653::aid-jcc7>3.0.co;2-k.
- ^ Ballester, P. J.; Richards, W. G. (2007). "Ultrafast shape recognition for similarity search in molecular databases". Proceedings of the Royal Society A. 463: 1307–1321. doi:10.1098/rspa.2007.1823.
- ^ Rahman, S. Asad; Bashton, M.; Holliday, G. L.; Schrader, R.; Thornton, J. M. (2009). "Small Molecule Subgraph Detector (SMSD) Toolkit". Journal of Cheminformatics. 1: 12. doi:10.1186/1758-2946-1-12. Diarsipkan dari versi asli tanggal 2020-01-28. Diakses tanggal 2017-06-21.
- ^ Butina, Darko (1999). "Unsupervised Data Base Clustering Based on Daylight's Fingerprint and Tanimoto Similarity: A Fast and Automated Way To Cluster Small and Large Data Sets". Chem. Inf. Comput. Sci. 39: 747–750. doi:10.1021/ci9803381.