Famili protein

Famili protein adalah kelompok protein yang berhubungan secara evolusi. Di banyak kasus, sebuah famili protein memiliki famili gen yang sesuai, dengan setiap gen mengodekan protein sesuai dengan relasi 1:1. Istilah famili protein tidak dapat disamakan dengan famili yang digunakan pada taksonomi.

Protein pada turunan famili dari nenek moyang bersama (lihat homologi) secara khusus memiliki struktur tiga dimensi dan fungsi serupa, serta kesamaan urutan secara signifikan. Hal terpenting dari ketiga hal ini adalah kesamaan urutan (biasanya urutan asam amino) karena kesamaan urutan merupakan indikator homologi yang paling ketat dan karenanya merupakan indikator paling jelas dari nenek moyang bersama. Terdapat kerangka yang dikembangkan cukup baik untuk mengevaluasi signifikansi kesamaan di antara sekelompok urutan menggunakan metode penyebarisan urutan. Protein yang tidak memiliki nenek moyang bersama sangat tidak mungkin menunjukkan kesamaan urutan yang signifikan secara statistik, membuat penyebarisan urutan merupakan alat yang kuat untuk mengidentifikasi anggota famili protein.

Famili terkadang dikelompokkan bersama ke dalam klad lebih besar disebut superfamili yang didasarkan pada kesamaan struktural dan mekanistik, bahkan jika tidak terdapat homologi urutan teridentifikasi.

Saat ini, lebih dari 60.000 famili protein telah terdefinisi,^[1] tetapi keambiguan pada definisi famili protein menyebabkan jumlah yang sangat bervariasi di antara peneliti berbeda.

Terminologi dan penggunaan

Seperti halnya banyak istilah biologi, penggunaan famili protein sedikit bergantung pada konteksnya; istilah ini mungkin menyatakan kelompok besar protein dengan tingkat kesamaan urutan terdeteksi serendah mungkin, atau kelompok protein sangat sempit dengan urutan, fungsi, atau struktur tiga dimensi yang hampir identik, atau semua jenis kelompok di antara keduanya. Untuk membedakan situasi tersebut, istilah superfamili protein sering kali digunakan untuk protein yang jauh terkait dengan keterkaitan tidak terdeteksi oleh kesamaan urutan, tetapi hanya dari sifat struktur bersama.^[2]^[3]^[4] Istilah lainnya seperti kelas, kelompok, klan, subfamili protein telah diciptakan lebih dari bertahun-tahun, tetapi semuanya mengalami keambiguan penggunaan serupa. Dalam penggunaan umum, superfamili (homologi struktural) memuat famili (homologi urutan) yang memuat subfamili. Oleh karena itu, superfamili, seperti protease klan PA, memiliki urutan terkonservasikan jauh lebih sedikit dibandingkan dengan salah satu famili yang dimuatnya, famili C04. Sepertinya tidak mungkin definisi yang pasti akan disetujui dan definisi diserahkan kepada pembaca untuk melihat dengan tepat bagaimana istilah-istilah ini digunakan dalam konteks tertentu.

Atas, konservasi urutan 250 anggota protease klan PA (superfamili). Bawah, konservasi urutan 70 anggota famili protease C04. Panah menunjukkan residu triad katalitik. Dibariskan atas dasar struktur oleh DALI.

Kegunaan dan kepentingan

Karena jumlah total protein terurutkan meningkat dan minat dalam analisis proteom berkembang, terdapat upaya berkelanjutan untuk mengatur protein ke dalam famili dan untuk mendeskripsikan komponen domain dan motifnya. Identifikasi famili protein tepercaya penting pada analisis filogenetik, anotasi fungsional, dan eksplorasi keberagaman fungsi protein pada cabang filogenetik yang diketahui. Enzyme Function Initiative (EFI) menggunakan famili dan superfamili protein sebagai dasar perkembangan strategi berdasarkan urutan/struktur untuk penugasan fungsional skala besar dari enzim dengan fungsi yang tidak diketahui.^[5]

Sarana algoritmik untuk membangun famili protein dalam skala besar didasarkan pada pengertian kesamaan. Sebagian besar waktu, satu-satunya kesamaan yang dapat terakses adalah kesamaan urutan.

Sumber famili protein

Terdapat banyak basis data biologi yang mencatat contoh famili protein dan mengizinkan pengguna untuk mengidentifikasi jika protein yang baru diidentifikasi termasuk famili yang diketahui. Berikut beberapa contohnya:

Pfam - Basis data penyebarisan dan HMM famili protein,
PROSITE - Basis data domain, famili, dan situs fungsional protein,
PIRSF - Sistem Klasifikasi Superfamili,
PASS2 - Penyebarisan Protein sebagai Superfamili Struktural v2 - PASS2@NCBS,^[6]
SUPERFAMILY - Perpustakaan HMM yang merepresentasikan superfamili dan basis data (superfamili dan famili) anotasi untuk semua organisme tersekuensi secara penuh,
SCOP dan CATH - klasifikasi struktur protein ke dalam superfamili, famili, dan domain.

Secara serupa, terdapat banyak algoritme pencarian basis data, sebagai contoh:

BLAST - Pencarian kesamaan urutan DNA,
BLASTp - Pencarian kesamaan urutan protain,
OrthoFinder Diarsipkan 2021-03-02 di Wayback Machine. - Metode cepat, berskala, dan akurat untuk penggugusan protein ke dalam famili (ortogrup).^[7]

Lihat pula

Referensi

^ Kunin, V.; Cases, I.; Enright, A. J.; De Lorenzo, V.; Ouzounis, C. A. (2003). "Myriads of protein families, and still counting". Genome Biology. 4 (2): 401. doi:10.1186/gb-2003-4-2-401. PMC 151299  . PMID 12620116.
^ Dayhoff, M. O. (1974). "Computer analysis of protein sequences". Federation Proceedings. 33 (12): 2314–2316. PMID 4435228.
^ Dayhoff, M. O.; McLaughlin, P. J.; Barker, W. C.; Hunt, L. T. (1975). "Evolution of sequences within protein superfamilies". Die Naturwissenschaften. 62 (4): 154–161. Bibcode:1975NW.....62..154D. doi:10.1007/BF00608697.
^ Dayhoff, M. O. (1976). "The origin and evolution of protein superfamilies". Federation Proceedings. 35 (10): 2132–2138. PMID 181273.
^ Gerlt, J. A.; Allen, K. N.; Almo, S. C.; Armstrong, R. N.; Babbitt, P. C.; Cronan, J. E.; Dunaway-Mariano, D.; Imker, H. J.; Jacobson, M. P.; Minor, W.; Poulter, C. D.; Raushel, F. M.; Sali, A.; Shoichet, B. K.; Sweedler, J. V. (2011). "The Enzyme Function Initiative". Biochemistry. 50 (46): 9950–9962. doi:10.1021/bi201312u. PMC 3238057  . PMID 21999478.
^ Gandhimathi, A.; Nair, A. G.; Sowdhamini, R. (2011). "PASS2 version 4: An update to the database of structure-based sequence alignments of structural domain superfamilies". Nucleic Acids Research. 40 (Database issue): D531–D534. doi:10.1093/nar/gkr1096. PMC 3245109  . PMID 22123743.
^ Emms DM, Kelly S. (Aug 2015). "OrthoFinder: solving fundamental biases in whole genome comparisons dramatically improves orthogroup inference accuracy". Genome Biology. 16 (157): 157. doi:10.1186/s13059-015-0721-2. PMC 4531804  . PMID 26243257.

[1] Kunin, V.; Cases, I.; Enright, A. J.; De Lorenzo, V.; Ouzounis, C. A. (2003). "Myriads of protein families, and still counting". Genome Biology. 4 (2): 401. doi:10.1186/gb-2003-4-2-401. PMC 151299  . PMID 12620116.

[2] Dayhoff, M. O. (1974). "Computer analysis of protein sequences". Federation Proceedings. 33 (12): 2314–2316. PMID 4435228.

[3] Dayhoff, M. O.; McLaughlin, P. J.; Barker, W. C.; Hunt, L. T. (1975). "Evolution of sequences within protein superfamilies". Die Naturwissenschaften. 62 (4): 154–161. Bibcode:1975NW.....62..154D. doi:10.1007/BF00608697.

[4] Dayhoff, M. O. (1976). "The origin and evolution of protein superfamilies". Federation Proceedings. 35 (10): 2132–2138. PMID 181273.

[5] Gerlt, J. A.; Allen, K. N.; Almo, S. C.; Armstrong, R. N.; Babbitt, P. C.; Cronan, J. E.; Dunaway-Mariano, D.; Imker, H. J.; Jacobson, M. P.; Minor, W.; Poulter, C. D.; Raushel, F. M.; Sali, A.; Shoichet, B. K.; Sweedler, J. V. (2011). "The Enzyme Function Initiative". Biochemistry. 50 (46): 9950–9962. doi:10.1021/bi201312u. PMC 3238057  . PMID 21999478.

[6] Gandhimathi, A.; Nair, A. G.; Sowdhamini, R. (2011). "PASS2 version 4: An update to the database of structure-based sequence alignments of structural domain superfamilies". Nucleic Acids Research. 40 (Database issue): D531–D534. doi:10.1093/nar/gkr1096. PMC 3245109  . PMID 22123743.

[7] Emms DM, Kelly S. (Aug 2015). "OrthoFinder: solving fundamental biases in whole genome comparisons dramatically improves orthogroup inference accuracy". Genome Biology. 16 (157): 157. doi:10.1186/s13059-015-0721-2. PMC 4531804  . PMID 26243257.

[1]

[2]

[3]

[4]

[5]

[6]

[7]