Autor: Florin Ifrimescu — Master Bioinformatică medicală, anul I, Facultatea de Biologie, Universitatea din București
Data publicarii: 15 iulie 2020
Genomul de referință uman joacă astăzi un rol central în cercetările clinice. Alegerea unui standard nu poate fi trivială și implică o mare responsabilitate în fața unei părți importante a comunității științifice, asigurând un cadru pentru sute de studii.
Așa cum la un moment dat cineva a spus ce este acela 1 Kg, la fel cineva trebuia să definească un genom de referință de la care să poată porni studiul. Dacă definiția kilogramului a fost actualizată anul trecut în relație cu constanta lui Planck, genomul uman care este oricum dinamic are nevoie de o referință actualizată în mod constant și în raport cu cât mai multe populații. [1]
La momentul curent cea mai completă și mai bine reprezentată versiune a genomului uman este dată de Genome Reference Consortium (GRC), o colaborare internațională care include următoarele institute pentru partea de wet lab și secvențiere: The Genome Institute at Washington University, St. Louis (SUA) și The Wellcome Trust Sanger Institute (Marea Britanie), iar pentru partea de baze de date, suport bioinformatic și dezvoltarea de software: NCBI și European Bioinformatics Institute (EBI) [2].
Inițial au pornit cu scopul de a contribui la îmbunătățirea genomului publicat în 2004 de către Human Genome Project, dar cu timpul și-au lărgit spectrul incluzând genomuri și de la alte specii: șoarece (BRCm38), pește zebră (BRCz11), găină (GRCg6a). Informația genetică furnizată de Genome Reference Consortium este inițial publicată în NCBI GenBank de unde este preluată de celelalte platforme cum ar fi Ensembl sau UCSC Genome Browser.
Revenind la genomul de referință uman, varianta curentă poată numele de Genome Reference Consortium Human Build 38, prescurtat GRCh38. Este un mix de haplotipuri cu loci alternativi publicat în decembrie 2013, prezintă o eroare de 1 la 10,000 și 50% din informație se află in scaffold-uri continue de 50-68 baze azotate. Reprezentarea cu loci alternativi este un început pentru includerea unei diversități genomice cât mai mari, astfel GRCh38 conține informație de la peste 60 de indivizi anonimi, însă 70% din informație este preluată de la unul singur. Față de asamblarea anterioară GRCh37, GRCh38 aduce nou adnotarea regiunilor de centromeri.
Din decembrie 2013 când a fost publicat GRCh38 (major release) cei de la GRC au venit cu versiuni (patches) îmbunătățite numite minor releases. Ultima versiune a fost publicată în 1 martie 2019 sub indicativul GRCh38.p13. Conține un număr de 3,272,116,950 baze azotate organizate în 358 de regiuni și 261 de loci alternativi.
Așadar GRCh38 are parte de îmbunătățiri continue iar cei de la GRC încearcă să actualizeze genomul de referință într-un mod cât mai transparent oferind prin intermediul platformei NCBI acces public la istoricul versiunii actuale. Utilizatorii pot și ei contribui la acest demers prin folosirea opțiunii Report a Genome Problem. Dacă la publicare, în decembrie 2013, GRCh38 prezenta în jur de 250 de gap-uri, cu timpul au fost acoperite sau măcar reduse cam 100 dintre ele, la acest proces contribuind evoluția tehnologiilor de secvențiere de ultra-long reads și anume secvențierea nanopore.
În mod oficial planul celor de la GRC este de a publica un nou release (GRCh38.p14) în a doua jumătate a acestui an (2020). Acesta va fi un release de tip minor unde coordonatele cromozomiale nu sunt modificate. Cu privire la GRCh39 unde coordonatele cromozomiale vor suferi modificări, GRC menționează că publicarea este amânată pentru o perioadă nedefinită, timp în care dezvoltă și evaluează noi modele ale genomului de referință uman. [3]
Dacă până acum eforturile s-au concentrat pe umplerea golurilor și corectarea secvențelor, munca pare a se muta spre încorporarea diversității. Una dintre posibilități este utilizarea tehnologiilor de tip big data în vederea stabilirii alelelor des observate într-o populație, cu acestea putând fi construit un genom consens. Această direcție poate fi exploatată pe baza soluțiilor bioinformatice existente ce permit identificarea informației genetice specifice unei anumite populații prin intermediul platformei Ensembl și proiectului 1,000 Genomes. Este de reținut faptul că 1,000 Genomes și Genome Reference Consortium colaborează îndeaproape. [1]
Concluzii
Cei de la Genome Reference Consortium ne oferă în acest moment o imagine a speciei umane, mai bine spus o fotografie. În această fotografie unele detalii sunt neclare, altele lipsesc cu desăvârșire fiindcă deocamdată atât ne permite aparatul de fotografiat. Unii membri ai speciei stau în rândul din față și sunt mai bine reprezentați, iar alții – cei din spate, se vad mai puțin. Mai sunt și generațiile, oamenii care au trăit să spunem acum 200,000 de ani, primii Homo Sapiens, cu toții ar trebui să încăpem în această fotografie. Dacă acest lucru este posibil sau nu rămâne de văzut. Este clar că în acest moment genomul de referință uman încearcă să găsească un echilibru între utilitate practică și universalitate.
Bibliografie
- Ballouz, S., Dobin, A. & Gillis, J.A. Is it time to change the reference genome?. Genome Biol 20, 159 (2019). https://doi.org/10.1186/s13059-019-1774-4
- Genome Reference Consortium. https://www.ncbi.nlm.nih.gov/books/NBK153600/. Accesat la 12 iulie 2020.
- The Genome Reference Consortium. https://www.ncbi.nlm.nih.gov/grc/. Accesat la 12 iulie 2020.