Autor: Floriana Bectaș — Master Bioinformatică medicală, anul I, Facultatea de Biologie, Universitatea din București
Data publicarii: 6 iulie 2020
Scopul prezentului studiu l-a constituit identificarea mutațiilor SARS-CoV-2 dintr-o proba colectata în Bangladesh, în aprilie 2020, prin compararea acesteia cu secvența ARN a aceluiași virus, recoltată de la primii pacienți diagnosticați cu COVID-19 în Decembrie 2019, în Wuhan.
Pornind de la Genomul de referința SARS-CoV-2, în prezentul studiu am comparat o probă umană recoltată în aprilie 2020, în vederea identificării unor posibile modificări în secvența ARN a noului coronavirus.
Atât secvența pentru proba analizată cât și genomul de referință au fost descărcate din baza de date online NCBI. Proba aleasă în studiu se identifică cu SRS6669797 (respectiv SRR11801823) și a fost colectată din zona nazofaringiană, în Bangladesh la data de 18 aprilie 2020.
În vederea verificării calității secvenței ARN analizate, a fost utilizată aplicația online Galaxy (FASTQC) și pentru curățarea acesteia s-a utilizat Trimmomatic.
În vederea obținerii unui rezultat cât mai obiectiv, secvența ARN a probei a fost comparată cu cea a genomului de referință atât în Galaxy cât și în linie de comandă în Linux (Ubuntu 18.04), pentru care s-a folosit algoritmul de aliniere BWA-MEM.
Detectarea variantelor s-a realizat cu Freebayes în Galaxy, și cu Samtools în linie de comandă. Vizualizarea rezultatelor s-a efectuat cu IGV.
Rezultate
Numărul de variante detectate au variat în funcție de aplicația / algoritmul utilizat. Astfel, cu Freebayes au fost identificate 31 de variante, în timp ce cu Samtools au fost observate 9 variante. În figura 1 se pot observa, comparativ, mutațiile identificate atât cu Freebayes cât și cu Samtools.
Concluzii
Se pot trage două mari concluzii, și anume: indiferent de metoda utilizată, au fost identificate mutații suferite de SARS-CoV-2 față de genomul de referință. De asemenea, trebuie avut în vedere că numărul și tipul acestor mutații depinde de metoda de calcul utilizată.
Bibliografie
- Helga Thorvaldsdóttir, James T. Robinson, Jill P. Mesirov. Integrative Genomics Viewer (IGV): high-performance genomics data visualization and exploration. Briefings in Bioinformatics 14, 178-192 (2013). Versiune: 2.8.2
- Enis Afgan, Dannon Baker, Bérénice Batut, Marius van den Beek, Dave Bouvier, Martin Čech, John Chilton, Dave Clements, Nate Coraor, Björn Grüning, Aysam Guerler, Jennifer Hillman-Jackson, Vahid Jalili, Helena Rasche, Nicola Soranzo, Jeremy Goecks, James Taylor, Anton Nekrutenko, and Daniel Blankenberg. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2018 update, Nucleic Acids Research, Volume 46, Issue W1, 2 July 2018, Pages W537–W544, doi:10.1093/nar/gky379 . Data accesarii: 2020 05 24
- Sequence Read Archive (SRA) [Internet]. Bethesda (MD): National Library of Medicine (US), National Center for Biotechnology Information; 2009 - [cited 2020 05 24]. Available from: https://www.ncbi.nlm.nih.gov/sra/ . Numar identificare experiment de secventiere: SRX8353269 . Data accesarii: 2020 05 24
- Nucleotide [Internet]. Bethesda (MD): National Library of Medicine (US), National Center for Biotechnology Information; [1988] - [cited 2020 05 24]. Available from: https://www.ncbi.nlm.nih.gov/nucleotide/ . Numar identificare secventa: NC_045512 . Data accesarii: 2020 05 24