Annotált genomok szennyeződéseinek érzékeny kimutatása és eltávolítása a ContScout programmal
Bálint Balázs1, Merényi Zsolt1, Hegedűs Botond1, Igor V. Grigoriev2,3, Zhihao Hou1,4, Földi Csenge1,4 és Nagy G. László1
1 HUN-REN SZBK Biokémiai Intézet, Gomba Genomika és Evolúció Csoport
2 US Department of Energy Joint Genome Institute, Lawrence Berkeley National Laboratory
3 Department of Plant and Microbial Biology, University of California Berkeley
4 SZTE TTIK, Biológia Doktori Iskola
A genomi adatok idegen szekvenciákkal szennyezettsége egyre inkább felismert probléma, amely jelentősen befolyásolhatja a későbbi adatelemzési és adatértelmezési lépéseket. Előadásunkban a ContScout programot mutatjuk be, ami nagy pontossággal távolítja el a szennyező szekvenciákat az annotált genomokból. Szintetikus tesztek révén bemutatjuk, hogy az eszköz kiváló érzékenységgel és specificitással működik még akkor is, ha a szennyezés forrása egy közeli rokon faj. Ember által annotált referencia adatokon demonstráljuk, hogy a ContScout pontosságban jelentősen felülmúlja a legtöbb versenytárs eszközt, valamint bizonyítjuk, hogy képes megkülönböztetni a horizontális génátvitelt a szennyeződéstől.
Nyilvános adatbázisokból letöltött 844 eukarióta genom ContScout vizsgálata során jelentős mértékű adatbázis szennyeződést azonosítunk, melyek eredete túlnyomórészt bakteriális. Bemutatjuk, hogy a szennyezett adatokon végzett ősi genom rekonstrukciók irreálisan korai gén-eredeteket feltételeznek, amivel a ténylegesnél komplexebb ősi genomokat eredményeznek, a leszármazottakban pedig túlbecslik a génvesztések számát.
A ContScout-tal egy pontos és kényelmes eszközt biztosítunk a genomi szennyeződések azonosítására és eltávolítására az annotált genomokból. A forráskód elérhető a GitHubon (h836472/ContScout), míg a Docker-konténer a docker://h836472/contscout címről tölthető le. További részletek a közleményben olvashatók: Nat. Commun., DOI:10.1038/s41467-024-45024-5.