Vysoce polymorfní RNA viry, jako je virus lidské imunodeficience typu 1 (HIV-1) a hepatitida C, existují v rámci jedinců jako kvazidruh heterogenních, avšak blízce příbuzných genomů (Martell et al., 1992; Coffin, 1995). Ačkoli klonální sekvenování virů může určit genetickou sekvenci pro jednotlivé členy kvazispecies viru, stále častěji se používá sekvenování založené na přímé PCR `populaci`, a to díky své schopnosti detekovat směsi nukleotidů a nižším nákladům. Když se přímé sekvenování PCR provádí na genetickém materiálu obsahujícím alelické směsi, výsledná sekvence obsahuje nejednoznačné nukleotidy, například R (A/G) a M (A/C).

Nukleotidové záměny, které způsobují změnu aminokyseliny, jsou nesynonymní; ty, které ji nezpůsobují, jsou synonymní. Poměr nesynonymních a synonymních záměn v genu kódujícím bílkoviny odráží relativní vliv pozitivního výběru a neutrální evoluce. Pro odhad počtu synonymních a nesynonymních substitucí mezi dvěma sekvencemi bylo vyvinuto několik metod a programy založené na těchto metodách se často používají (např. MEGA (Kumar et al., 2000), SNAP (Korber, 2000)). Tyto programy však ignorují kodony s alelickými směsmi.

Protože kodony s nejednoznačnými nukleotidy způsobenými alelickými směsmi pravděpodobně procházejí rychlejší evolucí než kodony bez směsí, vyvinuli jsme program Syn-SCAN, který počítá míru synonymních a nesynonymních substitucí pomocí modelu zahrnujícího genetické směsi. V tomto modelu je populace viru obsahující na určité pozici jediný nukleotid (např. A) evolučně blíže populaci obsahující směs A a druhého nukleotidu (např. A/G = R) než populaci obsahující jiný nukleotid (G). Takové dílčí rozdíly často naznačují, že se populace viru v rámci jedince mění, zejména pokud se druhý nukleotid objevil během selektivního tlaku antiretrovirových léků (Wei et al., 1995).

Syn-SCAN vyžaduje, aby vstupní sekvence byly vícenásobně zarovnány a umístěny do příslušného čtecího rámce. Počty potenciálních synonymních (S) a nesynonymních (N) substitucí na sekvenci se vypočítají iterací přes každý kodon v sekvenci pomocí hashovací tabulky s počtem potenciálních synonymních substitucí pro každý z 64 nejednoznačných kodonů (obrázek 1a). Kodony obsahující nejednoznačné nukleotidy se rozdělí na jejich složkové směsi a S a N se určí zprůměrováním potenciálu synonymních a nesynonymních substitucí pro každou složku.

Tři datové struktury používané systémem Syn-SCAN. Tabulka 1 má 64 položek obsahujících počet potenciálních synonymních substitucí pro každý z nejednoznačných kodonů. Tabulka 2 má 4096 záznamů obsahujících počet synonymních a nesynonymních změn mezi libovolnými dvěma kodony. Tabulka 3 má 225 záznamů obsahujících skóre nukleotidové vzdálenosti mezi každým z nejednoznačných a nejednoznačných nukleotidů. Obsah tabulky 3 se za běhu modifikuje na základě preferencí definovaných uživatelem. syn, synonymní, nonsyn, nesynonymní.

Počty synonymních (Sd) a nesynonymních (Nd) rozdílů mezi dvěma sekvencemi se vypočítají iterací přes každý pár zarovnaných kodonů ve dvou sekvencích. Pokud se vyskytnou rozdíly mezi kodony, které postrádají nejednoznačné nukleotidy, určí se rozsah synonymie pomocí hashovací tabulky s počtem synonymních a nesynonymních změn mezi libovolnými dvěma kodony (obrázek 1b). Pokud se vyskytnou rozdíly mezi kodony s nejednoznačnými nukleotidy, použije se matice nukleotidových substitucí obsahující nejednoznačné i nejednoznačné nukleotidy (obrázek 1c) k úpravě rozsahu synonymie získaného z hashovací tabulky na obrázku 1b.

Podíl synonymních (pS) substitucí na porovnání sekvence se získá vydělením Sd počtem potenciálních synonymních míst (S). Podíl nesynonymních (pN) substitucí na porovnání sekvence se získá vydělením Nd počtem potenciálních nesynonymních míst (N). Synonymní (dS) a nesynonymní vzdálenosti (dN) se vypočítají použitím Jukesovy-Cantorovy korekce na zpětnou mutaci. Výstup programu obsahuje jednotlivá měření vzdáleností a textové soubory obsahující matice hodnot dS a dN ve formátu vhodném pro analýzu fylogenetickými programy. Syn-SCAN je napsán v jazyce Perl a běží v prostředí Windows a Unix.

Syn-SCAN generuje za běhu matici substitucí nukleotidů na základě uživatelem zvoleného váhového schématu. Výchozí vážení přiřazuje vzdálenost mezi dvěma nejednoznačnými nukleotidy a mezi nejednoznačným a nejednoznačným nukleotidem, která je úměrná míře nejednoznačnosti (1- až 4násobné) každého z nukleotidů a nepřímo úměrná počtu sdílených nukleotidů (tj. R a M sdílejí jeden nukleotid, A). Toto váhové schéma se doporučuje, protože zohledňuje skutečnost, že při přítomnosti směsí může změna na pozici nukleotidu vyplývat spíše ze změny podílu dvou konkurenčních populací než z nové mutace. Pro zkoumání výsledků, které by byly generovány jinými programy, které počítají míru synonymních-nesynonymních mutací, mají uživatelé možnost ignorovat dílčí rozdíly.

Existují dvě online implementace programu Syn-SCAN. První přijímá sekvence libovolného genu kódujícího bílkoviny. Druhá přijímá párové sekvence HIV-1 testované na rezistenci k lékům. Vzorky dat, stejně jako další publikované soubory sekvenčních dat (Condra et al., 1996; Bacheler et al., 2000) naznačují, že mutace vybrané během léčby antiretrovirovými léky procházejí mezistupněm, ve kterém jsou přítomny jak divoké, tak mutované zbytky. Syn-SCAN poskytuje odhady genetické vzdálenosti, které zohledňují tuto přechodnou fázi, což z programu činí jedinečný nástroj pro kvantitativní studie evoluce virů uvnitř hostitele.

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.