Virusurile ARN puternic polimorfe, cum ar fi virusul imunodeficienței umane de tip 1 (HIV-1) și hepatita C, există în cadrul indivizilor ca o cvasi-specie de genomuri eterogene, dar strâns înrudite (Martell et al., 1992; Coffin, 1995). Deși secvențierea clonală a virusurilor poate determina secvența genetică pentru membrii individuali ai unei cvasi-specii virale, secvențierea directă-PCR „bazată pe populație” este din ce în ce mai utilizată datorită capacității sale de a detecta amestecuri de nucleotide și a costurilor mai mici. Atunci când secvențierea directă prin PCR se face pe material genetic care conține amestecuri alelice, secvența rezultată conține nucleotide ambigue, cum ar fi R (A/G) și M (A/C).
Substituțiile nucleotidice care cauzează o schimbare de aminoacizi sunt nesinonime; cele care nu o fac sunt sinonime. Raportul dintre substituțiile nesinonime și cele sinonime într-o genă codificatoare de proteine reflectă influența relativă a selecției pozitive și a evoluției neutre. Au fost elaborate mai multe metode pentru a estima numărul de substituții sinonime și nesinonime între două secvențe, iar programele bazate pe aceste metode sunt utilizate frecvent [de exemplu, MEGA (Kumar et al., 2000), SNAP (Korber, 2000)]. Cu toate acestea, aceste programe ignoră codonii cu amestecuri alelice.
Pentru că este probabil ca codonii cu nucleotide ambigue cauzate de amestecuri alelice să fie supuși unei evoluții mai rapide decât codonii fără amestecuri, am dezvoltat un program, Syn-SCAN, care calculează ratele de substituție sinonimă și nesinonimă folosind un model care include amestecuri genetice. În acest model, o populație virală care conține o singură nucleotidă (de exemplu, A) într-o poziție este mai apropiată din punct de vedere evolutiv de o populație care conține un amestec de A și o a doua nucleotidă (de exemplu, A/G = R) decât de o populație care conține o altă nucleotidă (G). Astfel de diferențe parțiale indică adesea faptul că populația virală din cadrul unui individ se schimbă, în special atunci când a doua nucleotidă a apărut în timpul presiunii selective a medicamentelor antiretrovirale (Wei et al., 1995).
Syn-SCAN necesită ca secvențele de intrare să fie aliniate de mai multe ori și poziționate în cadrul de citire corespunzător. Numerele de substituții sinonime (S) și nesinonime (N) potențiale per secvență sunt calculate prin iterația prin fiecare codon dintr-o secvență folosind un tabel hash cu numărul de substituții sinonime potențiale pentru fiecare dintre cei 64 de codoni neambigui (Figura 1a). Codonii care conțin nucleotide ambigue sunt împărțiți în amestecurile lor componente, iar S și N sunt determinate prin calcularea mediei potențialului de substituții sinonime și nesinonime pentru fiecare componentă.
Trei structuri de date utilizate de Syn-SCAN. Tabelul 1 are 64 de intrări care conțin numărul de substituții sinonime potențiale pentru fiecare dintre codonii neambigui. Tabelul 2 are 4096 de intrări care conțin numărul de modificări sinonime și nesinonime între oricare doi codoni. Tabelul 3 conține 225 de intrări care conțin scorurile distanței nucleotidelor între fiecare dintre nucleotidele ambigue și neambigue. Conținutul tabelului 3 este modificat în timpul execuției pe baza preferințelor definite de utilizator. syn, synonymous, nonsyn, non-synonymous.
Numele de diferențe sinonime (Sd) și nesinonime (Nd) între două secvențe se calculează prin iterația prin fiecare pereche de codoni aliniați din două secvențe. Atunci când se întâlnesc diferențe între codoni lipsiți de nucleotide ambigue, se determină gradul de sinonimie cu ajutorul tabelului hash cu numărul de modificări sinonime și nesinonime între oricare doi codoni (figura 1b). Atunci când se întâlnesc diferențe între codoni cu nucleotide ambigue, se utilizează matricea de substituție nucleotidică care conține atât nucleotide ambigue, cât și neambigue (figura 1c) pentru a modifica gradul de sinonimie obținut din tabelul hash din figura 1b.
Procentul de substituții sinonime (pS) pe comparație de secvențe se obține prin împărțirea Sd la numărul de situsuri sinonime potențiale (S). Proporția de substituții nesinonime (pN) pe comparație de secvențe se obține prin împărțirea Nd la numărul de situsuri nesinonime potențiale (N). Distanțele sinonime (dS) și nesinonime (dN) se calculează prin aplicarea corecției Jukes-Cantor pentru retro-mutație. Rezultatul programului conține fiecare dintre măsurătorile distanțelor și fișiere text care conțin matrici de valori dS și dN într-un format adecvat pentru analiza programelor filogenetice. Syn-SCAN este scris în Perl și rulează în mediile Windows și Unix.
Syn-SCAN generează o matrice de substituție a nucleotidelor în timpul execuției pe baza unei scheme de ponderare selectată de utilizator. Ponderarea implicită atribuie o distanță între două nucleotide ambigue și între o nucleotidă ambiguă și una neambiguă care este proporțională cu gradul de ambiguitate (de 1 până la 4 ori) al fiecăreia dintre nucleotide și invers proporțională cu numărul de nucleotide partajate (adică R și M împart o nucleotidă, A). Această schemă de ponderare este recomandată deoarece ține cont de faptul că, în cazul în care există amestecuri, o modificare la o poziție nucleotidică poate rezulta mai degrabă dintr-o modificare a proporției a două populații concurente decât dintr-o nouă mutație. Pentru a examina rezultatele care ar fi generate de alte programe care calculează ratele de mutație sinonimă-non sinonimă, utilizatorii au opțiunea de a ignora diferențele parțiale.
Există două implementări online ale Syn-SCAN. Prima acceptă secvențe din orice genă codificatoare de proteine. A doua acceptă secvențe HIV-1 împerecheate, testate pentru rezistența la medicamente. Seturile de date de probă, precum și alte seturi de date de secvențe publicate (Condra et al., 1996; Bacheler et al., 2000) indică faptul că mutațiile selectate în timpul terapiei cu medicamente antiretrovirale trec printr-o etapă intermediară în care sunt prezente atât reziduuri de tip sălbatic, cât și mutante. Syn-SCAN oferă estimări ale distanței genetice care iau în considerare acest stadiu intermediar, ceea ce face din acest program un instrument unic pentru studiile cantitative ale evoluției virusurilor intra-gazdă.