Højt polymorfe RNA-virus såsom humant immundefektvirus type 1 (HIV-1) og hepatitis C findes inden for individer som en kvasispecies af heterogene, men tæt beslægtede genomer (Martell et al., 1992; Coffin, 1995). Selv om klonal virussekventering kan bestemme den genetiske sekvens for de enkelte medlemmer af en viruskvasispecies, anvendes direkte PCR-sekventering “befolkningsbaseret” i stigende grad på grund af dens evne til at påvise nukleotidblandinger og lavere omkostninger. Når direkte PCR-sekventering udføres på genetisk materiale, der indeholder allelblandinger, indeholder den resulterende sekvens tvetydige nukleotider, såsom R (A/G) og M (A/C).
Nucleotid-substitutioner, der medfører en aminosyreændring, er ikke-synonyme; de, der ikke medfører en aminosyreændring, er synonyme. Forholdet mellem ikke-synonyme og synonyme substitutioner i et protein-kodende gen afspejler den relative indflydelse af positiv selektion og neutral evolution. Der er blevet udviklet flere metoder til at estimere antallet af synonyme og ikke-synonyme substitutioner mellem to sekvenser, og programmer baseret på disse metoder anvendes ofte (f.eks. MEGA (Kumar et al., 2000), SNAP (Korber, 2000)). Disse programmer ignorerer imidlertid kodoner med allelblandinger.
Da kodoner med tvetydige nukleotider forårsaget af allelblandinger sandsynligvis gennemgår en hurtigere evolution end kodoner uden blandinger, udviklede vi et program, Syn-SCAN, der beregner synonyme og ikke-synonyme substitutionsrater ved hjælp af en model, der omfatter genetiske blandinger. I denne model er en viruspopulation, der indeholder et enkelt nukleotid (f.eks. A) på en position, evolutionært set tættere på en population, der indeholder en blanding af A og et andet nukleotid (f.eks. A/G = R), end på en population, der indeholder et andet nukleotid (G). Sådanne delvise forskelle indikerer ofte, at viruspopulationen inden for et individ er under forandring, især når den anden nukleotid er opstået under et selektivt pres fra antiretrovirale lægemidler (Wei et al., 1995).
Syn-SCAN kræver, at inputsekvenser er multipelt justeret og positioneret i den relevante læseramme. Antallet af potentielle synonyme (S) og ikke-synonyme (N) substitutioner pr. sekvens beregnes ved at iterere gennem hver kodon i en sekvens ved hjælp af en hashtabel med antallet af potentielle synonyme substitutioner for hver af de 64 ikke-ambigutte kodoner (figur 1a). Kodoner, der indeholder tvetydige nukleotider, opdeles i deres komponentblandinger, og S og N bestemmes ved at beregne gennemsnittet af potentialet for synonyme og ikke-synonyme substitutioner for hver komponent.
Tre datastrukturer, der anvendes af Syn-SCAN. Tabel 1 har 64 poster, der indeholder antallet af potentielle synonyme substitutioner for hver af de ikke-ambigutte kodoner. Tabel 2 har 4096 poster, der indeholder antallet af synonyme og ikke-synonyme ændringer mellem to vilkårlige kodoner. Tabel 3 indeholder 225 poster med nukleotidafstandsscore mellem hver af de flertydige og ikke-flertydige nukleotider. Indholdet af tabel 3 ændres på køretid på grundlag af brugerdefinerede præferencer. syn, synonym, nonsyn, ikke-synonym.
Antalen af synonyme (Sd) og ikke-synonyme (Nd) forskelle mellem to sekvenser beregnes ved at iterere gennem hvert par af justerede kodoner i to sekvenser. Når der opstår forskelle mellem kodoner, der mangler tvetydige nukleotider, bestemmes omfanget af synonymitet ved hjælp af hashtabellen med antallet af synonyme og ikke-synonyme ændringer mellem to vilkårlige kodoner (figur 1b). Når der forekommer forskelle mellem kodoner med tvetydige nukleotider, anvendes nukleotid-substitutionsmatrixen, der indeholder både tvetydige og ikke-entydige nukleotider (figur 1c), til at ændre omfanget af synonymitet, der er opnået ved hjælp af hashtabellen i figur 1b.
Andelen af synonyme (pS) substitutioner pr. sekvenssammenligning opnås ved at dividere Sd med antallet af potentielle synonyme steder (S). Andelen af ikke-synonyme (pN) substitutioner pr. sekvenssammenligning fås ved at dividere Nd med antallet af potentielle ikke-synonyme steder (N). De synonyme (dS) og ikke-synonyme afstande (dN) beregnes ved at anvende Jukes-Cantor-korrektionen for back-mutationer. Programoutputtet indeholder hver enkelt afstandsmåling og tekstfiler med matricer af dS og dN-værdier i et format, der er egnet til analyse med fylogenetiske programmer. Syn-SCAN er skrevet i Perl og kører i Windows- og Unix-miljøer.
Syn-SCAN genererer en nukleotid-substitutionsmatrix på køretid baseret på et vægtningsskema, som brugeren selv har valgt. Standardvægtningen tildeler en afstand mellem to flertydige nukleotider og mellem et flertydigt og et ikke-flertydigt nukleotid, der er proportional med omfanget af flertydigheden (1- til 4-fold) for hvert af nukleotiderne og omvendt proportional med antallet af delte nukleotider (dvs. R og M deler et nukleotid, A). Dette vægtningsskema anbefales, fordi det tager hensyn til, at når der er blandinger til stede, kan en ændring på en nukleotidposition skyldes en ændring i andelen af to konkurrerende populationer snarere end en ny mutation. For at undersøge de resultater, der ville blive genereret af andre programmer, der beregner synonyme-ikke-synonyme mutationsrater, har brugerne mulighed for at ignorere partielle forskelle.
Der findes to online-implementeringer af Syn-SCAN. Den første accepterer sekvenser af ethvert protein-kodende gen. Den anden accepterer parrede HIV-1-sekvenser, der er testet for lægemiddelresistens. Prøvedatasæt samt andre offentliggjorte sekvensdatasæt (Condra et al., 1996; Bacheler et al., 2000) viser, at mutationer, der er udvalgt under antiretroviral lægemiddelbehandling, fortsætter gennem et mellemstadie, hvor både wildtype- og mutantrester er til stede. Syn-SCAN giver genetiske afstandsestimater, der tager hensyn til dette mellemstadie, hvilket gør programmet til et unikt værktøj til kvantitative undersøgelser af intra-host virus evolution.