Zeer polymorfe RNA-virussen zoals het humaan immunodeficiëntievirus type 1 (HIV-1) en hepatitis C bestaan binnen individuen als een quasispecies van heterogene maar nauw verwante genomen (Martell et al., 1992; Coffin, 1995). Hoewel sequencing van klonale virussen de genetische sequentie kan bepalen voor individuele leden van een virusquasispecies, wordt sequencing op basis van directe PCR ‘populatie-gebaseerde’ sequencing steeds meer gebruikt vanwege de mogelijkheid om nucleotidenmengsels te detecteren en vanwege de lagere kosten. Wanneer directe PCR-sequencing wordt uitgevoerd op genetisch materiaal dat allelmengsels bevat, bevat de resulterende sequentie dubbelzinnige nucleotiden, zoals R (A/G) en M (A/C).
Nucleotide-substituties die een aminozuurverandering veroorzaken zijn niet-synoniem; die welke dat niet doen zijn synoniem. De verhouding tussen niet-synonieme en synonieme substituties in een eiwitcoderend gen weerspiegelt de relatieve invloed van positieve selectie en neutrale evolutie. Er zijn verschillende methoden ontwikkeld om het aantal synonieme en niet-synonieme substituties tussen twee sequenties te schatten en programma’s op basis van deze methoden worden vaak gebruikt (b.v. MEGA (Kumar et al., 2000), SNAP (Korber, 2000)). Deze programma’s negeren echter codons met allelische mengsels.
Omdat codons met dubbelzinnige nucleotiden veroorzaakt door allelische mengsels waarschijnlijk een snellere evolutie ondergaan dan codons zonder mengsels, hebben wij een programma ontwikkeld, Syn-SCAN, dat synonieme en niet-synonieme substitutiesnelheden berekent met behulp van een model dat genetische mengsels omvat. In dit model ligt een viruspopulatie die een enkele nucleotide (b.v. A) op een positie bevat, evolutionair dichter bij een populatie die een mengsel van A en een tweede nucleotide bevat (b.v. A/G = R) dan bij een populatie die een andere nucleotide (G) bevat. Dergelijke partiële verschillen wijzen er vaak op dat de viruspopulatie binnen een individu aan het veranderen is, vooral wanneer de tweede nucleotide is ontstaan tijdens de selectieve druk van antiretrovirale geneesmiddelen (Wei et al., 1995).
Syn-SCAN vereist dat de inputsequenties meervoudig worden uitgelijnd en in het juiste leeskader worden geplaatst. De aantallen potentiële synonieme (S) en niet-synonieme (N) substituties per sequentie worden berekend door iteratie door elk codon in een sequentie met behulp van een hash-tabel met het aantal potentiële synonieme substituties voor elk van de 64 niet-ambigue codons (figuur 1a). Codons die dubbelzinnige nucleotiden bevatten, worden opgesplitst in hun componentmengsels en S en N worden bepaald door het gemiddelde te nemen van het potentieel voor synonieme en niet-synonieme substituties voor elke component.
Drie gegevensstructuren die door Syn-SCAN worden gebruikt. Tabel 1 heeft 64 ingangen met het aantal potentiële synonieme substituties voor elk van de niet-ambigue codons. Tabel 2 bevat 4096 items met het aantal synonieme en niet-synonieme veranderingen tussen twee willekeurige codons. Tabel 3 bevat 225 ingangen met nucleotide-afstandsscores tussen elk van de dubbelzinnige en niet-ambigue nucleotiden. De inhoud van tabel 3 wordt runtime gewijzigd op basis van door de gebruiker gedefinieerde voorkeuren. syn, synoniem, nonsyn, niet-synoniem.
Het aantal synonieme (Sd) en niet-synonieme (Nd) verschillen tussen twee sequenties wordt berekend door iteratie door elk paar uitgelijnde codons in twee sequenties. Wanneer verschillen tussen codons zonder ambigue nucleotiden worden aangetroffen, wordt de mate van synonymie bepaald met behulp van de hashtabel met het aantal synonieme en niet-synonieme veranderingen tussen twee willekeurige codons (figuur 1b). Wanneer verschillen tussen codons met dubbelzinnige nucleotiden worden aangetroffen, wordt de nucleotide-substitutiematrix met zowel dubbelzinnige als ondubbelzinnige nucleotiden (figuur 1c) gebruikt om de mate van synonymie die is verkregen uit de hash-tabel in figuur 1b.
Het aandeel synonieme (pS) substituties per sequentievergelijking wordt verkregen door Sd te delen door het aantal potentiële synonieme plaatsen (S). Het aandeel niet-synonieme (pN) substituties per sequentievergelijking wordt verkregen door Nd te delen door het aantal potentiële niet-synonieme plaatsen (N). De synonieme (dS) en niet-synonieme afstanden (dN) worden berekend door toepassing van de Jukes-Cantor correctie voor back-mutatie. De uitvoer van het programma bevat elk van de afstandsmetingen en tekstbestanden met matrices van dS- en dN-waarden in een formaat dat geschikt is voor analyse door fylogenetische programma’s. Syn-SCAN is geschreven in Perl en draait in Windows- en Unix-omgevingen.
Syn-SCAN genereert een nucleotide-substitutiematrix tijdens de run-time op basis van een door de gebruiker geselecteerd wegingsschema. De standaardweging kent een afstand toe tussen twee ambigue nucleotiden en tussen een ambigue en niet-ambigue nucleotide die evenredig is met de mate van ambiguïteit (1- tot 4-voudig) van elk van de nucleotiden en omgekeerd evenredig met het aantal gedeelde nucleotiden (d.w.z. R en M delen één nucleotide, A). Dit wegingsschema wordt aanbevolen omdat het rekening houdt met het feit dat bij mengsels een verandering op een nucleotidepositie het gevolg kan zijn van een verandering in de verhouding tussen twee concurrerende populaties en niet van een nieuwe mutatie. Om de resultaten te onderzoeken die zouden worden gegenereerd door andere programma’s die synoniem-niet-synoniem mutatiepercentages berekenen, hebben gebruikers de mogelijkheid om partiële verschillen te negeren.
Er zijn twee online implementaties van Syn-SCAN. De eerste accepteert sequenties van elk eiwit-coderend gen. De tweede accepteert gepaarde HIV-1-sequenties die op resistentie tegen geneesmiddelen zijn getest. Uit de gegevensreeksen van de monsters en uit andere gepubliceerde sequentiegegevensreeksen (Condra et al., 1996; Bacheler et al., 2000) blijkt dat mutaties die tijdens de behandeling met anti-retrovirale geneesmiddelen worden geselecteerd, een tussenstadium doorlopen waarin zowel wildtype als mutantresiduen aanwezig zijn. Syn-SCAN levert genetische afstandsschattingen die rekening houden met deze tussenliggende fase, waardoor het programma een uniek instrument is voor kwantitatieve studies van de evolutie van het virus binnen de gastheer.