Höggradigt polymorfa RNA-virus, såsom humant immunbristvirus typ 1 (HIV-1) och hepatit C, existerar inom individer som en kvasisort av heterogena men ändå nära besläktade genomer (Martell et al., 1992; Coffin, 1995). Även om sekvensering av klonala virus kan fastställa den genetiska sekvensen för enskilda medlemmar av en viruskvasispecies, används direkt-PCR-sekvensering ”populationsbaserad” i allt större utsträckning på grund av dess förmåga att detektera nukleotidblandningar och den lägre kostnaden. När direkt PCR-sekvensering utförs på genetiskt material som innehåller alleliska blandningar innehåller den resulterande sekvensen tvetydiga nukleotider, t.ex. R (A/G) och M (A/C).
Nukleotidssubstitutioner som orsakar en aminosyraförändring är icke-synonyma; de som inte gör det är synonyma. Förhållandet mellan icke-synonyma och synonyma substitutioner i en proteinkodande gen återspeglar det relativa inflytandet av positivt urval och neutral evolution. Flera metoder har utvecklats för att uppskatta antalet synonyma och icke-synonyma substitutioner mellan två sekvenser och program baserade på dessa metoder används ofta (t.ex. MEGA (Kumar et al., 2000), SNAP (Korber, 2000)). Dessa program ignorerar dock kodoner med alleliska blandningar.
Då kodoner med tvetydiga nukleotider orsakade av alleliska blandningar sannolikt genomgår en snabbare evolution än kodoner utan blandningar, har vi utvecklat ett program, Syn-SCAN, som beräknar synonyma och ickesynonyma substitutionshastigheter med hjälp av en modell som inkluderar genetiska blandningar. I denna modell är en viruspopulation som innehåller en enda nukleotid (t.ex. A) på en position evolutionärt närmare en population som innehåller en blandning av A och en andra nukleotid (t.ex. A/G = R) än en population som innehåller en annan nukleotid (G). Sådana partiella skillnader indikerar ofta att viruspopulationen inom en individ förändras, särskilt när den andra nukleotiden har uppstått under selektivt tryck av antiretrovirala läkemedel (Wei et al., 1995).
Syn-SCAN kräver att inmatningssekvenserna är flermässigt anpassade och placerade i lämplig läsram. Antalet potentiella synonyma (S) och icke-synonyma (N) substitutioner per sekvens beräknas genom att iterera genom varje kodon i en sekvens med hjälp av en hashtabell med antalet potentiella synonyma substitutioner för var och en av de 64 icke-ambiguösa kodonerna (figur 1a). Kodoner som innehåller tvetydiga nukleotider delas upp i sina komponentblandningar och S och N bestäms genom att medelvärdet av potentialen för synonyma och icke-synonyma substitutioner för varje komponent fastställs.
Tre datastrukturer som används av Syn-SCAN. Tabell 1 har 64 poster som innehåller antalet potentiella synonyma substitutioner för var och en av de icke-ambiguösa kodonerna. Tabell 2 har 4096 poster som innehåller antalet synonyma och icke-synonyma förändringar mellan två kodoner. Tabell 3 har 225 poster med nukleotidavståndspoäng mellan var och en av de tvetydiga och icke-tvetydiga nukleotiderna. Innehållet i tabell 3 ändras vid körning baserat på användardefinierade preferenser. syn, synonymous, nonsyn, non-synonymous.
Antalet synonyma (Sd) och icke-synonyma (Nd) skillnader mellan två sekvenser beräknas genom att iterera genom varje par av anpassade kodoner i två sekvenser. När skillnader mellan kodoner som saknar tvetydiga nukleotider påträffas bestäms omfattningen av synonymitet med hjälp av hashtabellen med antalet synonyma och icke-synonyma ändringar mellan två kodoner (figur 1b). När skillnader mellan kodoner med tvetydiga nukleotider påträffas används nukleotisubstitutionsmatrisen som innehåller både tvetydiga och icke-tvetydiga nukleotider (figur 1c) för att ändra omfattningen av synonymi som erhållits från hashtabellen i figur 1b.
Andelen synonyma (pS) substitutioner per sekvensjämförelse erhålls genom att dividera Sd med antalet potentiella synonyma platser (S). Andelen icke-synonyma (pN) substitutioner per sekvensjämförelse erhålls genom att dela Nd med antalet potentiella icke-synonyma platser (N). De synonyma (dS) och icke-synonyma avstånden (dN) beräknas genom att tillämpa Jukes-Cantor-korrigeringen för back-mutation. Programmets utdata innehåller varje distansmätning och textfiler med matriser av dS- och dN-värden i ett format som lämpar sig för analys med fylogenetiska program. Syn-SCAN är skrivet i Perl och körs i Windows- och Unix-miljöer.
Syn-SCAN genererar en nukleotidersättningsmatris vid körning baserat på ett av användaren valt viktningsschema. Standardviktningen tilldelar ett avstånd mellan två tvetydiga nukleotider och mellan en tvetydig och en icke-tvetydig nukleotid som är proportionell mot omfattningen av tvetydigheten (1- till 4-faldig) för var och en av nukleotiderna och omvänt proportionell mot antalet delade nukleotider (dvs. R och M delar en nukleotid, A). Detta viktningsschema rekommenderas eftersom det tar hänsyn till det faktum att när det förekommer blandningar kan en förändring i en nukleotidposition bero på en förändring i andelen av två konkurrerande populationer snarare än på en ny mutation. För att undersöka de resultat som skulle genereras av andra program som beräknar synonyma-icke-synonyma mutationsfrekvenser har användarna möjlighet att ignorera partiella skillnader.
Det finns två onlineimplementationer av Syn-SCAN. Den första accepterar sekvenser av alla proteinkodande gener. Den andra accepterar parade hiv-1-sekvenser som testats för läkemedelsresistens. Provdatasatser, liksom andra publicerade sekvensdatasatser (Condra et al., 1996; Bacheler et al., 2000) visar att mutationer som valts ut under antiretroviral läkemedelsbehandling fortsätter genom ett mellanliggande stadium där både vildtyp- och mutantrester förekommer. Syn-SCAN ger skattningar av det genetiska avståndet som tar hänsyn till detta mellanstadium, vilket gör programmet till ett unikt verktyg för kvantitativa studier av virusutveckling inom värdviruset.