Az olyan erősen polimorf RNS-vírusok, mint az 1-es típusú humán immunhiányvírus (HIV-1) és a hepatitis C vírus, heterogén, de szorosan rokon genomokból álló kvázifajként léteznek egyéneken belül (Martell et al., 1992; Coffin, 1995). Bár a klonális vírusszekvenálás képes meghatározni a vírus kvázifajok egyes tagjainak genetikai szekvenciáját, a közvetlen PCR “populáció-alapú” szekvenálást egyre gyakrabban alkalmazzák, mivel képes a nukleotidkeverékek kimutatására és alacsonyabb költséggel jár. Amikor a közvetlen PCR-szekvenálást allélkeverékeket tartalmazó genetikai anyagon végzik, a kapott szekvencia kétértelmű nukleotidokat tartalmaz, például R (A/G) és M (A/C).
Az aminosavváltozást okozó nukleotidcserék nem szinonimak, a nem szinonimak szinonimak. A nem szinonim és szinonim szubsztitúciók aránya egy fehérjét kódoló génben a pozitív szelekció és a semleges evolúció relatív hatását tükrözi. Két szekvencia közötti szinonim és nem szinonim szubsztitúciók számának becslésére számos módszert dolgoztak ki, és az ezeken alapuló programokat gyakran használják (pl. MEGA (Kumar et al., 2000), SNAP (Korber, 2000)). Ezek a programok azonban figyelmen kívül hagyják az allélkeveredésekkel rendelkező kodonokat.
Miatt az allélkeveredések által okozott kétértelmű nukleotidokat tartalmazó kodonok valószínűleg gyorsabb evolúción mennek keresztül, mint a keveredés nélküli kodonok, kifejlesztettünk egy programot, a Syn-SCAN-t, amely a szinonim és nem-szinonim szubsztitúciós rátákat egy olyan modell segítségével számítja ki, amely tartalmazza a genetikai keveredéseket. Ebben a modellben egy olyan víruspopuláció, amely egy pozícióban egyetlen nukleotidot (pl. A) tartalmaz, evolúciósan közelebb áll egy olyan populációhoz, amely A és egy másik nukleotid keverékét tartalmazza (pl. A/G = R), mint egy másik nukleotidot (G) tartalmazó populációhoz. Az ilyen részleges különbségek gyakran jelzik, hogy az egyénen belüli víruspopuláció változik, különösen akkor, ha a második nukleotid a szelektív antiretrovirális gyógyszernyomás során alakult ki (Wei és mtsai., 1995).
A Syn-SCAN megköveteli, hogy a bemeneti szekvenciákat többszörösen összehangolják és a megfelelő olvasási keretbe helyezzék. A potenciális szinonim (S) és nem szinonim (N) helyettesítések számát szekvenciánként úgy számoljuk ki, hogy a szekvencia minden egyes kodonján végigmegyünk egy hash-táblázat segítségével, amely a 64 nem egyértelmű kodon mindegyikéhez tartalmazza a potenciális szinonim helyettesítések számát (1a. ábra). A kétértelmű nukleotidokat tartalmazó kodonokat komponenskeverékekre bontjuk, és az S és N értékeket az egyes komponensek szinonim és nem szinonim helyettesítések potenciális értékének átlagolásával határozzuk meg.
A Syn-SCAN által használt három adatszerkezet. Az 1. táblázat 64 bejegyzést tartalmaz, amelyek a potenciális szinonim szubsztitúciók számát tartalmazzák az egyes nem egyértelmű kodonokhoz. A 2. táblázat 4096 bejegyzést tartalmaz, amelyek a szinonim és nem szinonim változások számát tartalmazzák bármely két kodon között. A 3. táblázat 225 bejegyzést tartalmaz, amelyek az egyes kétértelmű és nem egyértelmű nukleotidok közötti nukleotid-távolsági pontszámokat tartalmazzák. A 3. táblázat tartalma futásidőben módosul a felhasználó által meghatározott preferenciák alapján. syn, synonymous, nonsyn, non-synonymous.
A két szekvencia közötti szinonim (Sd) és nem-szinonim (Nd) különbségek számát két szekvencia minden egyes összehangolt kodonpárjának iterálásával számítjuk ki. Ha kétértelmű nukleotidokat nem tartalmazó kodonok közötti különbségekkel találkozunk, a szinonimitás mértékét a bármely két kodon közötti szinonim és nem szinonim változások számát tartalmazó hash-táblázat segítségével határozzuk meg (1b. ábra). Ha kétértelmű nukleotidokat tartalmazó kodonok közötti különbségekkel találkozunk, a kétértelmű és nem egyértelmű nukleotidokat egyaránt tartalmazó nukleotidhelyettesítési mátrixot (1c. ábra) használjuk az 1b. ábrán látható hash-táblából kapott szinonímia mértékének módosítására.
A szekvencia-összehasonlításonként a szinonim helyettesítések (pS) arányát úgy kapjuk meg, hogy az Sd-t elosztjuk a potenciális szinonim helyek számával (S). A nem szinonim helyettesítések arányát (pN) szekvencia-összehasonlításonként úgy kapjuk meg, hogy az Nd-t elosztjuk a potenciális nem szinonim helyek számával (N). A szinonim (dS) és nem szinonim távolságokat (dN) a Jukes-Cantor korrekció alkalmazásával számoljuk ki a visszamutációra. A program kimenete tartalmazza az egyes távolságméréseket és a dS és dN értékek mátrixait tartalmazó szöveges fájlokat filogenetikai programokkal történő elemzésre alkalmas formátumban. A Syn-SCAN Perl nyelven íródott, és Windows és Unix környezetben fut.
A Syn-SCAN futásidőben generál egy nukleotid szubsztitúciós mátrixot a felhasználó által kiválasztott súlyozási séma alapján. Az alapértelmezett súlyozás olyan távolságot rendel két kétértelmű nukleotid, illetve egy kétértelmű és egy nem kétértelmű nukleotid közé, amely arányos az egyes nukleotidok kétértelműségének mértékével (1-4-szeres) és fordítottan arányos a közös nukleotidok számával (azaz R és M egy nukleotidot, A-t oszt meg). Ez a súlyozási séma azért ajánlott, mert figyelembe veszi azt a tényt, hogy keverékek jelenléte esetén egy nukleotidpozícióban bekövetkező változás inkább a két konkurens populáció arányának változásából, mint egy új mutációból eredhet. A szinonim-nem-szinonim mutációs arányokat kiszámító más programok által generált eredmények vizsgálatához a felhasználóknak lehetőségük van a részleges különbségek figyelmen kívül hagyására.
A Syn-SCAN-nak két online implementációja létezik. Az első bármilyen fehérjét kódoló gén szekvenciáit elfogadja. A második a gyógyszerrezisztencia szempontjából vizsgált párosított HIV-1 szekvenciákat fogadja el. A mintaadatsorok, valamint más publikált szekvencia-adatsorok (Condra et al., 1996; Bacheler et al., 2000) azt mutatják, hogy az antiretrovirális gyógyszeres terápia során szelektált mutációk egy olyan köztes szakaszon haladnak keresztül, amelyben vad típusú és mutáns maradékok egyaránt jelen vannak. A Syn-SCAN olyan genetikai távolságbecsléseket ad, amelyek figyelembe veszik ezt a köztes szakaszt, így a program egyedülálló eszközzé válik a vírusok gazdán belüli evolúciójának kvantitatív vizsgálatához.