Wysoko polimorficzne wirusy RNA, takie jak ludzki wirus niedoboru odporności typu 1 (HIV-1) i wirus zapalenia wątroby typu C istnieją w obrębie osobników jako quasispecies heterogenicznych, lecz blisko spokrewnionych genomów (Martell et al., 1992; Coffin, 1995). Chociaż sekwencjonowanie klonalne wirusa może określić sekwencję genetyczną dla poszczególnych członków quasispecies wirusa, coraz częściej stosuje się bezpośrednie sekwencjonowanie PCR `populacyjne’ ze względu na jego zdolność do wykrywania mieszanin nukleotydów i niższy koszt. Kiedy bezpośrednie sekwencjonowanie PCR jest wykonywane na materiale genetycznym zawierającym mieszaniny alleli, wynikowa sekwencja zawiera niejednoznaczne nukleotydy, takie jak R (A/G) i M (A/C).
Zastępstwa nukleotydów, które powodują zmianę aminokwasów są niesynonimiczne; te, które tego nie robią są synonimiczne. Stosunek substytucji niesynonimicznych do synonimicznych w genie kodującym białko odzwierciedla względny wpływ selekcji pozytywnej i ewolucji neutralnej. Opracowano kilka metod szacowania liczby substytucji synonimicznych i niesynonimicznych między dwiema sekwencjami, a programy oparte na tych metodach są często używane (np. MEGA (Kumar i in., 2000), SNAP (Korber, 2000)). Programy te jednak ignorują kodony z mieszaninami allelicznymi.
Ponieważ kodony z niejednoznacznymi nukleotydami spowodowanymi mieszaninami allelicznymi prawdopodobnie przechodzą szybszą ewolucję niż kodony bez mieszanin, opracowaliśmy program, Syn-SCAN, który oblicza synonimiczne i niesynonimiczne wskaźniki substytucji przy użyciu modelu uwzględniającego mieszaniny genetyczne. W tym modelu, populacja wirusa zawierająca pojedynczy nukleotyd (np. A) w danej pozycji jest ewolucyjnie bliższa populacji zawierającej mieszaninę A i drugiego nukleotydu (np. A/G = R) niż populacji zawierającej inny nukleotyd (G). Takie częściowe różnice często wskazują, że populacja wirusa w obrębie osobnika ulega zmianie, szczególnie gdy drugi nukleotyd pojawił się podczas selektywnej presji leków antyretrowirusowych (Wei i in., 1995).
Syn-SCAN wymaga, aby sekwencje wejściowe były wielokrotnie wyrównane i umieszczone w odpowiedniej ramce odczytu. Liczba potencjalnych substytucji synonimicznych (S) i niesynonimicznych (N) na sekwencję jest obliczana przez iterację przez każdy kodon w sekwencji przy użyciu tablicy hash z liczbą potencjalnych substytucji synonimicznych dla każdego z 64 nie-jednoznacznych kodonów (Rysunek 1a). Kodony zawierające niejednoznaczne nukleotydy są rozbijane na ich mieszaniny składowe, a S i N są wyznaczane przez uśrednienie potencjału dla substytucji synonimicznych i niesynonimicznych dla każdego składnika.
Trzy struktury danych używane przez Syn-SCAN. Tabela 1 ma 64 wpisy zawierające liczbę potencjalnych substytucji synonimicznych dla każdego z nieambiguicznych kodonów. Tabela 2 ma 4096 wpisów zawierających liczbę zmian synonimicznych i niesynonimicznych pomiędzy dwoma dowolnymi kodonami. Tabela 3 ma 225 wpisów zawierających wyniki odległości nukleotydów między każdym z dwuznacznych i nie dwuznacznych nukleotydów. Zawartość tabeli 3 jest modyfikowana w czasie wykonywania programu w oparciu o preferencje zdefiniowane przez użytkownika. syn, synonymous, nonsyn, non-synonymous.
Liczby różnic synonimicznych (Sd) i niesynonimicznych (Nd) między dwiema sekwencjami są obliczane przez iterację przez każdą parę wyrównanych kodonów w dwóch sekwencjach. Gdy napotykane są różnice między kodonami pozbawionymi niejednoznacznych nukleotydów, stopień synonimiczności jest określany przy użyciu tablicy hash z liczbą zmian synonimicznych i niesynonimicznych między dwoma dowolnymi kodonami (Rysunek 1b). W przypadku napotkania różnic między kodonami z niejednoznacznymi nukleotydami, matryca substytucji nukleotydów zawierająca zarówno niejednoznaczne, jak i jednoznaczne nukleotydy (rysunek 1c) jest używana do modyfikacji zakresu synonimii uzyskanej z tabeli haszującej z rysunku 1b.
Proporcja substytucji synonimicznych (pS) na porównanie sekwencji jest uzyskiwana przez podzielenie Sd przez liczbę potencjalnych miejsc synonimicznych (S). Proporcja niesynonimicznych (pN) substytucji na porównanie sekwencji jest otrzymywana przez podzielenie Nd przez liczbę potencjalnych miejsc niesynonimicznych (N). Odległości synonimiczne (dS) i niesynonimiczne (dN) obliczane są przez zastosowanie poprawki Jukesa-Cantora dla mutacji wstecznych. Wyjście programu zawiera każdy z pomiarów odległości oraz pliki tekstowe zawierające macierze wartości dS i dN w formacie odpowiednim do analizy przez programy filogenetyczne. Syn-SCAN jest napisany w Perlu i działa w środowiskach Windows i Unix.
Syn-SCAN generuje macierz substytucji nukleotydów w czasie pracy w oparciu o wybrany przez użytkownika schemat ważenia. Domyślne ważenie przypisuje odległość pomiędzy dwoma niejednoznacznymi nukleotydami oraz pomiędzy nukleotydem niejednoznacznym i niejednoznacznym, która jest proporcjonalna do stopnia niejednoznaczności (1- do 4-krotnej) każdego z nukleotydów i odwrotnie proporcjonalna do liczby współdzielonych nukleotydów (np. R i M dzielą jeden nukleotyd, A). Ten schemat ważenia jest zalecany, ponieważ uwzględnia on fakt, że gdy obecne są mieszaniny, zmiana w pozycji nukleotydu może wynikać ze zmiany w proporcji dwóch konkurujących populacji, a nie z nowej mutacji. Aby zbadać wyniki, które zostałyby wygenerowane przez inne programy, które obliczają wskaźniki mutacji synonimicznych-nie-synonimicznych, użytkownicy mają opcję ignorowania częściowych różnic.
Istnieją dwie implementacje online Syn-SCAN. Pierwsza akceptuje sekwencje dowolnego genu kodującego białko. Druga akceptuje sparowane sekwencje HIV-1 badane pod kątem oporności na leki. Przykładowe zestawy danych, jak również inne opublikowane zestawy danych sekwencyjnych (Condra et al., 1996; Bacheler et al., 2000) wskazują, że mutacje wyselekcjonowane podczas terapii lekami antyretrowirusowymi przechodzą przez etap pośredni, w którym obecne są zarówno pozostałości dzikie, jak i zmutowane. Syn-SCAN dostarcza oszacowań odległości genetycznej, które biorą pod uwagę ten pośredni etap, co czyni ten program unikalnym narzędziem do ilościowych badań ewolucji wirusów wewnątrz gospodarza.