Hoch polymorphe RNA-Viren wie das humane Immundefizienz-Virus Typ 1 (HIV-1) und Hepatitis C existieren innerhalb von Individuen als Quasispezies heterogener, aber eng verwandter Genome (Martell et al., 1992; Coffin, 1995). Obwohl mit der klonalen Virussequenzierung die genetische Sequenz einzelner Mitglieder einer Virus-Quasispezies bestimmt werden kann, wird die direkte PCR-Sequenzierung auf Populationsbasis wegen ihrer Fähigkeit, Nukleotidmischungen nachzuweisen, und wegen ihrer geringeren Kosten zunehmend eingesetzt. Bei der direkten PCR-Sequenzierung von genetischem Material, das allelische Mischungen enthält, enthält die resultierende Sequenz mehrdeutige Nukleotide wie R (A/G) und M (A/C).
Nukleotid-Substitutionen, die eine Aminosäureveränderung verursachen, sind nichtsynonym; solche, die dies nicht tun, sind synonym. Das Verhältnis von nichtsynonymen zu synonymen Substitutionen in einem proteinkodierenden Gen spiegelt den relativen Einfluss von positiver Selektion und neutraler Evolution wider. Es wurden mehrere Methoden entwickelt, um die Anzahl der synonymen und nichtsynonymen Substitutionen zwischen zwei Sequenzen zu schätzen, und Programme, die auf diesen Methoden basieren, werden häufig verwendet (z. B. MEGA (Kumar et al., 2000), SNAP (Korber, 2000)). Diese Programme ignorieren jedoch Codons mit allelischen Mischungen.
Da Codons mit mehrdeutigen Nukleotiden, die durch allelische Mischungen verursacht werden, wahrscheinlich eine schnellere Evolution durchlaufen als Codons ohne Mischungen, haben wir ein Programm, Syn-SCAN, entwickelt, das synonyme und nicht-synonyme Substitutionsraten anhand eines Modells berechnet, das genetische Mischungen einschließt. In diesem Modell ist eine Viruspopulation, die ein einzelnes Nukleotid (z. B. A) an einer Position enthält, evolutionär näher an einer Population, die eine Mischung aus A und einem zweiten Nukleotid (z. B. A/G = R) enthält, als an einer Population, die ein anderes Nukleotid (G) enthält. Solche partiellen Unterschiede deuten oft darauf hin, dass sich die Viruspopulation innerhalb eines Individuums verändert, insbesondere wenn das zweite Nukleotid während des selektiven antiretroviralen Medikamentendrucks entstanden ist (Wei et al., 1995).
Syn-SCAN erfordert, dass die Eingabesequenzen mehrfach ausgerichtet und im entsprechenden Leseraster positioniert werden. Die Anzahl der potenziellen synonymen (S) und nichtsynonymen (N) Substitutionen pro Sequenz wird berechnet, indem jedes Codon in einer Sequenz mit Hilfe einer Hash-Tabelle durchlaufen wird, die die Anzahl der potenziellen synonymen Substitutionen für jedes der 64 nicht eindeutigen Codons enthält (Abbildung 1a). Codons, die mehrdeutige Nukleotide enthalten, werden in ihre Komponentenmischungen zerlegt, und S und N werden durch Mittelung des Potenzials für synonyme und nicht-synonyme Substitutionen für jede Komponente bestimmt.
Drei von Syn-SCAN verwendete Datenstrukturen. Tabelle 1 hat 64 Einträge, die die Anzahl der potenziellen synonymen Substitutionen für jedes der nicht eindeutigen Codons enthalten. Tabelle 2 enthält 4096 Einträge mit der Anzahl der synonymen und nicht-synonymen Änderungen zwischen zwei beliebigen Codons. Tabelle 3 enthält 225 Einträge mit den Nukleotiddistanzwerten zwischen jedem der mehrdeutigen und nicht-mehrdeutigen Nukleotide. Der Inhalt von Tabelle 3 wird zur Laufzeit auf der Grundlage benutzerdefinierter Präferenzen geändert. syn, synonym, nonsyn, nichtsynonym.
Die Anzahl der synonymen (Sd) und nichtsynonymen (Nd) Unterschiede zwischen zwei Sequenzen wird durch Iteration durch jedes Paar ausgerichteter Codons in zwei Sequenzen berechnet. Wenn Unterschiede zwischen Codons ohne mehrdeutige Nukleotide auftreten, wird das Ausmaß der Synonymie anhand der Hash-Tabelle mit der Anzahl der synonymen und nichtsynonymen Änderungen zwischen zwei beliebigen Codons bestimmt (Abbildung 1b). Wenn Unterschiede zwischen Codons mit mehrdeutigen Nukleotiden auftreten, wird die Nukleotid-Substitutionsmatrix, die sowohl mehrdeutige als auch eindeutige Nukleotide enthält (Abbildung 1c), verwendet, um das aus der Hash-Tabelle in Abbildung 1b erhaltene Ausmaß der Synonymie zu modifizieren.
Der Anteil der synonymen (pS) Substitutionen pro Sequenzvergleich wird ermittelt, indem Sd durch die Anzahl der potenziellen synonymen Stellen (S) geteilt wird. Der Anteil der nicht-synonymen (pN) Substitutionen pro Sequenzvergleich ergibt sich aus der Division von Nd durch die Anzahl der potenziellen nichtsynonymen Stellen (N). Die synonymen (dS) und nicht-synonymen Abstände (dN) werden durch Anwendung der Jukes-Cantor-Korrektur für Rückmutation berechnet. Die Programmausgabe enthält alle Abstandsmessungen und Textdateien mit Matrizen der dS- und dN-Werte in einem für die Analyse durch phylogenetische Programme geeigneten Format. Syn-SCAN ist in Perl geschrieben und läuft in Windows- und Unix-Umgebungen.
Syn-SCAN erzeugt zur Laufzeit eine Nukleotid-Substitutionsmatrix, die auf einem vom Benutzer gewählten Gewichtungsschema basiert. Die Standardgewichtung weist einen Abstand zwischen zwei mehrdeutigen Nukleotiden und zwischen einem mehrdeutigen und einem nicht-mehrdeutigen Nukleotid zu, der proportional zum Ausmaß der Mehrdeutigkeit (1- bis 4-fach) jedes der Nukleotide und umgekehrt proportional zur Anzahl der gemeinsamen Nukleotide ist (d. h. R und M teilen sich ein Nukleotid, A). Dieses Gewichtungsschema wird empfohlen, weil es der Tatsache Rechnung trägt, dass bei Vorhandensein von Mischungen eine Veränderung an einer Nukleotidposition eher auf eine Veränderung des Anteils zweier konkurrierender Populationen als auf eine neue Mutation zurückzuführen sein kann. Um die Ergebnisse zu untersuchen, die andere Programme zur Berechnung von synonymen/nicht-synonymen Mutationsraten liefern würden, haben die Benutzer die Möglichkeit, partielle Unterschiede zu ignorieren.
Es gibt zwei Online-Implementierungen von Syn-SCAN. Die erste akzeptiert Sequenzen eines beliebigen proteinkodierenden Gens. Die zweite akzeptiert gepaarte HIV-1-Sequenzen, die auf Arzneimittelresistenz getestet wurden. Beispieldatensätze sowie andere veröffentlichte Sequenzdatensätze (Condra et al., 1996; Bacheler et al., 2000) weisen darauf hin, dass Mutationen, die während einer antiretroviralen Arzneimitteltherapie selektiert werden, ein Zwischenstadium durchlaufen, in dem sowohl Wildtyp- als auch Mutantenreste vorhanden sind. Syn-SCAN liefert Schätzungen des genetischen Abstands, die dieses Zwischenstadium berücksichtigen und das Programm zu einem einzigartigen Instrument für quantitative Studien zur Evolution von Viren innerhalb des Wirtes machen.