Virus a RNA altamente polimorfici come il virus dell’immunodeficienza umana di tipo 1 (HIV-1) e l’epatite C esistono negli individui come una quasispecie di genomi eterogenei ma strettamente correlati (Martell et al., 1992; Coffin, 1995). Anche se il sequenziamento clonale dei virus può determinare la sequenza genetica per i singoli membri di una quasispecie di virus, il sequenziamento diretto-PCR “basato sulla popolazione” è sempre più utilizzato per la sua capacità di rilevare miscele nucleotidiche e per il costo inferiore. Quando il sequenziamento PCR diretto è fatto su materiale genetico contenente miscele alleliche, la sequenza risultante contiene nucleotidi ambigui, come R (A/G) e M (A/C).
Le sostituzioni nucleotidiche che causano un cambiamento di aminoacido sono non-sinonime; quelle che non lo fanno sono sinonime. Il rapporto tra sostituzioni non sinonime e sinonime in un gene che codifica una proteina riflette l’influenza relativa della selezione positiva e dell’evoluzione neutrale. Diversi metodi sono stati sviluppati per stimare il numero di sostituzioni sinonime e non sinonime tra due sequenze e programmi basati su questi metodi sono usati spesso (per esempio MEGA (Kumar et al., 2000), SNAP (Korber, 2000)). Questi programmi, tuttavia, ignorano i codoni con miscele alleliche.
Perché i codoni con nucleotidi ambigui causati da miscele alleliche sono probabilmente sottoposti a un’evoluzione più rapida rispetto ai codoni senza miscele, abbiamo sviluppato un programma, Syn-SCAN, che calcola i tassi di sostituzione sinonimi e non-sinonimi usando un modello che include miscele genetiche. In questo modello, una popolazione di virus che contiene un singolo nucleotide (per esempio A) in una posizione è evolutivamente più vicina a una popolazione che contiene una miscela di A e un secondo nucleotide (per esempio A/G = R) che a una popolazione che contiene un altro nucleotide (G). Tali differenze parziali spesso indicano che la popolazione del virus all’interno di un individuo sta cambiando, in particolare quando il secondo nucleotide è emerso durante la pressione selettiva dei farmaci antiretrovirali (Wei et al., 1995).
Syn-SCAN richiede che le sequenze di input siano allineate in modo multiplo e posizionate nel frame di lettura appropriato. Il numero di potenziali sostituzioni sinonime (S) e non sinonime (N) per sequenza viene calcolato iterando attraverso ogni codone in una sequenza utilizzando una tabella di hash con il numero di potenziali sostituzioni sinonime per ognuno dei 64 codoni non ambigui (Figura 1a). I codoni che contengono nucleotidi ambigui sono suddivisi nelle loro miscele di componenti e S e N sono determinati facendo la media delle potenziali sostituzioni sinonime e non sinonime per ogni componente.
Tre strutture dati usate da Syn-SCAN. La tabella 1 ha 64 voci che contengono il numero di potenziali sostituzioni sinonime per ciascuno dei codoni non ambigui. La tabella 2 ha 4096 voci che contengono il numero di cambiamenti sinonimi e non sinonimi tra due codoni qualsiasi. La tabella 3 ha 225 voci che contengono i punteggi di distanza nucleotidica tra ciascuno dei nucleotidi ambigui e non ambigui. Il contenuto della Tabella 3 viene modificato in fase di esecuzione in base alle preferenze definite dall’utente. syn, synonymous, nonsyn, non-synonymous.
Il numero di differenze sinonime (Sd) e non-sinonime (Nd) tra due sequenze viene calcolato iterando attraverso ogni coppia di codoni allineati in due sequenze. Quando si incontrano differenze tra codoni privi di nucleotidi ambigui, il grado di sinonimia viene determinato utilizzando la tabella hash con il numero di cambiamenti sinonimi e non sinonimi tra due codoni qualsiasi (Figura 1b). Quando si incontrano differenze tra codoni con nucleotidi ambigui, la matrice di sostituzione nucleotidica contenente sia nucleotidi ambigui che non ambigui (Figura 1c) viene utilizzata per modificare l’estensione della sinonimia ottenuta dalla tabella hash in Figura 1b.
La proporzione di sostituzioni sinonime (pS) per confronto di sequenza si ottiene dividendo Sd per il numero di potenziali siti sinonimi (S). La proporzione di sostituzioni non sinonime (pN) per confronto di sequenza si ottiene dividendo Nd per il numero di potenziali siti non sinonimi (N). Le distanze sinonime (dS) e non-sinonime (dN) sono calcolate applicando la correzione Jukes-Cantor per la retro-mutazione. L’output del programma contiene ciascuna delle misure di distanza e dei file di testo contenenti le matrici dei valori dS e dN in un formato adatto all’analisi dei programmi filogenetici. Syn-SCAN è scritto in Perl e funziona in ambienti Windows e Unix.
Syn-SCAN genera una matrice di sostituzione nucleotidica in tempo reale basata su uno schema di ponderazione selezionato dall’utente. La ponderazione predefinita assegna una distanza tra due nucleotidi ambigui e tra un nucleotide ambiguo e uno non ambiguo che è proporzionale al grado di ambiguità (da 1 a 4 volte) di ciascuno dei nucleotidi e inversamente proporzionale al numero di nucleotidi condivisi (cioè R e M condividono un nucleotide, A). Questo schema di ponderazione è raccomandato perché tiene conto del fatto che quando sono presenti miscele, un cambiamento in una posizione di nucleotide può derivare da un cambiamento nella proporzione di due popolazioni concorrenti piuttosto che da una nuova mutazione. Per esaminare i risultati che sarebbero generati da altri programmi che calcolano i tassi di mutazione sinonimi-non sinonimi, gli utenti hanno la possibilità di ignorare le differenze parziali.
Ci sono due implementazioni online di Syn-SCAN. La prima accetta sequenze di qualsiasi gene codificante proteine. La seconda accetta sequenze accoppiate di HIV-1 testate per la resistenza ai farmaci. I set di dati campione, così come altri set di dati di sequenze pubblicati (Condra et al., 1996; Bacheler et al., 2000) indicano che le mutazioni selezionate durante la terapia farmacologica antiretrovirale procedono attraverso uno stadio intermedio in cui sono presenti sia residui wildtype che mutanti. Syn-SCAN fornisce stime della distanza genetica che tengono conto di questo stadio intermedio rendendo il programma uno strumento unico per gli studi quantitativi dell’evoluzione dei virus intra-ospite.