Los virus de ARN altamente polimórficos, como el virus de la inmunodeficiencia humana tipo 1 (VIH-1) y el de la hepatitis C, existen dentro de los individuos como una cuasiespecie de genomas heterogéneos pero estrechamente relacionados (Martell et al., 1992; Coffin, 1995). Aunque la secuenciación clonal del virus puede determinar la secuencia genética de los miembros individuales de una cuasiespecie de virus, la secuenciación directa por PCR «basada en la población» se utiliza cada vez más debido a su capacidad para detectar mezclas de nucleótidos y a su menor coste. Cuando la secuenciación directa por PCR se realiza en material genético que contiene mezclas alélicas, la secuencia resultante contiene nucleótidos ambiguos, como R (A/G) y M (A/C).
Las sustituciones de nucleótidos que causan un cambio de aminoácidos son no sinónimas; las que no lo hacen son sinónimas. La proporción entre sustituciones no sinónimas y sinónimas en un gen codificador de proteínas refleja la influencia relativa de la selección positiva y la evolución neutra. Se han desarrollado varios métodos para estimar el número de sustituciones sinónimas y no sinónimas entre dos secuencias y se utilizan a menudo programas basados en estos métodos (por ejemplo, MEGA (Kumar et al., 2000), SNAP (Korber, 2000)). Sin embargo, estos programas ignoran los codones con mezclas alélicas.
Debido a que es probable que los codones con nucleótidos ambiguos causados por mezclas alélicas estén experimentando una evolución más rápida que los codones sin mezclas, desarrollamos un programa, Syn-SCAN, que calcula las tasas de sustitución sinónima y no sinónima utilizando un modelo que incluye mezclas genéticas. En este modelo, una población de virus que contiene un solo nucleótido (por ejemplo, A) en una posición está evolutivamente más cerca de una población que contiene una mezcla de A y un segundo nucleótido (por ejemplo, A/G = R) que de una población que contiene un nucleótido diferente (G). Estas diferencias parciales suelen indicar que la población de virus dentro de un individuo está cambiando, especialmente cuando el segundo nucleótido ha surgido durante la presión selectiva de los fármacos antirretrovirales (Wei et al., 1995).
Syn-SCAN requiere que las secuencias de entrada estén alineadas de forma múltiple y posicionadas en el marco de lectura apropiado. El número de posibles sustituciones sinónimas (S) y no sinónimas (N) por secuencia se calcula iterando a través de cada codón en una secuencia utilizando una tabla hash con el número de posibles sustituciones sinónimas para cada uno de los 64 codones no ambiguos (Figura 1a). Los codones que contienen nucleótidos ambiguos se descomponen en sus mezclas de componentes y S y N se determinan promediando el potencial de sustituciones sinónimas y no sinónimas para cada componente.
Tres estructuras de datos utilizadas por Syn-SCAN. La tabla 1 tiene 64 entradas que contienen el número de posibles sustituciones sinónimas para cada uno de los codones no ambiguos. La tabla 2 tiene 4096 entradas que contienen el número de cambios sinónimos y no sinónimos entre dos codones cualesquiera. La Tabla 3 tiene 225 entradas que contienen las puntuaciones de la distancia de los nucleótidos entre cada uno de los nucleótidos ambiguos y no ambiguos. El contenido de la Tabla 3 se modifica en tiempo de ejecución basándose en las preferencias definidas por el usuario. syn, sinónimo, nonsyn, no-sinónimo.
El número de diferencias sinónimas (Sd) y no sinónimas (Nd) entre dos secuencias se calcula iterando a través de cada par de codones alineados en dos secuencias. Cuando se encuentran diferencias entre codones que carecen de nucleótidos ambiguos, el grado de sinonimia se determina utilizando la tabla hash con el número de cambios sinónimos y no sinónimos entre dos codones cualesquiera (Figura 1b). Cuando se encuentran diferencias entre codones con nucleótidos ambiguos, se utiliza la matriz de sustitución de nucleótidos que contiene nucleótidos ambiguos y no ambiguos (Figura 1c) para modificar el grado de sinonimia obtenido a partir de la tabla hash de la Figura 1b.
La proporción de sustituciones sinónimas (pS) por comparación de secuencias se obtiene dividiendo Sd por el número de sitios sinónimos potenciales (S). La proporción de sustituciones no sinónimas (pN) por comparación de secuencias se obtiene dividiendo Nd por el número de sitios potenciales no sinónimos (N). Las distancias sinónimas (dS) y no sinónimas (dN) se calculan aplicando la corrección Jukes-Cantor para la retro-mutación. La salida del programa contiene cada una de las medidas de distancia y archivos de texto que contienen las matrices de los valores dS y dN en un formato adecuado para el análisis por parte de programas filogenéticos. Syn-SCAN está escrito en Perl y se ejecuta en entornos Windows y Unix.
Syn-SCAN genera una matriz de sustitución de nucleótidos en tiempo de ejecución basada en un esquema de ponderación seleccionado por el usuario. La ponderación por defecto asigna una distancia entre dos nucleótidos ambiguos y entre un nucleótido ambiguo y otro no ambiguo que es proporcional al grado de ambigüedad (de 1 a 4 veces) de cada uno de los nucleótidos e inversamente proporcional al número de nucleótidos compartidos (es decir, R y M comparten un nucleótido, A). Este esquema de ponderación se recomienda porque tiene en cuenta el hecho de que cuando hay mezclas, un cambio en una posición de nucleótido puede ser el resultado de un cambio en la proporción de dos poblaciones que compiten entre sí y no de una nueva mutación. Para examinar los resultados que generarían otros programas que calculan las tasas de mutación sinónimo-no sinónimo, los usuarios tienen la opción de ignorar las diferencias parciales.
Hay dos implementaciones en línea de Syn-SCAN. La primera acepta secuencias de cualquier gen codificador de proteínas. La segunda acepta secuencias emparejadas del VIH-1 sometidas a pruebas de resistencia a los medicamentos. Los conjuntos de datos de las muestras, así como otros conjuntos de datos de secuencias publicados (Condra et al., 1996; Bacheler et al., 2000) indican que las mutaciones seleccionadas durante el tratamiento con fármacos antirretrovirales pasan por una etapa intermedia en la que están presentes tanto los residuos de tipo salvaje como los mutantes. Syn-SCAN proporciona estimaciones de la distancia genética que tienen en cuenta esta etapa intermedia, lo que convierte al programa en una herramienta única para los estudios cuantitativos de la evolución del virus dentro del huésped.