Vírus RNA altamente polimórficos como o vírus da imunodeficiência humana tipo 1 (HIV-1) e hepatite C existem dentro dos indivíduos como uma quasi-espécie de genomas heterogêneos mas intimamente relacionados (Martell et al., 1992; Coffin, 1995). Embora o sequenciamento clonal do vírus possa determinar a sequência genética de membros individuais de uma quase-espécie de vírus, o sequenciamento baseado na população por PCR directa é cada vez mais utilizado devido à sua capacidade de detectar misturas de nucleótidos e a um custo mais baixo. Quando o sequenciamento directo de PCR é feito em material genético contendo misturas alélicas, a sequência resultante contém nucleótidos ambíguos, tais como R (A/G) e M (A/C).
As substituições de nucleótidos que causam uma mudança de aminoácidos não são sinónimas; as que não são sinónimas. A razão entre substituições não-sinônimas e sinônimas em um gene codificador de proteínas reflete a influência relativa da seleção positiva e da evolução neutra. Vários métodos têm sido desenvolvidos para estimar o número de substituições sinônimas e não-sinônimas entre duas seqüências e programas baseados nestes métodos são usados com freqüência (por exemplo, MEGA (Kumar et al., 2000), SNAP (Korber, 2000)). Esses programas, entretanto, ignoram os códons com misturas alélicas.
Porque os códons com nucleotídeos ambíguos causados por misturas alélicas estão provavelmente passando por uma evolução mais rápida do que os códons sem misturas, desenvolvemos um programa, Syn-SCAN, que calcula taxas de substituição sinônimas e não-sinônimas usando um modelo que inclui misturas genéticas. Neste modelo, uma população de vírus contendo um único nucleotídeo (por exemplo, A) em uma posição está evolutivamente mais próxima de uma população contendo uma mistura de A e um segundo nucleotídeo (por exemplo, A/G = R) do que de uma população contendo um nucleotídeo diferente (G). Tais diferenças parciais frequentemente indicam que a população de vírus dentro de um indivíduo está mudando, particularmente quando o segundo nucleotídeo surgiu durante a pressão seletiva do medicamento antiretroviral (Wei et al., 1995).
Syn-SCAN requer que as seqüências de entrada sejam alinhadas e posicionadas no quadro de leitura apropriado. Os números de potenciais substituições sinônimas (S) e não sinônimas (N) por sequência são calculados iterando através de cada códon numa sequência usando uma tabela de hash com o número de potenciais substituições sinônimas para cada um dos 64 códons não ambíguos (Figura 1a). Códons contendo nucleotídeos ambíguos são divididos em suas misturas de componentes e S e N são determinados pela média do potencial de substituições sinônimas e não sinônimas para cada componente.
Três estruturas de dados usadas pelo Syn-SCAN. A Tabela 1 tem 64 entradas contendo o número de potenciais substituições sinônimas para cada um dos códons não ambíguos. A tabela 2 tem 4096 entradas contendo o número de alterações sinônimas e não sinônimas entre quaisquer dois códons. A Tabela 3 tem 225 entradas contendo pontuações de distância de nucleotídeos entre cada um dos nucleotídeos ambíguos e não ambíguos. O conteúdo da Tabela 3 é modificado em tempo de execução com base nas preferências definidas pelo usuário. syn, synonymous, nonsyn, non-synonymous.
Os números de diferenças de sinônimos (Sd) e não-sinônimos (Nd) entre duas seqüências são calculados iterando através de cada par de códons alinhados em duas seqüências. Quando são encontradas diferenças entre códons sem nucleotídeos ambíguos, a extensão da sinonímia é determinada usando a tabela hash com o número de mudanças sinônimas e não-sinônimas entre quaisquer dois códons (Figura 1b). Quando diferenças entre códons com nucleotídeos ambíguos são encontradas, a matriz de substituição de nucleotídeos contendo tanto os nucleotídeos ambíguos quanto os não ambíguos (Figura 1c) é usada para modificar a extensão da sinonímia obtida da tabela de hash na Figura 1b.
A proporção de substituições de sinônimos (pS) por comparação de seqüências é obtida dividindo Sd pelo número de sites sinônimos potenciais (S). A proporção de substituições não-sinônimas (pN) por comparação de seqüências é obtida dividindo Nd pelo número de sites potencialmente não-sinônimos (N). As distâncias sinônimas (dS) e não-sinônimas (dN) são calculadas através da aplicação da correção Jukes-Cantor para retro-mutação. A saída do programa contém cada uma das medidas de distância e arquivos de texto contendo matrizes de valores dS e dN em um formato adequado para análise por programas filogenéticos. Syn-SCAN é escrito em Perl e roda em ambientes Windows e Unix.
Syn-SCAN gera uma matriz de substituição de nucleotídeos em tempo de execução com base em um esquema de ponderação selecionado pelo usuário. A ponderação padrão atribui uma distância entre dois nucleotídeos ambíguos e entre um nucleotídeo ambíguo e um não ambíguo que é proporcional à extensão da ambiguidade (1 a 4 vezes) de cada um dos nucleotídeos e inversamente proporcional ao número de nucleotídeos compartilhados (ou seja, R e M compartilham um nucleotídeo, A). Este esquema de ponderação é recomendado porque explica o fato de que quando as misturas estão presentes, uma mudança na posição de um nucleotídeo pode resultar de uma mudança na proporção de duas populações concorrentes e não de uma nova mutação. Para examinar os resultados que seriam gerados por outros programas que calculam as taxas de mutação sinônimas não-sinônimas, os usuários têm a opção de ignorar as diferenças parciais.
Existem duas implementações on-line do Syn-SCAN. A primeira aceita seqüências de qualquer gene codificador de proteínas. A segunda aceita seqüências pareadas de HIV-1 testadas para resistência a drogas. Os conjuntos de dados de amostra, assim como outros conjuntos de dados de sequência publicados (Condra et al., 1996; Bacheler et al., 2000) indicam que as mutações selecionadas durante a terapia com medicamentos anti-retrovirais prosseguem através de um estágio intermediário no qual tanto os resíduos do tipo selvagem quanto os resíduos mutantes estão presentes. Syn-SCAN fornece estimativas de distância genética que levam em conta esse estágio intermediário tornando o programa uma ferramenta única para estudos quantitativos da evolução do vírus intra-hospedeiro.