Les virus à ARN hautement polymorphes tels que le virus de l’immunodéficience humaine de type 1 (VIH-1) et l’hépatite C existent au sein des individus comme une quasi-espèce de génomes hétérogènes mais étroitement apparentés (Martell et al., 1992 ; Coffin, 1995). Bien que le séquençage des virus clonaux permette de déterminer la séquence génétique des membres individuels d’une quasi-espèce virale, le séquençage direct par PCR « basé sur la population » est de plus en plus utilisé en raison de sa capacité à détecter les mélanges de nucléotides et de son moindre coût. Lorsque le séquençage direct par PCR est effectué sur du matériel génétique contenant des mélanges alléliques, la séquence résultante contient des nucléotides ambigus, tels que R (A/G) et M (A/C).
Les substitutions de nucléotides qui entraînent un changement d’acide aminé sont non synonymes ; celles qui ne le font pas sont synonymes. Le rapport entre les substitutions non synonymes et synonymes dans un gène codant pour une protéine reflète l’influence relative de la sélection positive et de l’évolution neutre. Plusieurs méthodes ont été développées pour estimer le nombre de substitutions synonymes et non-synonymes entre deux séquences et des programmes basés sur ces méthodes sont souvent utilisés (par exemple MEGA (Kumar et al., 2000), SNAP (Korber, 2000)). Ces programmes, cependant, ignorent les codons avec des mélanges alléliques.
Parce que les codons avec des nucléotides ambigus causés par des mélanges alléliques sont susceptibles de subir une évolution plus rapide que les codons sans mélanges, nous avons développé un programme, Syn-SCAN, qui calcule les taux de substitution synonyme et non-synonyme en utilisant un modèle qui inclut des mélanges génétiques. Dans ce modèle, une population de virus contenant un seul nucléotide (par exemple A) à une position est, du point de vue de l’évolution, plus proche d’une population contenant un mélange de A et d’un second nucléotide (par exemple A/G = R) que d’une population contenant un nucléotide différent (G). De telles différences partielles indiquent souvent que la population virale au sein d’un individu est en train de changer, en particulier lorsque le second nucléotide est apparu pendant la pression sélective des médicaments antirétroviraux (Wei et al., 1995).
Syn-SCAN nécessite que les séquences d’entrée soient alignées de manière multiple et positionnées dans le cadre de lecture approprié. Les nombres de substitutions synonymes (S) et non-synonymes (N) potentielles par séquence sont calculés en itérant à travers chaque codon d’une séquence en utilisant une table de hachage avec le nombre de substitutions synonymes potentielles pour chacun des 64 codons non-ambigus (Figure 1a). Les codons contenant des nucléotides ambigus sont décomposés en leurs mélanges de composants et S et N sont déterminés en faisant la moyenne du potentiel de substitutions synonymes et non synonymes pour chaque composant.
Trois structures de données utilisées par Syn-SCAN. La table 1 comporte 64 entrées contenant le nombre de substitutions synonymes potentielles pour chacun des codons non ambigus. La table 2 a 4096 entrées contenant le nombre de changements synonymes et non synonymes entre deux codons quelconques. Le tableau 3 comporte 225 entrées contenant les scores de distance nucléotidique entre chacun des nucléotides ambigus et non ambigus. Le contenu du tableau 3 est modifié au moment de l’exécution en fonction des préférences définies par l’utilisateur. syn, synonyme, nonsyn, non-synonyme.
Les nombres de différences synonymes (Sd) et non-synonymes (Nd) entre deux séquences sont calculés en itérant à travers chaque paire de codons alignés dans deux séquences. Lorsque des différences entre des codons dépourvus de nucléotides ambigus sont rencontrées, l’étendue de la synonymie est déterminée en utilisant la table de hachage avec le nombre de changements synonymes et non synonymes entre deux codons quelconques (figure 1b). Lorsque des différences entre des codons avec des nucléotides ambigus sont rencontrées, la matrice de substitution nucléotidique contenant des nucléotides ambigus et non ambigus (figure 1c) est utilisée pour modifier l’étendue de la synonymie obtenue à partir de la table de hachage de la figure 1b.
La proportion de substitutions synonymes (pS) par comparaison de séquences est obtenue en divisant Sd par le nombre de sites synonymes potentiels (S). La proportion de substitutions non-synonymes (pN) par comparaison de séquences est obtenue en divisant Nd par le nombre de sites non-synonymes potentiels (N). Les distances synonymes (dS) et non synonymes (dN) sont calculées en appliquant la correction de Jukes-Cantor pour la rétro-mutation. La sortie du programme contient chacune des mesures de distance et des fichiers texte contenant les matrices des valeurs dS et dN dans un format adapté à l’analyse par des programmes phylogénétiques. Syn-SCAN est écrit en Perl et s’exécute dans les environnements Windows et Unix.
Syn-SCAN génère une matrice de substitution nucléotidique au moment de l’exécution sur la base d’un schéma de pondération sélectionné par l’utilisateur. La pondération par défaut attribue une distance entre deux nucléotides ambigus et entre un nucléotide ambigu et un nucléotide non ambigu qui est proportionnelle à l’étendue de l’ambiguïté (1 à 4 fois) de chacun des nucléotides et inversement proportionnelle au nombre de nucléotides partagés (c’est-à-dire que R et M partagent un nucléotide, A). Ce schéma de pondération est recommandé car il tient compte du fait qu’en présence de mélanges, un changement à une position de nucléotide peut résulter d’un changement dans la proportion de deux populations concurrentes plutôt que d’une nouvelle mutation. Pour examiner les résultats qui seraient générés par d’autres programmes qui calculent les taux de mutation synonyme-non synonyme, les utilisateurs ont la possibilité d’ignorer les différences partielles.
Il existe deux implémentations en ligne de Syn-SCAN. La première accepte les séquences de tout gène codant pour une protéine. La seconde accepte des séquences appariées de VIH-1 testées pour la résistance aux médicaments. Les ensembles de données de l’échantillon, ainsi que d’autres ensembles de données de séquences publiés (Condra et al., 1996 ; Bacheler et al., 2000) indiquent que les mutations sélectionnées pendant la pharmacothérapie antirétrovirale passent par un stade intermédiaire dans lequel les résidus sauvages et mutants sont présents. Syn-SCAN fournit des estimations de la distance génétique qui tiennent compte de cette étape intermédiaire, ce qui fait du programme un outil unique pour les études quantitatives de l’évolution des virus intra-hôte.