ヒト免疫不全ウイルス1型(HIV-1)やC型肝炎などの高多型RNAウイルスは、個体内で異種ながら近縁なゲノムの準種として存在している(Martell et al, 1992; Coffin, 1995)。 クローンウイルスの配列決定により、ウイルス準種の個々のメンバーの遺伝子配列を決定することができるが、ヌクレオチドの混合物を検出する能力があり、コストが低いため、直接PCRによる「集団ベース」配列決定がますます使用されるようになっている。 対立遺伝子が混在する遺伝物質に対して直接PCR法による配列決定を行った場合、得られる配列にはR(A/G)やM(A/C)のような曖昧なヌクレオチドが含まれる。
アミノ酸変化を引き起こすヌクレオチド置換は非同義であり、そうでないものは同義である。 タンパク質をコードする遺伝子における非同義置換と同義置換の比率は、正の選択と中立的進化の相対的な影響力を反映している。 2つの配列間の同義置換と非同義置換の数を推定する方法はいくつか開発されており、これらの方法に基づいたプログラムがよく使われている(例えば、MEGA (Kumar et al., 2000), SNAP (Korber, 2000)). しかし、これらのプログラムは対立遺伝子の混在するコドンを無視している。
対立遺伝子の混在によって曖昧な塩基を持つコドンは、混在しないコドンよりも急速に進化していると考えられるので、遺伝子の混在を含むモデルを使って同義および非同義置換率を計算するプログラム、Syn-SCANを開発した。 このモデルでは、ある位置に単一のヌクレオチド(例えばA)を含むウイルス集団は、異なるヌクレオチド(G)を含む集団よりも、Aと第2のヌクレオチドの混合物(例えばA/G = R)を含む集団に進化的に近いとされる。 このような部分的な違いは、個体内のウイルス集団が変化していることを示すことが多く、特に選択的な抗レトロウイルス薬の圧力の間に第2のヌクレオチドが出現した場合(Weiら、1995)
Syn-SCAN では、入力配列を多重に整列し適切なリーディングフレームに配置することが必要です。 配列ごとの潜在的な同義(S)および非同義(N)置換の数は、64個の非曖昧なコドンのそれぞれについて潜在的な同義置換の数を持つハッシュテーブルを使用して配列内の各コドンを反復することによって計算される(図1a)。 941>
Syn-SCANで使用される3つのデータ構造。 表1は、曖昧でないコドンのそれぞれについて、潜在的な同義置換の数を含む64の項目を持つ。 表2は、任意の2つのコドン間の同義および非同義置換の数を含む4096のエントリーを有する。 表3は、曖昧なヌクレオチドと非曖昧なヌクレオチドのそれぞれの間のヌクレオチド距離スコアを含む225のエントリを有する。 表3の内容は、ユーザー定義のプリファレンスに基づいて実行時に変更される。 syn, synonymous, nonsyn, non-synonymous.
二つの配列間の同義(Sd)および非同義(Nd)差異の数は、二つの配列内の整列したコドンの各組を通して反復することにより計算される。 曖昧なヌクレオチドを欠くコドン間の差異が生じた場合、任意の2つのコドン間の同義的および非同義的変化の数でハッシュテーブルを使用して同義性の程度を決定する(図1b)。 曖昧なヌクレオチドを持つコドン間の差異が発生した場合、曖昧なヌクレオチドと曖昧でないヌクレオチドの両方を含むヌクレオチド置換行列(図1c)を使用して、図1bのハッシュテーブルから得られたsynonymyの範囲を修正する。
配列比較あたりの同義置換(pS)割合は、Sdを潜在的同義部位(S)の数で割って得られる。 配列比較あたりの非同義置換の割合(pN)は、Ndを潜在的な非同義部位(N)の数で割ることによって得られる。 同義語距離(dS)と非同義語距離(dN)は、バックミューテーションに対するJukes-Cantor補正を適用して計算される。 プログラムの出力には、各距離測定値と、dSとdN値の行列を含むテキストファイルが、系統解析プログラムによる解析に適した形式で含まれています。 Syn-SCAN は Perl で書かれており、Windows と Unix 環境で動作します。
Syn-SCAN はユーザーが選択した重み付けスキームに基づいて、実行時に塩基置換行列を生成します。 デフォルトの重み付けでは、2 つのあいまいなヌクレオチド間およびあいまいなヌクレオチドとそうでないヌクレオチド間の距離は、それぞれのヌクレオチドのあいまいさの程度 (1 ~ 4 倍) に比例し、共有ヌクレオチドの数 (R と M は A というヌクレオチドを共有している) に反比例するように設定されています。 この重み付けは、混合物が存在する場合、ヌクレオチドの位置での変化は、新しい突然変異からではなく、2つの競合する集団の割合の変化から生じる場合があるという事実を考慮しているため、推奨されています。 同義性-非同義性突然変異率を計算する他のプログラムによって生成されるであろう結果を調べるために、ユーザーは部分的な差異を無視するオプションを持っている
Syn-SCANのオンライン実装は2つある。 1つは任意のタンパク質コード化遺伝子の配列を受け入れるものである。 もう1つは薬剤耐性についてテストされたHIV-1配列のペアを受け入れるものである。 サンプルデータセットと他の公表された配列データセット(Condraら、1996;Bachelerら、2000)は、抗レトロウイルス薬治療中に選択された突然変異が、野生型と突然変異の両方の残基が存在する中間段階を経て進行することを示している。 Syn-SCANはこの中間段階を考慮した遺伝的距離の推定値を提供し、このプログラムは宿主内ウイルス進化の定量的研究のためのユニークなツールとなっている
。