高校生物では、木村資生が提唱した中立進化論を「進化の大部分は自然選択ではなく中立的な突然変異の偶然の固定によって起こる」と概念的に学びます。分子時計についても「分子レベルの変化は一定の速度で蓄積する」という概念を知っています。しかし、なぜ中立な変異の固定確率がちょうど $1/(2N)$ になるのか、なぜ分子時計が成り立つのか、その数学的な根拠を問われると答えに窮するのではないでしょうか。
この記事では、中立進化論の核心を数式で導出し、分子時計が成立するメカニズムを明らかにします。さらに、同義置換と非同義置換の比(dN/dS比)という強力なツールを紹介し、ゲノム配列から自然選択の痕跡を検出する方法を学びます。中立進化の数理は、現代のゲノム科学を支える定量的基盤です。
高校生物では、進化の原動力として自然選択(有利な形質が集団中に広まる)と遺伝的浮動(偶然による対立遺伝子頻度の変動)の2つを学びます。そのうえで、1968年に木村資生が提唱した中立進化論(中立説)が紹介されます。中立説の主張は、「分子レベルでの進化的変化の大部分は、自然選択によるものではなく、選択的に中立な(有利でも不利でもない)突然変異の遺伝的浮動による偶然の固定によって起こる」というものです。
高校では分子時計の概念も学びます。タンパク質(ヘモグロビンやシトクロム $c$ など)のアミノ酸配列の違いを種間で比較すると、分岐してからの時間にほぼ比例してアミノ酸置換が蓄積していることがわかります。この一定速度の置換蓄積を「分子時計」と呼び、種の分岐年代を推定するのに使えるという話です。
しかし、高校の内容だけでは次の問いに答えられません。中立な変異が集団に固定される確率は具体的にいくつなのか。なぜ分子時計は集団サイズに依存しないのか。そして、ある遺伝子に自然選択が働いているかどうかを、配列データだけから判定する方法はあるのか。次のセクションで、大学の視点からこれらの問いに答えていきます。
中立進化の数理から、一見不思議な結論が導かれます。中立な変異の進化速度(単位時間あたりの置換数)は、集団サイズに依存せず、突然変異率 $\mu$ だけで決まる。これが分子時計の数理的根拠です。集団が大きくても小さくても、中立な分子進化の速度は同じなのです。
さらに、この理論から逆に「中立からのずれ」を検出する方法が生まれます。dN/dS比が1から外れていれば、その遺伝子には自然選択が働いている証拠となります。中立進化は、選択を検出するための帰無仮説(null model)として機能するのです。
では、この結論を導くために、まず中立突然変異の固定確率を数学的に求めるところから始めましょう。
ある集団に新しい突然変異が1個体に生じたとします。この変異が世代を経て集団全体に広がり、すべての個体がこの変異を持つようになることを固定(fixation)と呼びます。逆に、変異が集団から消失することもあります。中立な変異の場合、有利でも不利でもないので、その運命は純粋に偶然(遺伝的浮動)で決まります。
二倍体生物の集団サイズを $N$(個体数)とすると、集団全体の遺伝子コピー数は $2N$ です。ある時点で、新しい中立変異が1コピーだけ存在するとしましょう。この変異の集団中での頻度は $p = 1/(2N)$ です。
中立変異の場合、各遺伝子コピーは次の世代に残る確率が等しいため、ある対立遺伝子が最終的に固定される確率は、現在の頻度そのものに等しいということが数学的に示せます。これは遺伝的浮動の理論における基本的な結果です。
集団に $2N$ 個の遺伝子コピーがあるとします。十分な時間が経つと、遺伝的浮動によっていずれ1つの対立遺伝子が固定されます(すべてのコピーが同一の祖先コピーに由来する状態になります)。
中立の場合、どのコピーが「勝者」になるかは完全にランダムです。つまり、$2N$ 個のコピーのどれもが、固定される確率は等しく $1/(2N)$ です。
いま注目している変異が $i$ コピー存在するなら、「$2N$ 個のうちのどれか $i$ 個」が勝者になる確率は $i/(2N)$ です。したがって、
中立変異の固定確率 $= $ その変異の現在の頻度 $p$
新しい変異が1コピーだけ存在する場合、$p = 1/(2N)$ なので、
$$P_{\mathrm{fix}} = \frac{1}{2N}$$
$$P_{\mathrm{fix}} = \frac{1}{2N}$$
$N$ は二倍体集団の個体数、$2N$ は遺伝子コピーの総数。新たに生じた中立変異(1コピー)が集団全体に固定される確率は $1/(2N)$ である。集団が大きいほど固定確率は低いが、後述のように進化速度には影響しない。
この結果を具体的な数値で感じてみましょう。集団サイズ $N = 10{,}000$ の集団では、新しい中立変異が固定される確率は $1/20{,}000 = 0.005\%$ です。ほとんどの変異は消失する運命にあります。しかし、突然変異は毎世代大量に生じるため、ごくまれに固定される変異が確実に存在し、これが分子レベルの進化を駆動するのです。
誤:固定確率が $1/(2N)$ ときわめて低いのだから、中立進化はほとんど起こらないはずだ
正:毎世代、集団全体で膨大な数の新しい中立変異が生じます。1個体あたりの中立突然変異率を $\mu$ とすると、集団全体では毎世代 $2N\mu$ 個の新しい中立変異が生じます。各変異の固定確率は $1/(2N)$ でも、変異の供給量が $2N\mu$ 個あるため、単位時間あたりの固定数(進化速度)は $2N\mu \times 1/(2N) = \mu$ となり、集団サイズに依存しません。この計算が次のセクションの核心です。
ここまでで中立変異の固定確率が $1/(2N)$ であることを導きました。次に、この結果を使って分子時計が成立するメカニズムを数学的に示します。
置換(substitution)とは、新しい突然変異が集団に固定されることを指します。突然変異(mutation)が個体レベルで起こる事象であるのに対し、置換(substitution)は集団レベルで完了する事象です。分子時計が成り立つかどうかは、この置換の速度が一定かどうかで決まります。
単位時間(1世代)あたりの置換速度 $k$ を求めましょう。これは「新たに生じる変異の数」$\times$「各変異の固定確率」で計算できます。
Step 1:毎世代、集団全体で生じる新しい中立変異の数を求める。
二倍体集団のサイズを $N$(個体数)、1遺伝子座あたり1世代あたりの中立突然変異率を $\mu$ とすると、集団には $2N$ 個の遺伝子コピーがあるので、毎世代新たに生じる中立変異の数は、
$$2N\mu$$
Step 2:各変異の固定確率を代入する。
セクション3で導いた通り、各中立変異の固定確率は $1/(2N)$ です。
Step 3:置換速度 $k$ を計算する。
$$k = 2N\mu \times \frac{1}{2N} = \mu$$
$$k = \mu$$
中立な分子進化の置換速度 $k$(1世代あたりの置換数)は、突然変異率 $\mu$ に等しい。集団サイズ $N$ はキャンセルされ、置換速度に影響しない。これが分子時計の数理的根拠である。
この結果は直観に反するかもしれません。集団が大きければ新しい変異はたくさん生じますが、各変異の固定確率は低くなります。集団が小さければ変異の供給は少ないですが、各変異の固定確率は高くなります。この2つの効果がちょうど相殺し、結局は突然変異率 $\mu$ だけが残るのです。
分子時計が完全に規則正しい時計であるなら、一定時間に起こる置換の数はばらつきません。しかし実際には、置換は確率的に起こるため、ある程度のばらつきがあります。このばらつきの程度を定量的に評価するのが分散/平均比(index of dispersion, $R$)です。
もし置換がポアソン過程(完全にランダムに一定速度で起こる過程)に従うなら、一定時間 $t$ に起こる置換数の平均は $\mu t$、分散も $\mu t$ であり、分散/平均比は $R = 1$ となります。
$$R = \frac{\sigma^2}{\bar{k}t}$$
実際のタンパク質の分子時計を調べると、$R$ は1を超える場合が多いことがわかっています($R \approx 2$--$3$ の例が多い)。これは、置換速度が系統間で変動していること(rate heterogeneity)を示唆しています。世代時間の違い、突然変異率の変動、弱い選択の影響などが原因と考えられます。
分散/平均比が1を大きく超える現象は、木村の中立説だけでは完全には説明できませんでした。太田朋子は1973年にほぼ中立説(nearly neutral theory)を提唱し、完全に中立ではなく「わずかに有害な」変異($|s| \approx 1/(2N_e)$ 程度の選択係数を持つ変異)が重要であると主張しました。集団サイズが変動すると、ほぼ中立な変異の固定確率も変動するため、分子時計の分散が大きくなると説明できます。
ここまでで分子時計の数理的根拠を導きました。しかし、すべての塩基置換が中立というわけではありません。次のセクションでは、同じ遺伝子内でも「選択を受ける置換」と「中立な置換」を区別し、自然選択の痕跡を検出する方法を学びます。
遺伝暗号(コドン表)には冗長性があり、複数のコドンが同じアミノ酸をコードしています。タンパク質をコードする遺伝子の塩基配列に起こる点突然変異は、コードされるアミノ酸が変わるかどうかで2種類に分けられます。
同義置換は自然選択をほとんど受けないので、その速度 $dS$ は中立な突然変異率を反映しています。一方、非同義置換の速度 $dN$ は選択の影響を受けます。したがって、両者の比 $\omega = dN/dS$ をとると、中立からのずれ ── つまり自然選択の存在 ── を検出できます。
$$\omega = \frac{dN}{dS}$$
$\omega = 1$:非同義置換が同義置換と同じ速度で蓄積 → 中立進化(選択なし)
$\omega < 1$:非同義置換が同義置換より遅い → 負の選択(浄化選択:アミノ酸変化が排除される)
$\omega > 1$:非同義置換が同義置換より速い → 正の選択(適応進化:アミノ酸変化が積極的に固定される)
この論理の美しさは、中立進化を帰無仮説(null hypothesis)として使っている点にあります。同義置換を「選択がない場合の基準速度」として、非同義置換がそこからどれだけずれているかで選択を判定するのです。
いくつかの遺伝子で $\omega$ の典型的な値を見てみましょう。
| 遺伝子 | $\omega = dN/dS$ | 解釈 |
|---|---|---|
| ヒストン H4 | $\approx 0.002$ | 極めて強い負の選択。アミノ酸配列の変化がほぼ完全に排除される |
| シトクロム $c$ | $\approx 0.02$ | 強い負の選択。機能に重要な配列が保存される |
| フィブリノペプチド | $\approx 0.8$ | 弱い制約。機能上の重要性が低い領域 |
| MHCクラスI 抗原認識部位 | $> 1$ | 正の選択。多様なアミノ酸配列が有利 |
ヒストン H4 は真核生物間でほぼ完全にアミノ酸配列が保存されており、$\omega \approx 0.002$ という極端に低い値は、非同義置換のほとんどが有害として排除されていることを示しています。一方、MHCクラスIの抗原認識部位では $\omega > 1$ となり、病原体に対する多様な認識能力を持つことが有利であるため、アミノ酸の多様性を増す方向に正の選択が働いています。
誤:正の選択を受ける遺伝子では、全体のdN/dSが1を超える
正:遺伝子全体の平均をとると $\omega < 1$ になることがほとんどです。正の選択は遺伝子の特定の部位(特定のコドン)にのみ働くことが多いため、部位ごとのdN/dS解析(site model)が必要です。遺伝子全体の $\omega > 1$ は、免疫関連遺伝子や生殖関連遺伝子など、極めて限られたケースでしか見られません。
2つの種のタンパク質コード遺伝子の塩基配列を比較するとき、$dN$ と $dS$ はどのように計算するのでしょうか。基本的な手順は次の通りです。
ここまでで、中立進化の数理とdN/dS比による選択検出の方法を学びました。次のセクションでは、これらの概念がどのように応用されているかを見ていきましょう。
dN/dS比は、ウイルスの進化を追跡する強力なツールとして実用されています。インフルエンザウイルスのヘマグルチニン(HA)遺伝子では、抗体が認識するエピトープ領域で $\omega > 1$ が検出されており、宿主の免疫から逃れるための正の選択が働いていることを示しています。
SARS-CoV-2(新型コロナウイルス)のスパイクタンパク質でも、受容体結合ドメインや抗体認識部位において $\omega > 1$ のシグナルが見つかり、変異株の出現が適応進化であることが定量的に示されました。
偽遺伝子(pseudogene)は、かつて機能していた遺伝子が突然変異によって機能を失ったものです。機能を持たないため、偽遺伝子に生じる変異はほぼすべてが中立です。したがって、偽遺伝子の $\omega$ は理論通り 1 に近い値を示します。
偽遺伝子は中立進化の理論的予測を検証する「天然の実験系」として重要な役割を果たしてきました。偽遺伝子の進化速度は、機能を持つ遺伝子よりも速い(制約がないため)ことが一般に観察され、これは中立説の予測と合致します。
分子時計の定量理論は、系統樹上の分岐年代の推定に応用されます。化石記録から分岐年代がわかっている系統対を較正点(calibration point)として、同義置換の蓄積速度を推定します。この速度を使えば、化石記録のない系統の分岐年代も推定できます。
ただし、先に述べた分散/平均比の問題($R > 1$)があるため、現代の分岐年代推定では「厳密な分子時計」(全系統で同じ速度)ではなく、「緩和した分子時計」(relaxed molecular clock、系統間で速度が変動することを許す)モデルが標準的に使われています。これについては次の記事で詳しく扱います。
dN/dS比を拡張した検定法として、McDonald-Kreitman(MK)テストがあります。このテストでは、2種間の置換(固定された違い)と、1種内の多型(まだ固定されていない変異)を、同義・非同義に分けて $2 \times 2$ の分割表を作ります。中立進化の下では、同義/非同義の比率は種内多型と種間置換で等しくなるはずです。この期待からのずれを統計的に検定することで、正の選択の痕跡を検出できます。
中立進化の数理は、単なる理論的演習ではなく、ゲノム解析・ウイルス進化・分岐年代推定という現代の生命科学の実用的基盤となっています。次のセクションでは、本記事の内容が他のトピックとどのようにつながるかを整理します。
中立進化の数理は、集団遺伝学と分子系統学の結節点に位置します。以下のトピックと密接に関連しています。
それでは最後に、本記事の要点をまとめましょう。
Q1. 二倍体集団サイズ $N = 5{,}000$ の集団で、新たに1個体に生じた中立変異が固定される確率はいくらですか。
Q2. 中立進化の置換速度 $k = \mu$ において、集団サイズ $N$ がキャンセルされる理由を、変異の供給量と固定確率の関係から説明してください。
Q3. ある遺伝子のdN/dS比が 0.05 だったとき、この遺伝子に働いている選択の種類と、その生物学的意味を説明してください。
Q4. 偽遺伝子のdN/dS比が理論上 1 に近くなる理由を説明してください。
ある遺伝子座における中立突然変異率が1世代あたり $\mu = 2.0 \times 10^{-8}$ であるとする。この遺伝子座で100万世代の間に期待される置換数を求めよ。
中立進化の置換速度は $k = \mu = 2.0 \times 10^{-8}$(1世代あたり)である。
100万世代 $= 10^6$ 世代の間に期待される置換数は、
$$k \times t = 2.0 \times 10^{-8} \times 10^6 = 0.02$$
したがって、期待される置換数は $0.02$ 回である。
$k = \mu$ という分子時計の基本式をそのまま適用します。1つの遺伝子座あたりでは100万世代でも0.02回しか置換が期待されないことに注意してください。ゲノム全体(数万遺伝子座)で見れば、100万世代の間に多数の置換が蓄積することになります。
2つのタンパク質 X と Y について、種間比較により以下のデータが得られた。
| $dN$ | $dS$ | |
|---|---|---|
| タンパク質 X | 0.01 | 0.50 |
| タンパク質 Y | 0.40 | 0.50 |
(a) それぞれの $\omega = dN/dS$ を計算せよ。
(b) タンパク質 X と Y に働いている選択の種類をそれぞれ判定し、その生物学的意味を述べよ。
(a)
タンパク質 X:$\omega = 0.01/0.50 = 0.02$
タンパク質 Y:$\omega = 0.40/0.50 = 0.80$
(b)
タンパク質 X:$\omega = 0.02 \ll 1$ → 強い負の選択(浄化選択)。アミノ酸配列がほとんど変化を許容しない、機能上きわめて重要なタンパク質である。
タンパク質 Y:$\omega = 0.80 < 1$ → 弱い負の選択。ある程度のアミノ酸変化は許容されるが、中立よりは制約を受けている。機能上の重要性はあるが、タンパク質 X ほど厳しくは保存されていない。
$dS$ が両タンパク質で等しい($= 0.50$)ことは、比較している2種間の分岐時間と中立突然変異率が同じであることを示しています。$dN$ の違いは純粋に選択圧の違いを反映しています。ヒストンのような必須タンパク質は $\omega \approx 0.02$、フィブリノペプチドのような機能的制約の弱い領域では $\omega \approx 0.8$ となります。
集団サイズ $N_1 = 100$ の集団と $N_2 = 1{,}000{,}000$ の集団がある。中立突然変異率は同じ $\mu$ であるとする。
(a) 各集団で毎世代新たに生じる中立変異の数を $\mu$ を用いて表せ。
(b) 各集団での新しい中立変異の固定確率を求めよ。
(c) 各集団での中立進化の置換速度を求め、集団サイズに依存しないことを確認せよ。
(d) 両集団で置換速度は同じだが、進化の「様子」は異なる。どのように異なるか説明せよ。
(a)
$N_1 = 100$:$2 \times 100 \times \mu = 200\mu$ 個
$N_2 = 1{,}000{,}000$:$2 \times 10^6 \times \mu = 2 \times 10^6 \mu$ 個
(b)
$N_1 = 100$:$P_{\mathrm{fix}} = 1/200 = 0.005$
$N_2 = 1{,}000{,}000$:$P_{\mathrm{fix}} = 1/(2 \times 10^6) = 5 \times 10^{-7}$
(c)
$N_1$:$k = 200\mu \times 1/200 = \mu$
$N_2$:$k = 2 \times 10^6 \mu \times 1/(2 \times 10^6) = \mu$
いずれも $k = \mu$ であり、集団サイズに依存しない。
(d)
小さい集団($N_1 = 100$)では、各変異の固定確率が高い($1/200$)ため、固定に要する時間が短く、次々に固定イベントが起こります。一方、大きい集団($N_2 = 10^6$)では各変異の固定確率はきわめて低い($5 \times 10^{-7}$)ですが、変異の供給量が桁違いに多いため、結局同じ速度で固定が起こります。ただし、固定に要する平均時間は集団が大きいほど長くなります(約 $4N_e$ 世代)。
この問題は、分子時計の核心的な論理を計算で確認するものです。小集団では「少ない変異 $\times$ 高い固定確率」、大集団では「多い変異 $\times$ 低い固定確率」となり、積は同じ $\mu$ になります。(d)は固定確率だけでなく固定時間にも注目させる発展的な問いです。中立変異の平均固定時間は約 $4N_e$ 世代であり、集団が大きいほど固定に長い時間がかかります。
ある遺伝子が遺伝子重複により2コピーに増えた後、一方のコピーが偽遺伝子になったとする。偽遺伝子化してから十分な時間が経過した後、機能を保持しているコピーと偽遺伝子化したコピーについて、それぞれの $\omega = dN/dS$ はどのような値をとると予想されるか。理由を含めて説明せよ。
機能コピー:$\omega < 1$(負の選択)。タンパク質として機能しているため、アミノ酸配列を変える非同義置換の多くは有害であり、浄化選択によって排除される。したがって $dN < dS$ となり、$\omega < 1$ である。
偽遺伝子コピー:$\omega \approx 1$(中立)。機能を失っているため、非同義変異も同義変異も同様に中立であり、選択を受けない。両方の置換が同じ速度で蓄積するため、$dN \approx dS$ となり、$\omega \approx 1$ である。
遺伝子重複と偽遺伝子化は、dN/dS比の概念を理解する上で理想的な題材です。同一の祖先配列から分かれた2つのコピーが、機能の有無によってまったく異なる進化パターンを示すことを、dN/dS比で定量的に区別できます。また、偽遺伝子の $\omega \approx 1$ は中立進化の予測を直接検証するものです。
選択係数 $s$ を持つ有利な変異($s > 0$)の固定確率は、集団遺伝学の拡散理論により次のように与えられる。
$$P_{\mathrm{fix}} = \frac{1 - e^{-2s}}{1 - e^{-4Ns}}$$
ただし $N$ は二倍体集団の個体数であり、変異は1コピーのみ存在する初期状態を考える。
(a) $s = 0$(中立変異)の場合、この式が $P_{\mathrm{fix}} = 1/(2N)$ に帰着することを、ロピタルの定理またはテイラー展開を用いて示せ。
(b) $s > 0$ かつ $4Ns \gg 1$(有利な変異が十分強い選択を受ける場合)の極限で、$P_{\mathrm{fix}} \approx 2s$ となることを示せ。
(c) $N = 10{,}000$, $s = 0.01$ のとき、有利な変異の固定確率と中立変異の固定確率をそれぞれ計算し、選択の効果を定量的に評価せよ。
(a) $s \to 0$ のとき、分子 $1 - e^{-2s} \to 2s$、分母 $1 - e^{-4Ns} \to 4Ns$(いずれもテイラー展開 $e^{-x} \approx 1 - x$($x \to 0$)を用いる)。したがって、
$$P_{\mathrm{fix}} \to \frac{2s}{4Ns} = \frac{1}{2N}$$
(b) $4Ns \gg 1$ のとき、$e^{-4Ns} \approx 0$ なので分母 $\approx 1$。$s$ が小さい($s \ll 1$)とき分子 $1 - e^{-2s} \approx 2s$。したがって、
$$P_{\mathrm{fix}} \approx \frac{2s}{1} = 2s$$
(c)
有利な変異:$4Ns = 4 \times 10{,}000 \times 0.01 = 400 \gg 1$ なので近似が使え、$P_{\mathrm{fix}} \approx 2s = 0.02 = 2\%$。
中立変異:$P_{\mathrm{fix}} = 1/(2 \times 10{,}000) = 0.00005 = 0.005\%$。
有利な変異の固定確率は中立変異の $0.02/0.00005 = 400$ 倍であり、$s = 0.01$ の有利な変異は中立変異に比べて圧倒的に固定されやすい。
(a) は中立変異の固定確率 $1/(2N)$ が、一般的な固定確率公式の特殊な場合であることを示す重要な結果です。ロピタルの定理を使う場合は、$f(s) = 1 - e^{-2s}$, $g(s) = 1 - e^{-4Ns}$ として $\lim_{s \to 0} f(s)/g(s) = \lim_{s \to 0} f'(s)/g'(s) = 2e^0/(4Ne^0) = 1/(2N)$ とも求められます。
(b) の結果 $P_{\mathrm{fix}} \approx 2s$ は、有利な変異の固定確率が集団サイズに依存せず選択係数のみで決まる(ただし $4Ns \gg 1$ の条件下で)ことを示しています。
(c) は $2\%$ vs $0.005\%$ という400倍の差が、自然選択の威力を定量的に示しています。$s = 0.01$ は「弱い選択」に分類される値ですが、それでも中立変異の400倍固定されやすいのです。