高校生物では、塩基配列の違いが少ない種どうしは近縁であるとして分子系統樹を描きます。しかし、この「違いの数を数える」という素朴な方法では、正しい系統樹が得られないことがあります。同じ塩基座位で置換が2回以上起こると、見かけ上の違いが実際の進化量より少なくなるからです。
大学の分子系統学では、この問題を置換モデルという確率モデルで解決します。そのうえで、最節約法・最尤法・ベイズ法という3つの統計的手法を使い、データから最も妥当な系統樹を推定します。この記事では、「なぜ単純に違いを数えるだけではダメなのか」という問いから出発し、置換モデルの構築、3つの推定法の原理、そして推定の信頼性を評価するブートストラップ法まで、一本の論理の糸でつないでいきます。
高校生物では、分子系統樹を描く方法として「複数の種のDNA塩基配列(またはアミノ酸配列)を比較し、違いが少ないものどうしを近縁とみなす」というアプローチを学びます。分子時計の考え方と組み合わせれば、塩基配列の違いの数から分岐年代を推定することもできます。
たとえば、4つの種 A, B, C, D の相同な遺伝子の塩基配列を比較し、AとBの間に5塩基の違い、AとCの間に12塩基の違い、AとDの間に20塩基の違いがあったとします。高校の教科書では、この違いの数が小さい組み合わせから順に枝を束ねていくことで系統樹を構築します。
この方法は直感的でわかりやすく、多くの場合正しい系統樹を与えます。しかし、実はこの「違いの数を数える」というアプローチには、原理的な限界が潜んでいます。
ある塩基座位がAからTに変わり、さらにTからCに変わったとしましょう。最終的に観察されるのは「AがCに変わった」という1回の違いだけですが、実際には2回の置換が起きています。このように、同じ座位で複数回の置換が蓄積することを多重置換(multiple substitution)と呼びます。進化的に離れた種どうしを比較するほど、多重置換が多く起こっているため、観察される違いの数は実際の置換回数よりも少なくなります。
さらに厄介なのが逆置換(AからTに変わった後、TからAに戻る)と収斂置換(別々の系統で独立にAからTへの同じ変化が起きる)です。これらはいずれも、実際に起きた進化量を過小評価する方向に働きます。高校の方法では、このような「見えない置換」を補正する手段がありません。次のセクションでは、大学の分子系統学がこの問題にどう取り組むかを見ていきましょう。
系統樹を描くことは、「塩基配列データという観測値から、進化の歴史という見えないパラメータを推定する」統計的推定問題です。観測データには多重置換によるノイズが含まれているため、単純に違いを数えるだけでは不十分です。
大学の分子系統学では、(1) 塩基置換がどのような確率で起こるかを記述する置換モデルを立て、(2) そのモデルのもとでデータを最もよく説明する系統樹を統計的手法で選び、(3) 推定結果の信頼性を統計的に評価する、という3段階のアプローチをとります。
この3段階のアプローチを順に見ていきましょう。まずは、進化を確率過程として記述する「置換モデル」の構築から始めます。
セクション1で見たように、観察される塩基の違いの数は多重置換のために実際の置換回数を過小評価します。この問題を解決するには、「塩基置換がどのような確率で、どのような頻度で起こるか」を数学的にモデル化し、観察されたデータから真の置換回数を推定する必要があります。これが置換モデル(substitution model)の役割です。
1969年、Jukes と Cantor は最も単純な塩基置換モデルを提案しました。JC69モデルと呼ばれるこのモデルでは、4種類の塩基(A, T, G, C)の間のすべての置換が等しい確率で起こると仮定します。つまり、AからTへの置換も、AからGへの置換も、GからCへの置換も、すべて同じ速度定数 $\alpha$ で起こります。
この仮定のもとで、ある塩基座位が時間 $t$ の間に別の塩基に変わっている確率(つまり2つの配列間で異なる塩基が観察される確率)$p$ と、実際に起こった1座位あたりの置換回数の期待値 $d$(進化距離と呼ばれます)の関係を導くことができます。
ある座位の塩基が時刻 $t$ で「元の塩基と同じ」である確率を $q(t)$ とします($p(t) = 1 - q(t)$ が異なる確率)。微小時間 $\Delta t$ の間に置換が起こる確率は $3\alpha \Delta t$ です(元の塩基以外の3つの塩基のいずれかに変わる確率がそれぞれ $\alpha \Delta t$)。
座位が時刻 $t + \Delta t$ で元の塩基と同じである確率を考えると、2つの場合があります。(i) 時刻 $t$ で同じで、$\Delta t$ の間に置換が起きなかった場合、(ii) 時刻 $t$ で異なっていて、$\Delta t$ の間にちょうど元の塩基に戻った場合です。
$$q(t + \Delta t) = q(t)(1 - 3\alpha \Delta t) + (1 - q(t)) \cdot \alpha \Delta t$$
右辺第2項の $\alpha \Delta t$ は、異なる3つの塩基のうち元の塩基に戻る確率です。整理すると、
$$\frac{q(t + \Delta t) - q(t)}{\Delta t} = -3\alpha q(t) + \alpha(1 - q(t)) = \alpha - 4\alpha q(t)$$
$\Delta t \to 0$ として微分方程式を得ます。
$$\frac{\mathrm{d}q}{\mathrm{d}t} = \alpha - 4\alpha q = -4\alpha\!\left(q - \frac{1}{4}\right)$$
初期条件 $q(0) = 1$ で解くと、
$$q(t) = \frac{1}{4} + \frac{3}{4}e^{-4\alpha t}$$
異なる確率は $p = 1 - q = \frac{3}{4}(1 - e^{-4\alpha t})$ です。単位時間あたりの期待置換回数は $3\alpha$ なので、進化距離 $d = 3\alpha t$ です。$p$ を $d$ で表すと、
$$p = \frac{3}{4}\!\left(1 - e^{-\frac{4}{3}d}\right)$$
$d$ について解くと、
$$d = -\frac{3}{4}\ln\!\left(1 - \frac{4}{3}p\right)$$
$$d = -\frac{3}{4}\ln\!\left(1 - \frac{4}{3}p\right)$$
$d$:1座位あたりの推定置換回数(進化距離)。$p$:2つの配列間で異なる塩基が観察される割合。$\ln$ は自然対数。$p \to 3/4$ のとき $d \to \infty$ となり、飽和を示す。
この式の意味を考えましょう。$p$ が小さいとき(近縁な種の比較)は $d \approx p$ となり、単純に違いを数える方法とほぼ一致します。しかし $p$ が大きくなると $d$ は $p$ よりかなり大きくなります。たとえば $p = 0.5$(50%の座位で違いが見られる)のとき、JC69補正を適用すると $d \approx 0.824$ となり、実際には1座位あたり平均0.824回の置換が起きていたと推定されます。単純に違いを数えていたら「0.5回」と過小評価していたことになります。
JC69モデルは「すべての置換が等確率」という強い仮定を置いています。しかし実際の塩基置換では、トランジション(プリン間 A$\leftrightarrow$G またはピリミジン間 T$\leftrightarrow$C の置換)がトランスバージョン(プリンとピリミジン間の置換)よりも高頻度で起こることが知られています。
1980年、木村資生は、トランジションの速度定数を $\alpha$、トランスバージョンの速度定数を $\beta$ として2つのパラメータで記述するK80モデル(Kimura 2-parameter model)を提案しました。トランジション/トランスバージョン比 $\kappa = \alpha/\beta$ は生物種や遺伝子によって異なりますが、哺乳類のミトコンドリアDNAでは $\kappa$ が10以上になることもあります。
誤:どの置換モデルを使っても系統樹の結果は同じだから、最も単純なJC69で十分である
正:不適切なモデルは進化距離の推定を歪め、系統樹のトポロジー(枝の分岐パターン)そのものを誤る原因になる。とくに進化速度が速い系統では、モデルの選択が結果を大きく左右する。モデル選択にはAIC(赤池情報量規準)やBIC(ベイズ情報量規準)といった統計的基準が用いられる。
JC69とK80は最も単純なモデルですが、実際の分子系統解析ではさらに複雑なモデルも使われます。GTRモデル(General Time Reversible model)は、4つの塩基の定常頻度 $\pi_A, \pi_T, \pi_G, \pi_C$ と6種類の置換速度パラメータを持つ最も一般的な時間可逆モデルです。さらに、座位ごとの進化速度のばらつきを表すガンマ分布($+\Gamma$)や、一定割合の座位が不変であるとする不変サイトモデル($+\mathrm{I}$)を組み合わせた $\mathrm{GTR}+\Gamma+\mathrm{I}$ のようなモデルが広く用いられています。
| モデル | パラメータ数 | 特徴 |
|---|---|---|
| JC69 | 0(置換速度のみ) | すべての置換が等確率、塩基頻度が等しい |
| K80 | 1($\kappa$) | トランジションとトランスバージョンを区別 |
| HKY85 | 4($\kappa + 3$ つの塩基頻度) | K80 + 塩基頻度の不均等を考慮 |
| GTR | 8(6つの速度 + 3つの塩基頻度) | 最も一般的な時間可逆モデル |
置換モデルは、観察されたデータから真の進化距離を推定するための「レンズ」のようなものです。正しいレンズなしには、進化の歴史を正確に見ることはできません。次のセクションでは、置換モデルを道具として使い、系統樹そのものを推定する3つの統計的手法を見ていきましょう。
系統樹の候補は膨大にあります。4つの種なら15通り、10種なら約200万通り、20種なら約 $8 \times 10^{21}$ 通りの無根系統樹が可能です。このなかから、配列データに基づいて最も妥当な系統樹を選ぶ方法が必要です。大学の分子系統学では、主に3つの手法が使われています。
最節約法は、「置換の総数が最も少なくて済む系統樹を最良とする」方法です。オッカムの剃刀(余計な仮定を置かない)という科学の原則に基づいています。
具体的には、各候補系統樹について、その系統樹の枝の上で必要最小限の塩基置換の回数を数えます。これを全座位について合計したものが系統樹の長さ(tree length)であり、この長さが最小の系統樹を最も妥当と判断します。
たとえば、4種 A, B, C, D のある座位で、A = G, B = G, C = T, D = T と観察されたとします。系統樹 ((A,B),(C,D)) では、共通祖先から (A,B) の祖先でGが保持され、(C,D) の祖先でG→Tの置換が1回起こったと考えれば、1回の置換で説明できます。一方、系統樹 ((A,C),(B,D)) では最低2回の置換が必要です。最節約法はこのような比較をすべての座位について行い、置換回数の総和が最も少ない系統樹を選びます。
最節約法で系統樹のトポロジーを区別できるのは、「少なくとも2つの状態がそれぞれ2つ以上の種に見られる座位」だけです。これを情報座位(parsimony informative site)と呼びます。たとえば、4種中3種がAで1種がTの座位は、どの系統樹でも1回の置換で説明できるため、トポロジーの選択に寄与しません。
最節約法は概念が明快で、置換モデルの仮定を必要としない(モデルフリーである)という利点があります。しかし、多重置換が多い状況では置換回数を過小評価し、実際には進化が速い系統をあたかも近縁であるかのように誤って推定してしまうことがあります。これが後述する長枝誘引問題です。
最尤法は、「観察された配列データが得られる確率(尤度)が最も高い系統樹を最良とする」方法です。ここで、尤度の計算には置換モデルが不可欠です。
尤度とは何でしょうか。ある候補系統樹 $T$ と置換モデルのパラメータ $\theta$(枝の長さ、置換速度など)が与えられたとき、そのもとで観察データ $D$(配列のアラインメント)が生じる確率が尤度 $L(T, \theta) = P(D \mid T, \theta)$ です。最尤法は、この尤度を最大にする系統樹 $T$ とパラメータ $\theta$ を探索します。
$$L(T, \theta) = P(D \mid T, \theta) = \prod_{i=1}^{N} P(D_i \mid T, \theta)$$
$D_i$:第 $i$ 座位のデータ(各種の塩基状態)。$N$:座位の総数。各座位は独立に進化すると仮定して、全座位の確率の積をとる。実際の計算では対数尤度 $\ln L = \sum_{i=1}^{N} \ln P(D_i \mid T, \theta)$ を使う。
各座位の尤度 $P(D_i \mid T, \theta)$ を計算するには、系統樹の内部ノード(共通祖先)の塩基状態が未知であるため、すべての可能な祖先状態について確率を合算する必要があります。この計算を効率的に行うアルゴリズムがFelsensteinの枝刈りアルゴリズム(pruning algorithm)です。
最尤法は置換モデルを明示的に組み込むため、多重置換の補正が自然に行われます。統計学的に一貫性のある推定法であり、十分なデータがあれば真の系統樹に収束することが理論的に保証されています。ただし、計算量が多く、系統樹空間の探索に時間がかかるという欠点があります。
ベイズ法は、最尤法と同じく確率モデルに基づきますが、系統樹やパラメータに関する事前分布(prior distribution)を設定し、データを観察した後の事後分布(posterior distribution)を求めるという点が異なります。
$$P(T, \theta \mid D) = \frac{P(D \mid T, \theta) \cdot P(T, \theta)}{P(D)}$$
$P(T, \theta \mid D)$:事後確率(データ $D$ が得られた後の、系統樹 $T$ とパラメータ $\theta$ の確率)。$P(D \mid T, \theta)$:尤度。$P(T, \theta)$:事前確率。$P(D)$:周辺尤度(正規化定数)。
事前分布とは、データを見る前の「予備知識」や「信念」を確率として表現したものです。系統樹の事前分布としては、通常「すべてのトポロジーが等確率」とする一様事前分布を用います。枝の長さの事前分布には指数分布などがよく使われます。
ベイズ法の計算では、事後分布から直接サンプリングすることが難しいため、マルコフ連鎖モンテカルロ法(MCMC: Markov Chain Monte Carlo)というアルゴリズムを用います。MCMCは、系統樹空間をランダムに「歩き回り」ながら、事後確率が高い領域に多くのサンプルが集まるようにする手法です。十分な数のサンプルを集めると、事後分布の近似が得られます。
ベイズ法の大きな利点は、推定の不確実性が事後分布として自然に表現されることです。ある分岐が事後確率0.95で支持されるなら、「MCMCサンプルの95%でこの分岐が含まれていた」と解釈でき、直感的に理解しやすい信頼度を得られます。
| 特徴 | 最節約法 | 最尤法 | ベイズ法 |
|---|---|---|---|
| 最適基準 | 置換回数が最小 | 尤度が最大 | 事後確率が最大 |
| 置換モデル | 不要(モデルフリー) | 必要 | 必要 |
| 多重置換への対処 | 直接的には対処しない | モデルで自然に補正 | モデルで自然に補正 |
| 信頼性の評価 | ブートストラップ | ブートストラップ | 事後確率 |
| 計算コスト | 比較的小さい | 大きい | 大きい(MCMCの収束確認が必要) |
| 長枝誘引への耐性 | 弱い | 強い(適切なモデル選択時) | 強い |
現代の分子系統学では、最尤法とベイズ法が主流です。最節約法はモデルの仮定が不要という明確な長所がありますが、多重置換が多い場合に系統的な誤り(長枝誘引)が生じやすいため、注意が必要です。次のセクションでは、推定結果の信頼性をどう評価するか、そして長枝誘引問題とは何かを詳しく見ていきましょう。
系統樹の各分岐がどれだけ信頼できるかを評価する最も広く使われている方法がブートストラップ法(bootstrap method)です。1985年にFelsensteinが系統推定に導入しました。
ブートストラップ法の手順は次のとおりです。元のアラインメント($N$ 座位)から、復元抽出で $N$ 座位を選んで新しい「疑似データセット」を作ります。この疑似データセットに対して系統樹推定を行います。この操作を通常1000回以上繰り返し、各分岐がこれらの疑似データセットの何割で再現されたかを数えます。この割合がブートストラップ値(bootstrap support, BP)です。
復元抽出とは何か:$N$ 個の座位から $N$ 個を無作為に選ぶ際、同じ座位が複数回選ばれることを許します。これにより、一部の座位は2回以上含まれ、一部はまったく含まれない疑似データセットができます。
何を測っているのか:ブートストラップ値は、データのサンプリング変動に対する推定の安定性を測っています。BP = 95% なら、座位の組み合わせが多少変わっても95%の確率でその分岐が再現されるということです。
注意点:ブートストラップ値は信頼区間とは異なり、真の系統樹を含む確率を直接示すものではありません。しかし、一般にBP $\geq$ 70% は統計的に有意な支持を示すとされています(Hillis & Bull, 1993)。また、ベイズ法の事後確率はブートストラップ値よりも高い値を示す傾向があり、両者を単純に比較することはできません。
長枝誘引(long branch attraction, LBA)は、系統推定における最も有名な系統的誤りです。1978年にFelsensteinが理論的に示しました。
長枝誘引は、進化速度が特に速い系統(=長い枝)どうしが、実際の近縁関係にかかわらず、系統樹上で近くにグループ化されてしまう現象です。なぜこれが起こるのでしょうか。
進化速度が速い系統では多重置換が多く起こります。すると、まったく無関係な2つの長い枝で、偶然に同じ塩基への置換(収斂置換)が高い頻度で起こります。たとえば、祖先で A だった座位が、2つの長い枝で独立に A→T→G→C と変化した場合、最終的にどちらもCとなり、「共有派生形質」のように見えます。最節約法はこのような偽の類似性を近縁の証拠と誤認し、2つの長い枝を一緒にグループ化してしまいます。
誤:最も変化の少ない系統樹が常に正しい
正:多重置換が多い状況では、最節約法はデータが増えるほど誤った系統樹に収束することがある(Felsenstein zone)。このような場合、最尤法やベイズ法は適切な置換モデルで多重置換を補正するため、正しい系統樹に収束する。
長枝誘引を回避する方法はいくつかあります。(1) 最尤法やベイズ法を使い、適切な置換モデルで多重置換を補正する。(2) 分類群のサンプリングを工夫し、長い枝を「分割」する中間的な種を追加する。(3) 進化速度が座位ごとに異なることを考慮したモデル($+\Gamma$ モデルなど)を使用する。
長枝誘引問題は、系統推定が単なる計算作業ではなく、モデルの選択やデータの吟味を含む科学的判断であることを教えてくれます。次のセクションでは、分子系統学の手法が実際の生物学研究にどう応用されているかを見ていきましょう。
分子系統学は感染症の拡大経路の追跡に威力を発揮します。ウイルスのゲノム配列を系統解析することで、感染がどの地域からどの地域へ広がったかを推定できます。2019年に始まった新型コロナウイルス(SARS-CoV-2)のパンデミックでは、世界中のウイルスゲノム配列がリアルタイムで系統解析され、変異株の出現と拡散がモニタリングされました。このような「ゲノム疫学」は、ベイズ法をベースにした分子時計解析(BEAST など)に大きく依存しています。
高校の教科書に載っている生物の分子系統樹も、実は最尤法やベイズ法で推定されたものです。三ドメイン説(バクテリア・アーキア・ユーカリア)を提唱したWoeseの研究(1977年)はrRNA配列の系統解析に基づいており、その後の研究では最尤法やベイズ法によって系統関係が精密化されました。
特に興味深いのは、真核生物の系統樹の再構築です。かつて「原生生物」として一括りにされていた生物群が、分子系統解析によって複数の独立した系統に分かれることが明らかになりました。これは形態的特徴だけでは見えなかった進化関係を、分子データと統計的手法が明らかにした好例です。
系統推定の応用は系統樹の構築にとどまりません。推定された系統樹を使って、形質の進化を統計的に解析する系統比較法(phylogenetic comparative method)も発展しています。たとえば、「体サイズが大きい哺乳類ほど寿命が長い」という相関が見られるとき、これが適応的な関連なのか、単に共通祖先からの遺伝的影響(系統的非独立性)によるものなのかを区別するには、系統樹を考慮した統計解析が必要です。
分子系統樹と形態に基づく系統樹が一致しないことがあります。たとえば、クジラ目は形態的には有蹄類とは大きく異なりますが、分子系統解析ではカバに最も近縁であることが示されています。このような不一致は、形態の収斂進化が系統関係を隠していたケースと解釈されます。分子系統学は、形態だけでは見抜けない進化関係を発見する強力なツールです。
分子系統学は、進化生物学の基盤であると同時に、感染症対策、保全生物学、比較ゲノム学など幅広い分野を支えています。次のセクションでは、本記事の内容が他のトピックとどのようにつながるかを整理します。
分子系統学は、集団遺伝学・分子進化学と密接に結びつき、進化生物学の定量的な柱を形成しています。
それでは最後に、本記事の要点をまとめましょう。
Q1. 「塩基配列の違いの数を数える」という素朴な方法では、進化距離をどのように誤る可能性がありますか。その原因を多重置換の概念を用いて説明してください。
Q2. JC69モデルの補正式 $d = -\frac{3}{4}\ln\!\left(1 - \frac{4}{3}p\right)$ で、$p = 0.75$(75%の座位で違いがある)のとき $d$ はどうなりますか。この結果の生物学的意味を説明してください。
Q3. 最節約法と最尤法の最も本質的な違いは何ですか。
Q4. ブートストラップ値 BP = 85% と、ベイズ法の事後確率 PP = 0.85 は同じ意味ですか。それぞれ何を測っていますか。
2つの種のDNA配列を100座位にわたって比較したところ、30座位で塩基が異なっていた($p = 0.30$)。JC69モデルを用いて進化距離 $d$ を計算せよ。補正なしの場合($d = p = 0.30$)と比較し、補正によってどの程度の差が生じるか述べよ。
$$d = -\frac{3}{4}\ln\!\left(1 - \frac{4}{3} \times 0.30\right) = -0.75 \ln(1 - 0.40) = -0.75 \ln(0.60)$$
$\ln 0.60 \approx -0.5108$ なので、
$$d \approx -0.75 \times (-0.5108) = 0.383$$
補正なしでは $d = 0.30$、補正ありでは $d \approx 0.383$ となり、約28%の過小評価が補正された。
$p = 0.30$ の時点ですでに多重置換の影響が無視できません。JC69補正により、「見えない置換」の分を上乗せした真の進化距離が推定されます。$p$ が大きくなるほど補正量も大きくなり、$p = 0.50$ では $d \approx 0.824$(64%の過小評価を補正)となります。
4種 A, B, C, D のある座位の塩基がそれぞれ A = G, B = G, C = A, D = A であるとする。最節約法では、3つの候補系統樹 (i) ((A,B),(C,D))、(ii) ((A,C),(B,D))、(iii) ((A,D),(B,C)) のそれぞれについて、この座位で必要な最小置換回数を求めよ。この座位は系統樹の選択に寄与するか(情報座位であるか)を判定せよ。
(i) ((A,B),(C,D)):AとBがG、CとDがAなので、(A,B)の祖先がG、(C,D)の祖先がAとすれば、根の部分で1回の置換(G→AまたはA→G)で済む。最小置換回数 = 1。
(ii) ((A,C),(B,D)):AがGでCがAなので(A,C)の祖先で1回、BがGでDがAなので(B,D)の祖先で1回の置換が必要。最小置換回数 = 2。
(iii) ((A,D),(B,C)):同様の理由で最小置換回数 = 2。
系統樹 (i) が他の2つよりも少ない置換回数で説明できるので、この座位は情報座位である(系統樹の選択に寄与する)。
情報座位(parsimony informative site)とは、候補系統樹の間で必要最小置換回数に差が生じる座位です。この座位では、2つの状態(GとA)がそれぞれ2種に見られるため、トポロジーによって置換回数が異なります。もし「3種がGで1種がA」だった場合は、どの系統樹でも1回の置換で済むため、情報座位にはなりません。
長枝誘引(long branch attraction)について、以下の問いに答えよ。
(a) 長枝誘引とはどのような現象か、簡潔に説明せよ。
(b) なぜ最節約法は長枝誘引に弱いのか、多重置換との関連で説明せよ。
(c) 長枝誘引を回避するための方法を2つ挙げ、それぞれの原理を説明せよ。
(a) 進化速度が特に速い(枝が長い)2つの系統が、実際には近縁でないにもかかわらず、系統樹上で近くにグループ化されてしまう現象。
(b) 長い枝では多重置換が多く蓄積するため、無関係な2つの長い枝で偶然に同じ塩基への変化(収斂置換)が高頻度で起こる。最節約法はこのような偽の共有形質を近縁の証拠と誤認し、置換回数が最少になるように2つの長い枝をまとめてしまう。最節約法は多重置換を直接補正するメカニズムを持たないため、この誤りに対して脆弱である。
(c) (1) 最尤法やベイズ法を使用する:これらの手法は置換モデルを通じて多重置換を確率的に補正するため、収斂置換による偽の類似性に惑わされにくい。(2) 中間的な分類群を追加する:長い枝を分割する系統的位置の種を加えることで、各枝が短くなり、多重置換の影響が軽減される。
Felsenstein(1978)は、4分類群の場合に最節約法が長枝誘引に陥る条件(Felsenstein zone)を理論的に明らかにしました。この条件では、データが増えるほど(座位数が増えるほど)誤った系統樹への支持が強くなるという、統計的一貫性の欠如が生じます。これは最節約法の原理的限界を示しています。
ある系統樹に対して、1000回のブートストラップ解析を行ったところ、分岐Xは720回、分岐Yは980回再現された。
(a) 分岐Xと分岐Yのブートストラップ値をそれぞれ求めよ。
(b) 一般にBP $\geq$ 70%が統計的に有意とされるとき、分岐Xと分岐Yの信頼性をそれぞれ評価せよ。
(c) ブートストラップ法で「復元抽出」を用いる理由を、通常の抽出(非復元抽出)と対比して説明せよ。
(a) 分岐X:BP = 720/1000 = 72%。分岐Y:BP = 980/1000 = 98%。
(b) 分岐X(72%)は70%の閾値をわずかに超えるため、統計的に有意ではあるが信頼性は限定的であり、追加データで変わる可能性がある。分岐Y(98%)は非常に高い支持を示し、データのサンプリング変動に対してロバスト(頑健)な推定といえる。
(c) 復元抽出では同じ座位が複数回選ばれることがあるため、疑似データセットごとに座位の構成が異なります。これにより、特定の座位に偏ったデータセットが生成され、系統推定の安定性を多角的にテストできます。非復元抽出では常に同じ座位のセットが得られるため、サンプリング変動を再現できず、ブートストラップの目的を達成できません。
ブートストラップ法の本質は「手持ちのデータからサンプリング変動を擬似的に再現する」ことにあります。理想的には配列データを独立に何度も取得したいのですが、それは現実には不可能です。復元抽出によって座位の重みづけを変えた疑似データセットを作ることで、「別のデータが得られていたら結果は変わったか」を間接的に検証しています。
以下の問いに答えよ。
(a) JC69モデルでは「すべての置換が等確率」と仮定するが、K80モデルではトランジション速度定数 $\alpha$ とトランスバージョン速度定数 $\beta$ を区別する。K80モデルにおいて、ある座位がトランジションで変わっている確率 $P$ と、トランスバージョンで変わっている確率 $Q$ をそれぞれ時間 $t$ の関数として導出過程の概略を示し、K80進化距離が $d = -\frac{1}{2}\ln(1 - 2P - Q) - \frac{1}{4}\ln(1 - 2Q)$ で与えられることを示せ。
(b) $P = 0.20$, $Q = 0.10$ のとき、K80距離を計算せよ。また、これをJC69距離($p = P + Q = 0.30$ として計算)と比較し、モデルの違いが推定にどのような影響を与えるか論じよ。
(a) K80モデルでは、ある塩基から相補的な塩基への変化(トランジション)の速度定数が $\alpha$、それ以外(トランスバージョン)が $\beta$ です。JC69と同様の微分方程式を立てると、
ある座位が時刻 $t$ でトランジションにより変化している確率 $P$ は、
$$P = \frac{1}{4} - \frac{1}{4}e^{-4(\alpha + \beta)t} + \frac{1}{2}e^{-2(2\beta)t}\left(e^{-2(\alpha-\beta)t} - e^{-2(\alpha+\beta)t}\right)$$
を整理して、
$$P = \frac{1}{4} + \frac{1}{4}e^{-4\beta t} - \frac{1}{2}e^{-2(\alpha + \beta)t}$$
$$Q = \frac{1}{2} - \frac{1}{2}e^{-4\beta t}$$
ここから $e^{-4\beta t} = 1 - 2Q$ および $e^{-2(\alpha+\beta)t} = \frac{1}{2}(1 + (1-2Q) - 4P) = \frac{1}{2}(1 - 2P - Q) \cdot 2 = 1 - 2P - Q$ を得ます。
進化距離は $d = 2\alpha t + 4\beta t$ であり、$-2(\alpha + \beta)t = \ln(1 - 2P - Q)$ と $-4\beta t = \ln(1 - 2Q)$ から、
$$d = -\frac{1}{2}\ln(1 - 2P - Q) - \frac{1}{4}\ln(1 - 2Q)$$
(b) $P = 0.20$, $Q = 0.10$ を代入すると、
$$d = -\frac{1}{2}\ln(1 - 0.40 - 0.10) - \frac{1}{4}\ln(1 - 0.20) = -\frac{1}{2}\ln(0.50) - \frac{1}{4}\ln(0.80)$$
$\ln 0.50 \approx -0.6931$, $\ln 0.80 \approx -0.2231$ なので、
$$d \approx -\frac{1}{2}(-0.6931) - \frac{1}{4}(-0.2231) = 0.347 + 0.056 = 0.403$$
一方、JC69距離は $p = 0.30$ として $d_{\mathrm{JC}} \approx 0.383$ です。
K80距離(0.403)はJC69距離(0.383)より約5%大きくなります。これは、トランジションの高頻度を考慮することで、JC69では捉えきれなかった多重置換をさらに正確に補正しているためです。トランジション/トランスバージョン比が大きいデータほど、この差は大きくなります。
K80モデルはJC69の一般化であり、$\alpha = \beta$($\kappa = 1$)のとき JC69に帰着します。実際の生物データではトランジション優位($\kappa > 1$)が普通であるため、K80やそのさらなる一般化であるHKY85、GTRを使うことで、より正確な進化距離が得られます。モデル選択を誤ると、進化距離の推定に系統的なバイアスが生じ、系統樹のトポロジーにも影響を及ぼす可能性があります。