高校生物では「原始地球で無機物から有機物が生じ(化学進化)、やがて最初の生命が誕生した」と学びます。しかし、非生物的な分子からどうやって自己複製する系が生まれたのか、遺伝暗号はどう成立したのか、最初の細胞膜はどこから来たのか──これらは生物学最大の未解決問題です。この記事では、RNAワールド仮説を中心に、化学進化の分子論理を探ります。
高校生物で学ぶ生命の起源に関する知識は次の通りです。
しかし、「自己複製する分子はどう生まれたのか」「最初の遺伝情報担体はDNAかRNAか」「細胞膜なしに生命は成立するのか」── 高校ではこれらの根本的な問いに答えていません。
現在の生命ではDNAが情報を保存し、タンパク質(酵素)が化学反応を触媒します。しかし、DNAの複製にはタンパク質が必要で、タンパク質の合成にはDNAが必要です。では最初に何があったのか? この「鶏と卵」問題に対する現在の最有力仮説がRNAワールド仮説です。RNAは情報の保存(塩基配列)と化学反応の触媒(リボザイム)の両方の能力を持つため、最初の自己複製系はRNAだけで成立し得たと考えられています。
1982年、チェック(Cech)はテトラヒメナのrRNA前駆体が自己スプライシングすることを発見しました。また、アルトマン(Altman)はRNase PのRNA成分が触媒活性を持つことを示しました(1989年ノーベル化学賞)。これらの発見により、RNAが酵素として機能しうること(リボザイム)が証明されました。
2000年のX線結晶構造解析により、リボソームのペプチド結合形成反応を触媒するのは23S rRNA(タンパク質ではない)であることが判明しました。つまり、現在の生命でタンパク質合成を担う装置そのものがリボザイムです。これはRNAワールドの「化石」と解釈されています。
SELEX(Systematic Evolution of Ligands by EXponential enrichment)は、ランダムなRNA配列のライブラリから特定の機能を持つRNA(アプタマー)を選択する実験系です。$10^{15}$種類のランダムRNA配列から出発して、「結合→洗浄→増幅」のサイクルを繰り返すと、特定のリガンドに結合するRNAや、特定の化学反応を触媒するRNAが選択されます。SELEX実験により、RNAがRNA複製酵素活性を持ちうることが示され、RNAワールド仮説を実験的に支持しています。
自己複製するRNA分子が進化するには、複製の正確性がある閾値を超えている必要があります。アイゲン(Eigen)のエラーカタストロフ理論によると、複製1塩基あたりの正確性を $q$、ゲノム長を $L$ とすると、遺伝情報が維持される条件は
$$q^L > \frac{1}{s}$$
ここで $s$ は選択優位性です。$q = 0.99$(1%の誤り率)で $s = 2$ なら $L < \ln 2 / \ln(1/0.99) \approx 69$ 塩基。つまり、原始的なRNA複製酵素(誤り率数%)では、約100塩基以下の短いRNAしか忠実に複製できません。これが「アイゲンのパラドックス」であり、生命の起源における根本的な制約です。
生命の起源には自己複製する分子だけでなく、それを包む区画(コンパートメント)が必要です。現在の細胞膜はリン脂質二重層ですが、リン脂質の合成には酵素が必要です。では最初の膜は何だったのか?
ショスタク(Szostak)らは、単純な脂肪酸(例えばオレイン酸)が水溶液中で自発的に小胞(ベシクル)を形成し、以下の性質を持つことを示しました。
このような脂肪酸小胞はプロトセル(原始細胞)のモデルとして研究されています。
誤:コアセルベート(オパーリンのモデル)が最初の細胞のモデルとして有力
正:コアセルベートは高分子の凝集体であり、遺伝情報の複製や成長・分裂の能力がありません。現在の研究では、脂肪酸小胞に基づくプロトセルモデルが主流です。コアセルベートは歴史的に重要ですが、現在の生命起源研究の中心ではありません。
なぜ特定のコドンが特定のアミノ酸に対応するのか? 遺伝暗号の成立には3つの仮説があります。
遺伝暗号はほぼ全ての生物で共通(普遍的)ですが、ミトコンドリアや一部の原生生物では例外があります。例えば、ヒトのミトコンドリアではUGAが終止コドンではなくトリプトファンをコードし、AGAは終止コドンとして機能します。これらの例外は、遺伝暗号が完全に「凍結」されておらず、小さなゲノム(翻訳される遺伝子が少ない系)ではコドンの再割り当てが起こりうることを示しています。
LUCA(Last Universal Common Ancestor)は、現存する全ての生物の最終共通祖先です。LUCAは化石として発見されたわけではなく、全生物に共通する分子的特徴から推定されます。
B-1-2で学んだ分子時計の概念を使って、LUCAの年代を推定できます。全生物に共通するリボソームRNA(16S/18S rRNA)の配列比較から、細菌と古細菌の分岐年代を逆算すると、LUCAは約38〜42億年前に存在したと推定されます。最古の確実な微化石は約35億年前のものであり、分子時計の推定と整合しています。
細菌・古細菌・真核生物の3ドメイン全てがDNAゲノムとほぼ同一の遺伝暗号を持つことから、LUCAは既にDNAゲノムを獲得していたと推定されます。ただし、DNA複製に関わるタンパク質(DNAポリメラーゼ)は細菌と古細菌/真核生物で系統的に異なるため、LUCAのDNA複製系はまだ原始的だった可能性があります。
Q1. RNAワールド仮説が「鶏と卵」問題を解決する理由を説明せよ。
Q2. アイゲンのエラーカタストロフとは何か。原始的RNA複製における制約を数値を用いて説明せよ。
Q3. 脂肪酸小胞がリン脂質膜と比較して原始細胞のモデルとして適している理由を2つ挙げよ。
Q4. コアセルベートとプロトセル(脂肪酸小胞モデル)の違いを説明せよ。
Q5. LUCAが持っていたと推定される4つの分子的特徴を挙げよ。
RNAワールドからDNA/タンパク質ワールドへの移行はどのように起こったと考えられるか。「なぜDNAが情報保存を引き継いだのか」「なぜタンパク質が触媒機能を引き継いだのか」をそれぞれ分子の化学的性質から考察せよ。
DNAが情報保存を引き継いだ理由:(1)DNAの2'-デオキシリボースはRNAの2'-OHを欠くため化学的に安定(アルカリ加水分解を受けにくい)、(2)チミン(5-メチルウラシル)はシトシンの脱アミノ化産物(ウラシル)と区別可能で、修復が容易。タンパク質が触媒を引き継いだ理由:20種類のアミノ酸は4種類のヌクレオチドよりも側鎖の化学的多様性が高く、酸塩基触媒、金属配位、疎水性ポケット形成など多様な触媒機構を実現できる。
DNAの化学的安定性は長期的な情報保存に有利であり、タンパク質の化学的多様性は触媒の汎用性に有利です。RNAは両方を「そこそこ」できますが、専門化した分子にはかないません。
遺伝暗号の「凍結事故仮説」と「適応仮説」の違いを説明し、現在の遺伝暗号表の特徴(類似アミノ酸が類似コドンに割り当てられている)がどちらの仮説をより支持するか、根拠とともに考察せよ。
凍結事故仮説:コドン-アミノ酸対応は偶然に決まったが、一度確立されると変更コストが大きすぎて凍結された(クリック, 1968年)。適応仮説:翻訳誤りの影響を最小化するように自然選択が働いた。遺伝暗号表の特徴として、疎水性アミノ酸(Val, Ile, Leu)は類似コドン(GUX, AUX, CUX)に、親水性アミノ酸(Asp, Glu)は類似コドン(GAX)に割り当てられている。1塩基の翻訳誤りが化学的に類似したアミノ酸への置換になるため、タンパク質機能への影響が最小化される。この特徴は適応仮説をより支持する。
ランダムなコドン表10万種をシミュレーションすると、現実の遺伝暗号表が「翻訳誤りによるアミノ酸変化の化学的距離」を最小化する点で上位0.01%に入ることが示されています。これは適応仮説の定量的支持です。
Eigenのエラーカタストロフ理論によれば、自己複製分子が情報を維持できる最大ゲノム長 $L_{\max}$ は、1塩基あたりの複製忠実度 $q$ と選択優位 $s$ によって制約される。忠実度条件は $q^L > 1/s$(ここで $s$ は野生型の適応度を変異体集団の平均適応度で割った値)で与えられる。以下の問いに答えよ。
(a) 忠実度条件 $q^L > 1/s$ を変形して、維持可能な最大ゲノム長 $L_{\max}$ を $q$ と $s$ を用いて表せ。RNAポリメラーゼの忠実度が $q = 0.999$(1塩基あたりのエラー率 $10^{-3}$)、選択優位 $s = 10$ のとき、$L_{\max}$ を計算せよ。
(b) 上記の $L_{\max}$ はRNAウイルスの実際のゲノムサイズと比較してどうか。コロナウイルス(約30,000塩基)がこの限界を超えてゲノムを維持できる理由を、校正活性(ExoN)の観点から説明せよ。
(c) Eigenのハイパーサイクルモデルでは、複数の自己複製分子が協同的に結合することでエラーカタストロフの制約を回避できるとされる。ハイパーサイクルが $n$ 種の複製子から構成されるとき、各複製子のゲノム長が $L_{\max}$ 以下であれば系全体として $n \times L_{\max}$ の情報を維持できる理由を説明せよ。また、ハイパーサイクルの安定性を脅かす「寄生体問題」とは何か、その解決策としての区画化(プロトセル)の役割を論じよ。
(a) $q^L > 1/s$ の両辺の対数をとると $L \ln q > -\ln s$ となる。$\ln q < 0$ なので $L < \ln s / (-\ln q) = \ln s / |\ln q|$。よって
$$L_{\max} = \frac{\ln s}{|\ln q|}$$
$q = 0.999$ のとき $|\ln 0.999| \approx 0.001$、$s = 10$ のとき $\ln 10 \approx 2.303$。したがって
$$L_{\max} = \frac{2.303}{0.001} \approx 2300$$
すなわち、約2,300塩基が維持可能な最大ゲノム長である。
(b) 多くのRNAウイルス(インフルエンザ約13,500塩基、HIV約9,700塩基)はゲノムを分節化するか、$L_{\max}$ の範囲に収まる戦略をとっている。一方、コロナウイルス(約30,000塩基)は $L_{\max} \approx 2,300$ を大幅に超える。これはコロナウイルスが持つnsp14のExoN(3'→5'エキソヌクレアーゼ)校正活性により、実効的な忠実度が $q \approx 0.99999$(エラー率 $\sim 10^{-5}$)に向上するためである。この場合 $L_{\max} = \ln 10 / 10^{-5} \approx 230,000$ 塩基となり、30,000塩基のゲノムを十分維持できる。
(c) ハイパーサイクルでは、複製子 $I_1 \to I_2 \to \cdots \to I_n \to I_1$ が環状の触媒ネットワークを形成し、各複製子が次の複製子の複製を触媒する。各複製子は独立に $q^{L_i} > 1/s_i$ の忠実度条件を満たせばよく、系全体の情報量は $\sum_{i=1}^{n} L_i \leq n \times L_{\max}$ まで拡張される。寄生体問題とは、ネットワークに貢献せず他の複製子の触媒活性だけを利用する「フリーライダー」変異体が出現し、協同ネットワークを崩壊させることである。区画化(脂質膜によるプロトセルの形成)は、寄生体を含む区画が増殖で不利になることでグループ選択を可能にし、寄生体を排除する。これがRNAワールドからプロトセルへの移行の選択圧となったと考えられている。
エラーカタストロフの閾値条件は、RNAウイルスの進化やがんの変異誘発治療(リバビリン等によるlethal mutagenesis)にも応用されています。ハイパーサイクルは理論的にはエレガントですが、寄生体問題という深刻な弱点を持ちます。Szathmaryらは、区画化によるグループ選択が「確率的修正因子」として機能し、寄生体を統計的に排除することを示しました。この理論は生命の起源における「個体」の誕生とも深く関わっています。