高校生物では「DNAが転写されてmRNAになり、mRNAが翻訳されてタンパク質になる」というセントラルドグマの流れを学びます。しかし、転写開始複合体はどう組み立てられるのか、スプライソソームはどうやってイントロンを正確に切り出すのか、リボソームはどうやって正しいアミノ酸を選ぶのか──これらの精巧な分子機構を理解することで、遺伝子発現の真の姿が見えてきます。
高校生物で学ぶ遺伝子発現の基本は次の通りです。
しかし、「RNAポリメラーゼはどうやってプロモーターを見つけるのか」「スプライシングの正確性はどう保証されるのか」「リボソームはどうやってコドンとアンチコドンの相補性を検証するのか」「翻訳のエネルギーコストはどれくらいか」── これらの問いに高校では答えていません。
遺伝子発現とは、DNA上の塩基配列情報をタンパク質のアミノ酸配列情報に変換する過程です。この変換には大量のエネルギーとタンパク質が必要であり、急速に増殖する細胞(大腸菌など)では全エネルギーの約70-80%がリボソームによる翻訳に消費されます。これほどのコストをかけてでも正確な情報変換を行うことが、生命の根幹を支えています。
真核生物には3種類のRNAポリメラーゼがあります。
| 酵素 | 転写する遺伝子 | 阻害剤 |
|---|---|---|
| RNAポリメラーゼI | rRNA(18S, 28S, 5.8S) | なし |
| RNAポリメラーゼII | mRNA, snRNA, miRNA | α-アマニチン(低濃度) |
| RNAポリメラーゼIII | tRNA, 5S rRNA | α-アマニチン(高濃度) |
タンパク質をコードするmRNAを転写するのはRNAポリメラーゼII(Pol II)です。Pol IIは12のサブユニットからなる巨大な複合体で、最大サブユニット(Rpb1)のC末端ドメイン(CTD)には7残基の繰り返し配列(YSPTSPS)が52回(ヒト)繰り返されています。CTDのリン酸化状態が転写の各段階(開始→伸長→終結)を制御します。
Pol II単独ではプロモーターに結合できません。基本転写因子(TFIIA, B, D, E, F, H)が順序立てて集合し、転写開始複合体(Pre-Initiation Complex, PIC)を形成します。
誤:全ての遺伝子のプロモーターにTATAボックスがある
正:TATAボックスを持つプロモーターはヒトの遺伝子の約10-20%にすぎません。多くの遺伝子は「TATAレス」プロモーターを持ち、Inr(イニシエーター)配列やCpGアイランドを利用して転写を開始します。
転写中のmRNA前駆体(pre-mRNA)は3つの修飾を受けます。
スプライソソームは5種類のsnRNP(U1, U2, U4, U5, U6)と多数のタンパク質からなる巨大な複合体(約300タンパク質)で、2段階のエステル交換反応によりイントロンを除去します。
ヒトの遺伝子は平均8.8個のエクソンを持ち、約95%の遺伝子で選択的スプライシング(alternative splicing)が起こります。$n$ 個のエクソンからの選択的スプライシングで理論上生じうるmRNAアイソフォームの数は
$$N_{\text{isoform}} = \sum_{k=1}^{n} \binom{n}{k} = 2^n - 1$$
$n = 8.8$ なら理論上約445通り。実際にはスプライシングの組合せには制約がありますが、ヒトの約20,000遺伝子から10万種以上のmRNAが生じると推定されています。これが「遺伝子の数 < タンパク質の数」の主な理由です。
1977年にRobertsとSharpが独立にアデノウイルスの遺伝子にイントロンを発見しました(1993年ノーベル賞)。その後の配列解析により、イントロンの5'末端がほぼ例外なくGUで始まり、3'末端がAGで終わることが判明しました(GU-AG則)。この保存された配列がスプライソソームのsnRNAに認識されることで、正確なスプライシングが実現します。
リボソームは大小2つのサブユニットからなるリボザイム(RNA触媒)です。
| 原核生物 | 真核生物 | |
|---|---|---|
| 完全体 | 70S | 80S |
| 小サブユニット | 30S(16S rRNA + 21タンパク質) | 40S(18S rRNA + 33タンパク質) |
| 大サブユニット | 50S(23S + 5S rRNA + 31タンパク質) | 60S(28S + 5.8S + 5S rRNA + 49タンパク質) |
| 部位 | A部位(アミノアシル)、P部位(ペプチジル)、E部位(退出) | |
ペプチド結合形成を触媒するのは23S rRNA(大サブユニット)であり、タンパク質ではありません。リボソームは本質的にリボザイムであるという発見は、RNAワールド仮説を支持する重要な証拠です(Steitz, Ramakrishnan, Yonathの2009年ノーベル化学賞)。
コドンとアンチコドンの塩基対合だけでは、正しいtRNAと誤ったtRNAのエネルギー差は小さく($\Delta\Delta G \approx 2-3$ kJ/mol)、誤り率は$10^{-2}$程度にしかなりません。しかし実際の翻訳誤り率は$10^{-4}$程度です。この100倍の改善を実現するのがkinetic proofreading(動力学的校正)機構です。
Hopfield(1974年)が提唱したkinetic proofreadingでは、初期選択(誤り率 $f$)の後に不可逆的なエネルギー消費ステップ(GTP加水分解)を挿入することで、誤り率が$f$の2乗に改善されます。
$$\varepsilon_{\text{final}} \approx f^2$$
初期選択で$f \approx 10^{-2}$であれば、1回のproofreading後は$10^{-4}$となり、実測値と一致します。この改善にはGTP 1分子のエネルギー(約$-30$ kJ/mol)が必要であり、翻訳の正確性はエネルギーで「購入」されています。
熱力学的平衡状態では、配列認識の正確性は自由エネルギー差で制限されます($f \geq e^{-\Delta\Delta G / RT}$)。しかし、GTP加水分解という不可逆的エネルギー消費を挿入することで、平衡限界を超えた正確性を実現できます。これがHopfieldの動力学的校正の本質であり、「正確性はタダではない──エネルギーで購入する」という生命の原理です。
1つのアミノ酸をポリペプチドに付加するには、以下のエネルギーが必要です。
合計約4 ATP当量/アミノ酸。300残基のタンパク質なら約1,200 ATP。ヒトの細胞は1秒間に約2,000個のタンパク質を合成しており、細胞全体のATP消費の大部分を翻訳が占めています。
64種のコドンのうち61種がアミノ酸をコードしますが、同義コドン(同じアミノ酸をコードする異なるコドン)は均等には使われません。高発現遺伝子では、対応するtRNAが豊富なコドン(最適コドン)が優先的に使われます。これは翻訳速度と正確性を最大化する自然選択の結果です。
バイオテクノロジーでは、目的遺伝子のコドンを宿主生物の最適コドンに変換する「コドン最適化」が広く行われています。例えば、ヒトのタンパク質を大腸菌で大量発現させるとき、ヒトの稀なコドンを大腸菌の頻用コドンに置換することで、発現量を数十倍に向上させることができます。mRNAワクチン(COVID-19)でもコドン最適化が活用されています。
A問題1 真核生物のRNAポリメラーゼII(Pol II)が単独ではプロモーターに結合できない理由と、転写開始に必要な因子群を説明せよ。
A問題2 スプライシングの2段階のエステル交換反応を、分岐点アデノシンと5'/3'スプライス部位の関係を含めて説明せよ。
A問題3 Hopfieldの動力学的校正(kinetic proofreading)の原理を説明し、翻訳の誤り率がどのように改善されるか述べよ。
A問題4 1つのアミノ酸をポリペプチドに付加するのに必要なATP当量を、各段階のエネルギー消費とともに計算せよ。
A問題5 コドン使用頻度バイアスとは何か。高発現遺伝子でバイアスが大きい理由を自然選択の観点から説明せよ。
B問題1 ヒトの遺伝子は平均8.8個のエクソンを持ち、約95%の遺伝子で選択的スプライシングが起こる。(a)遺伝子数(約20,000)とタンパク質の種類数(10万以上)のギャップを、選択的スプライシングの観点から説明せよ。(b)スプライシングの誤りがなぜ遺伝病(例:脊髄性筋萎縮症)の原因となりうるか、分子機構に基づいて考察せよ。
(a) 選択的スプライシングにより、1つの遺伝子から複数のmRNAアイソフォームが生じ、それぞれ異なるタンパク質をコードする。ヒトの約20,000遺伝子の95%で選択的スプライシングが起こるため、理論上は20,000 × 数通り以上のmRNA(=タンパク質)が生じる。これが「遺伝子数 < タンパク質種類数」のギャップを説明する。
(b) スプライス部位の変異(5'GUまたは3'AG配列の変異、分岐点の変異)が起こると、正常なスプライシングパターンが乱れ、エクソンスキッピングやイントロン保持が生じる。脊髄性筋萎縮症(SMA)ではSMN2遺伝子のエクソン7にあるスプライスエンハンサーの塩基変異により、エクソン7のスキッピングが頻繁に起こり、不安定なΔ7SMNタンパク質が生じる。
SMAの治療薬ヌシネルセン(スピンラザ)は、アンチセンスオリゴヌクレオチドとしてSMN2のエクソン7のスプライシングを修正するものです。スプライシングの分子機構の理解が新しい治療法に直結した好例です。
B問題2 翻訳のエネルギーコストが約4 ATP/アミノ酸であることを踏まえ、300残基のタンパク質1分子の合成に必要なATP数を計算せよ。また、ヒトの細胞が1日に合成するタンパク質の総量(約50億分子/細胞/日と推定)に必要な総ATP数を概算し、これが細胞のATP消費全体に占める割合を考察せよ。(ヒト細胞の1日のATP産生量は約$10^{10}$分子と仮定。)
1分子あたり:$300 \times 4 = 1200$ ATP。
1日の全タンパク質合成:$5 \times 10^9 \times 1200 = 6 \times 10^{12}$ ATP。
1日のATP産生量に占める割合:$6 \times 10^{12} / 10^{10} = 600$。
この計算は翻訳だけで1日のATP産生量の600倍を消費することを示すが、これは仮定した$10^{10}$が過小評価であることを意味する。実際のヒト細胞は1日に約$10^{16}〜10^{17}$ ATPを産生すると推定されており、その場合翻訳が占める割合は約6%〜60%となる。このように、翻訳は細胞のエネルギー消費の大きな部分を占めている。
実際の推定では、急速に増殖する細胞(大腸菌など)ではATPの約70-80%が翻訳に消費されるとされています。ヒトの非分裂細胞では割合はもう少し低いですが、それでもタンパク質合成が最大のエネルギー消費先の一つです。
タンパク質の翻訳は細胞内で最もエネルギーを消費する過程の一つである。翻訳のエネルギーコストを定量的に計算し、kinetic proofreadingによる精度保証のコストを評価せよ。
(a) 平均400残基のタンパク質1分子を翻訳するために消費されるGTPとATPの数を、以下の各段階について計算し、合計を求めよ。(1) アミノアシルtRNA合成:アミノ酸1個あたりATP 2分子相当(ATP → AMP + PPi、PPi → 2Pi で合計2高エネルギー結合)、(2) リボソームへのaa-tRNA運搬(EF-Tu/EF-1A):GTP 1分子/アミノ酸、(3) トランスロケーション(EF-G/EF-2):GTP 1分子/アミノ酸、(4) 開始因子によるGTP消費:1分子、(5) 終結・リサイクリングのGTP消費:1分子。
(b) 翻訳のkinetic proofreadingでは、EF-Tuが正しいコドン-アンチコドン対合を識別する際にGTPを加水分解する。この「初期選択 + 校正」の2段階により、コドン-アンチコドンの平衡識別比 $f \approx 10^{1.5}$ から最終識別比 $f^2 \approx 10^3$ を達成している。もし校正なし(GTP消費なし)で翻訳したら、400残基のタンパク質中に平均何個の誤ったアミノ酸が含まれるか。校正あり(実際のエラー率 $\sim 10^{-4}$)の場合と比較せよ。
(c) 大腸菌は倍加時間20分で増殖するとき、1細胞あたり約 $2 \times 10^6$ 個のタンパク質を持ち、1世代で全タンパク質を合成する。(a) の結果を用いて、1世代の翻訳に必要な総ATP相当数を計算せよ。大腸菌が1秒あたり約 $5 \times 10^7$ ATPを産生するとして、翻訳がATP消費全体に占める割合を推定せよ。
(a) 各段階のコスト(400残基のタンパク質1分子あたり):
(1) アミノアシルtRNA合成:$400 \times 2 = 800$ ATP相当
(2) EF-Tu:$400 \times 1 = 400$ GTP
(3) EF-G:$400 \times 1 = 400$ GTP
(4) 開始:1 GTP
(5) 終結・リサイクリング:1 GTP
$$合計 = 800 + 400 + 400 + 1 + 1 = 1602$$
高エネルギーリン酸結合に換算して、タンパク質1分子あたり約1,600 ATP相当。1残基あたり約4 ATP相当である。
(b) 校正なしの場合、コドン-アンチコドンの平衡識別比は $f \approx 10^{1.5} \approx 30$ であるから、誤ったアミノ酸が挿入される確率は約 $1/30 \approx 0.033$。400残基のタンパク質中の誤アミノ酸数は
$$400 \times 0.033 \approx 13$$
すなわち平均13個もの誤りが含まれ、多くのタンパク質が機能不全となる。校正ありの場合(エラー率 $\sim 10^{-4}$)
$$400 \times 10^{-4} = 0.04$$
約25分子に1個の割合でしか誤りが入らず、大多数のタンパク質は正しく合成される。
(c) 大腸菌1細胞のタンパク質:$2 \times 10^6$ 個、平均400残基と仮定すると、1世代あたりの翻訳コストは
$$2 \times 10^6 \times 1600 = 3.2 \times 10^9 \text{ ATP}$$
1世代(20分 = 1200秒)のATP総産生量は
$$5 \times 10^7 \times 1200 = 6 \times 10^{10} \text{ ATP}$$
翻訳が占める割合は
$$\frac{3.2 \times 10^9}{6 \times 10^{10}} \approx 0.053 = 5.3\%$$
ただし、これは翻訳の直接コストのみである。リボソーム自体の合成(rRNA転写、リボソームタンパク質の翻訳)やtRNAの合成コストを含めると、タンパク質合成関連のATP消費は全体の約70〜80%に達するとされている。
翻訳のkinetic proofreadingは、正確さを得るためにエネルギー(GTP)を「支払う」典型例です。EF-TuのGTP加水分解は正しいaa-tRNAと誤ったaa-tRNAを識別する時間差を作り出し、熱力学的限界を超える精度を達成します。この原理はHopfield(1974)とNinio(1975)が独立に提唱し、DNA複製の校正(B-6-3)とも共通する生物学の基本原理です。大腸菌の翻訳コストの計算は、増殖速度の上限がエネルギー産生能力で制約されることを定量的に理解させます。