ヒトゲノムは約30億塩基対からなりますが、タンパク質をコードする領域はわずか1.5%にすぎません。では残りの98.5%は何をしているのか? この記事では、ゲノムの「非コード領域」の意味、遺伝子ファミリーの進化、比較ゲノミクスによる生命の設計原理の解読を学びます。
高校生物ではゲノムを「ある生物が持つ遺伝情報の全体」と定義し、ヒトゲノム計画(2003年完了)を学びます。遺伝子重複が新しい遺伝子を生み出す機構であること、DNA配列の比較から系統関係を推定できることも学びます。しかし、「ゲノムの大部分がタンパク質をコードしないのはなぜか」「トランスポゾンとは何か」「ゲノム比較から何がわかるのか」は扱いません。
ゲノムは現在の設計図であると同時に、進化の歴史が刻まれた「書庫」です。遺伝子重複の痕跡(遺伝子ファミリー)、ウイルス感染の化石(内在性レトロウイルス)、転移因子の爆発的増殖の記録(SINE/LINE)──これらを読み解くことで、生命の進化のダイナミクスが見えてきます。
C値パラドックスとは、生物の複雑さとゲノムサイズ(C値)が比例しないという矛盾です。ヒトゲノムは約$3 imes 10^9$ bpですが、一部のサンショウウオは$10^{11}$ bp以上、タマネギは$1.6 imes 10^{10}$ bpと、ヒトよりはるかに大きいゲノムを持ちます。
| カテゴリ | 割合 | 内容 |
|---|---|---|
| タンパク質コード配列(エクソン) | 約1.5% | 約20,000遺伝子 |
| イントロン | 約25% | エクソンの約17倍 |
| トランスポゾン由来反復配列 | 約45% | LINE約17%、SINE約11%、DNAトランスポゾン約3%、LTR型約8%、その他約6% |
| その他の非コード配列 | 約28.5% | 制御領域、テロメア、セントロメア、非コードRNA等 |
遺伝子密度は「ゲノム1 Mbpあたりの遺伝子数」で表されます。大腸菌は約950遺伝子/Mbp、酵母は約480、ヒトは約7。つまりヒトゲノムの大部分は遺伝子ではなく、これがC値パラドックスの実体です。
誤:非コード領域は「ジャンクDNA」で機能がない
正:ENCODEプロジェクト(2012年)は、ヒトゲノムの約80%に何らかの生化学的活性(転写、クロマチン修飾など)があることを示しました。ただし、これが全て「機能的」かは議論が続いています。
ヒトのグロビン遺伝子ファミリーは、遺伝子重複と進化的分化の教科書的例です。
約5億年前にミオグロビンとヘモグロビンが分岐、約4.5億年前にα鎖とβ鎖が分岐、約2億年前にγ鎖(胎児型)とβ鎖(成体型)が分岐しました。
β-グロビンクラスターにはψβ1という偽遺伝子(pseudogene)が含まれます。偽遺伝子は遺伝子重複後に機能を失った「遺伝子の化石」であり、終止コドンやフレームシフト変異を蓄積しています。偽遺伝子の存在は遺伝子重複が起こった直接的証拠です。
トランスポゾン(転移因子)はゲノム内を移動できるDNA配列で、ヒトゲノムの約45%を占めます。
| 種類 | 機構 | ヒトゲノムでの割合 |
|---|---|---|
| LINE(L1) | RNA中間体を経て「コピー&ペースト」(レトロトランスポゾン) | 約17% |
| SINE(Alu) | L1の逆転写酵素を借りてコピー | 約11% |
| DNAトランスポゾン | 「カット&ペースト」 | 約3% |
| LTRレトロトランスポゾン | レトロウイルス様 | 約8% |
トランスポゾンは「利己的DNA」ですが、宿主ゲノムの進化にも貢献しています。例えば、哺乳類の胎盤形成に必要なシンシチン遺伝子は、内在性レトロウイルスのenv遺伝子に由来します。また、V(D)J組換え(B-11-2)のRAG1/RAG2遺伝子もトランスポゾン由来と考えられています。
異なる種のゲノムを比較すると、遺伝子の並び順が保存されている領域(シンテニーブロック)が見つかります。ヒトとマウスの間では約300のシンテニーブロックが存在し、ゲノムの約90%がカバーされます。
一塩基多型(SNP)はゲノム中で個人間に1塩基の違いがある部位で、ヒトゲノムには約400〜500万のSNPがあります。ゲノムワイド関連解析(GWAS)は、数十万〜数百万のSNPを大規模集団で解析し、疾患や形質との統計的関連を見つける手法です。
GWASでは約100万のSNPを同時に検定するため、偶然の有意差(偽陽性)を避けるために厳しい有意水準が必要です。ボンフェローニ補正では $p < 0.05/10^6 = 5 imes 10^{-8}$ が「ゲノムワイド有意」の基準として広く使われます。
Q1. C値パラドックスとは何か。ヒトゲノムのタンパク質コード割合を用いて説明せよ。
Q2. グロビン遺伝子ファミリーにおける偽遺伝子の意義を説明せよ。
Q3. LINE-1とAluの転移機構の違いを説明せよ。
Q4. GWASで「ゲノムワイド有意」の基準が$p < 5 \times 10^{-8}$である理由を説明せよ。
Q5. トランスポゾンが宿主の進化にポジティブに貢献した例を1つ挙げよ。
ヒトとチンパンジーのゲノムは塩基配列レベルで約98.8%同一である。それにもかかわらず両者の表現型に大きな違いがある理由を、遺伝子発現調節の観点から考察せよ。
ヒトとチンパンジーの差はタンパク質コード配列の違いよりも、遺伝子発現調節領域(エンハンサー、プロモーター、非コードRNA等)の違いに起因する。同じ遺伝子でも、発現する時期・場所・量が異なれば表現型は大きく変わりうる。特に脳の発達に関連する遺伝子の発現パターンの差が、ヒト特有の認知能力に寄与していると考えられている。B-8-2で学んだevo-devoの「同じツールキット遺伝子、異なるエンハンサー」の原理が、種間の形態差の主因である。
「ゲノムの98.8%が同一」は「残り1.2%の差」が重要であることを意味しますが、その差は主にタンパク質配列ではなく制御領域にあります。
ENCODEプロジェクトは「ヒトゲノムの約80%に生化学的活性がある」と報告した。これが「80%のゲノムが機能的」であることを意味するかどうか、批判的に考察せよ。
「生化学的活性がある」と「機能的」は同義ではない。生化学的活性(転写されている、クロマチン修飾がある等)は検出可能な化学反応が起きていることを示すが、それが生物にとって有益な機能を持つかは別問題。批判者は、ランダムな転写ノイズや確率的クロマチン修飾も「活性」として検出されると指摘する。進化的保存(種間で配列が保存されている)を機能性の基準とすると、機能的領域はゲノムの約5-15%程度と推定される。ただし、種特異的な機能(ヒト固有のエンハンサー等)は種間比較では検出できないため、真の機能的割合は5-15%より大きい可能性がある。
「ジャンクDNA」論争は現在も続いています。「機能」の定義自体が議論の対象であり、科学における概念の厳密さの重要性を示す好例です。
C値パラドックス(C-value paradox)とは、生物の複雑さとゲノムサイズの間に相関がないことを指す。ヒトゲノムのサイズとその構成を定量的に分析し、「なぜヒトゲノムの大部分はタンパク質をコードしないのか」を考察せよ。
(a) ヒトゲノムのサイズは $3.2 \times 10^9$ bp(3.2 Gb)であり、タンパク質コード配列(エクソン)はゲノム全体の約1.5%を占める。タンパク質コード領域のサイズ(bp)と非コード領域のサイズ(bp)をそれぞれ計算せよ。また、ヒトの遺伝子数が約20,000個で、エクソンの平均サイズが約150 bp、1遺伝子あたり平均約8.8個のエクソンを持つとき、全エクソンの合計サイズを計算し、上記のタンパク質コード領域と比較せよ。
(b) 非コード領域(約98.5%)の内訳を定量的に示せ。以下のデータを用いて各カテゴリーのサイズ(Gb)と割合(%)を計算せよ:トランスポゾン由来配列(全ゲノムの約45%:LINE 約20%、SINE 約13%、DNAトランスポゾン 約3%、LTRレトロトランスポゾン 約9%)、イントロン(約25%)、遺伝子間領域(約25%)、その他の非コード機能性RNA等(約3.5%)。
(c) 玉ねぎ($16.4$ Gb)はヒト($3.2$ Gb)の約5倍のゲノムサイズを持つ。一方、フグ($0.39$ Gb)はヒトの約1/8である。3種の遺伝子数はいずれも約20,000〜25,000個で大差ない。この事実から、ゲノムサイズの差を生む主要因は何か。フグのゲノムがコンパクトな理由を、イントロンサイズとトランスポゾン含量の観点から定量的に説明せよ。フグの全エクソン量がヒトとほぼ同じ(約48 Mb)であることを用いて、フグゲノムに占めるエクソンの割合を計算せよ。
(a) タンパク質コード領域:
$$3.2 \times 10^9 \times 0.015 = 4.8 \times 10^7 \text{ bp} = 48 \text{ Mb}$$
非コード領域:
$$3.2 \times 10^9 - 4.8 \times 10^7 = 3.152 \times 10^9 \text{ bp} \approx 3.15 \text{ Gb}$$
全エクソンの合計サイズ(遺伝子数 × エクソン数/遺伝子 × 平均エクソンサイズ):
$$20000 \times 8.8 \times 150 = 2.64 \times 10^7 \text{ bp} = 26.4 \text{ Mb}$$
これは上記のタンパク質コード領域48 Mbの約55%である。残りの約22 Mbには、UTR(非翻訳領域)が含まれる。厳密にはタンパク質コード領域(CDS)は約26〜30 Mbであり、1.5%には5'UTRと3'UTRも含まれている。
(b) 非コード領域の内訳:
トランスポゾン由来配列(合計45%):$3.2 \times 0.45 = 1.44$ Gb
- LINE(20%):$3.2 \times 0.20 = 0.64$ Gb
- SINE(13%):$3.2 \times 0.13 = 0.42$ Gb
- LTRレトロトランスポゾン(9%):$3.2 \times 0.09 = 0.29$ Gb
- DNAトランスポゾン(3%):$3.2 \times 0.03 = 0.10$ Gb
イントロン(25%):$3.2 \times 0.25 = 0.80$ Gb
遺伝子間領域(25%):$3.2 \times 0.25 = 0.80$ Gb
その他(非コードRNA等、3.5%):$3.2 \times 0.035 = 0.11$ Gb
合計:$1.44 + 0.80 + 0.80 + 0.11 + 0.048 = 3.2$ Gb(エクソン1.5%を含む)。最大のカテゴリーはトランスポゾン由来配列であり、ゲノムのほぼ半分を占める。
(c) ゲノムサイズの差を生む主要因はトランスポゾンの蓄積量とイントロンのサイズである。フグ(Takifugu rubripes)のゲノム(0.39 Gb)がコンパクトな理由:(1) トランスポゾン含量が極めて少ない(ゲノムの約2.7%、約10.5 Mb、ヒトの1.44 Gbの約1/140)、(2) イントロンが短い(平均約740 bp、ヒトの平均約6,000 bpの約1/8)。
フグゲノムに占めるエクソンの割合:
$$\frac{48 \times 10^6}{0.39 \times 10^9} = \frac{48}{390} \approx 0.123 = 12.3\%$$
ヒト(1.5%)の約8倍の割合をエクソンが占めている。これは遺伝子数・エクソン量はほぼ同じでも、「詰め物」(トランスポゾン、長いイントロン)の量が異なるためである。C値パラドックスの本質は、ゲノムサイズを決めるのは遺伝子数ではなく非コード領域(特にトランスポゾン)の蓄積量であるということに帰着する。
C値パラドックスは、ゲノムが「遺伝子の設計図」だけではなく、トランスポゾンの「生態系」でもあることを示しています。Doolittleらの「利己的DNA」仮説(1980)は、ゲノムサイズの大部分がトランスポゾンの自己増殖の結果であると主張しました。一方、ENCODEプロジェクト(B-7-3本文参照)は非コード領域の一部に調節機能があることを示しており、「ジャンクDNA」がどの程度本当に「ジャンク」なのかは現在も議論が続いています。フグのコンパクトなゲノムは、進化の過程でトランスポゾンの増殖が抑制された結果であり、機能的に必要な領域の「最小セット」に近いモデルゲノムとして利用されています。