毎日夜19:30に更新中!腸内細菌相談室。
現役の研究者である鈴木大輔が、腸内細菌にまつわるエピソードをお届けしております🦠
今回は、腸内環境を理解するために必要な生物学の知識を学ぶシリーズの第13回目ということで、ゲノム、メタゲノムに引き続くゲノム、MAGについてのお話をします。MAGはMetagenome Assembled Genomeの頭文字を取った単語で、計算機の支えにより得られるようになったゲノムです。MAGとは何か、MAGは腸内環境を考える上で何故重要なのか、この点についてお話をしていきます!
このお話は、聴いて楽しむポッドキャストでも公開しております!ぜひ遊びに来てください!
https://open.spotify.com/show/5cg5yMYD7FA9NQSSbksEVx
まずは、MAGとは何なのかお話します。MAGは、Metagenome Assembled Genomeの頭文字を表しており、メタゲノムリードから再構成されたゲノムと成ります。つまり、微生物の単離培養によって得られたリードではなく、微生物群衆から得られたメタゲノムのリードを、ゲノムの塩基配列を決定する上で用いるという手法と成ります。
でも、そんなことは可能なのでしょうか?バラバラにしたDNA断片を複数の生物間で混ぜた上で、再び生物ごとにDNA断片を集めて再構成するなんて、できるのでしょうか?この作業が難しいことを、比喩によって確認します。
皆さんの手物とには、異なる分厚い専門書が4冊あるとします。もったいないですが、これら4冊の本をシュレッダーによりバラバラにしてしまいます。バラバラになった4冊の本の紙切れを混ぜてみます。ここから、改めて4冊の本の紙切れを本ごとに分別した上で、紙切れをつなぎ合わせることで4冊の読める本に戻そうというのです。気の遠くなりそうな作業ですが、原理的には可能です。なぜなら4冊の専門書の材料は、目の前の紙の山に全て揃っているからです。
この比喩表現はあながち間違っていません。例えば大腸菌のゲノムサイズは4.64 Mbです1*。これは、文字数に変換すると4640000文字です。これは通常の辞書と同等の文字数ですから、大腸菌以外にも様々な細菌が存在する環境のメタゲノムリードからMAGを作るというのは、比喩通りの作業なのです。
しかし、辞書のアナロジーとは異なる点もあります。つまり、メタゲノムの正体はDNA断片であることから、登場する文字の種類はアデニン、グアニン、シトシン、チミンの4種類であり、文脈が分かりづらいこと、紙の破れ方という情報が失われているため情報が少ないことです。これらは、MAGを作る作業をより難しくしてしまいます。一方、MAGを作る際に使用するサンプルに、無数の微生物が種類の重複を許して存在するとすれば、問題を簡単にしてくれます。
いずれにせよ、ショットガンメタゲノムシーケンシングより得られたリードから、MAGを再構成するのは、非常に挑戦的な課題と言えます。
では、実際にどのようなプロセスをへてマグは作られていくのでしょうか。具体的には以下のステップを経て作られます2*。
微生物群衆を含んだサンプルを用意する (ex. 糞便=うんち, 海水)
サンプルからDNAを抽出する
ショットガンメタゲノムシーケンシングを行う
得られたリードをアセンブルする:プライマリーメタゲノム
アセンブルされたリード=コンティグをk-mer頻度などの指標により分別する
分別されたコンティグをまとめる:ビニング
ビニングされたコンティグ=Binned メタゲノムから、配列の完成度・コンタミネーションにより選出し、MAGとなる
ここで、ステップ1から3については、#82と#83で紹介しているので省略します。続いて、ステップ4については、手に入っているDNA断片について、重複する塩基配列部分=オーバーラップがあれば、1つの文字列に結合していきます=アセンブル。ここで、アセンブルされたリードをプライマリーメタゲノムとよび、プライマリーメタゲノムを構成する結合されたDNA断片をコンティグと呼びます。
続いて、コンティグのプロファイリングを行います。つまり、それぞれのコンティグを特徴づける量を決定するのです。その代表例がK-mer頻度になります。K-mer頻度とは、あるDNA断片を長さがK文字の文字列により分解した場合の、文字列の頻度になります。例えば、ATGCというDNA断片があります。これに対する2-merを考えてみましょう。2文字の文字列によりATGCを分解すると、AT、TG、GCとなります。ですから、AT=1、TG=1、GC=1の頻度です。では、AAATでの2-merはどうでしょうか?これは、AA=2、AT=1となります。このように、K-mer頻度を決定することで、コンティグのプロファイリングが可能です。実は、生物種ごとにK-mer頻度がある程度決まっていることが分かっているので、コンティグのK-mer頻度を知ることには重要な意味があるのです。
コンティグのプロファイリングが終了したら、その結果に応じてコンティグを分類します。これを瓶詰め作業=ビニングと呼びます。ビニングされたコンティグに対して再解析を行い、一定の基準を満たした配列群をMAGと呼びます。これが、メタゲノムリードからゲノムを構築する流れです。
ステップ3以降はコンピュータ上で処理される点、MAGはコンピュータにて生まれたゲノムと言えるでしょう。
もちろん完全ゲノムと比較すると、塩基配列のギャップが生じていたり、不完全な点がMAGにはあります。しかし、それ以上に、MAGを得ることで腸内細菌叢を培養せずに、大まかな情報を知ることができるようになったのは重要な意味を秘めています。
例えば、腸内細菌叢を構成する細菌の相対存在量を求めたり、腸内での代謝はどのように起こっているのか調べたり、一連の解析=メタゲノム解析を行うことで、今までは未知だった腸内環境の成り立ちが鮮明に見える様になってきました。
腸内環境を理解するためには、生物学と情報学の発展が欠かせませんでした。そして、両分野の発展にて生まれたゲノムこそが、MAGなのです。
ここまでに、正直に言うとかなり専門的な内容にまで踏み込んできました。次回は、本シリーズの最終回として、Part1-13までの復習をして締めくくりたいと思います。
腸内細菌の分からないに答えるために、腸内細菌相談室は存在します!わからないこと、難しいこと、紹介してほしいことがあれば、TwitterやInstagram、Noteコメント欄にてメッセージお待ちしております。読んでほしい論文リクエストも待っています!
こちらがTwitterです!
https://twitter.com/chonai_saikin
インスタグラムはこちらです!
https://www.instagram.com/chonai_saikin
ついに、腸内細菌相談室初の長編にも終わりが見えてきました。
次回もお楽しみに!
本日も一日、お疲れさまでした。
1* 藤山秋佐夫(2001), 22 細菌 Escherichia coli K12 MG1655(大腸菌), ゲノムプロジェクト ~ 全ゲノム配列が発表・公開された生物, Access: 2022/11/14.
https://www.nig.ac.jp/museum/OLD-MS/genetic-x/06_c.html
2* Lee, (2019). Happy Belly Bioinformatics: an open-source resource dedicated to helping biologists utilize bioinformatics. Journal of Open Source Education, 4(41), 53, https://doi.org/10.21105/jose.00053
https://doi.org/10.21105/jose.00053