

夏の繁華とは対照的に,夏の間の疲れを癒すような,涼しくてすごしやすい季節になりました。静岡県三島市にある DDBJ からは,美しい富士山を見ることができますが,
最近は,DDBJ からでも,富士山の頂上あたりが雪化粧している姿をうっすらと見ることができます。(もう雪か・・)と思っていたら,今年の富士山初冠雪は8月9日だったとのことで,これは観測記録を94年ぶりに更新し,昨年に比べたら58日も早かったそうです。
これも異常気象の一種でしょうか。
秋の晴れた日には,空が青く,空気が澄み,気持ちも穏やかになります。皆様におかれましては,情緒溢れる秋をたっぷりとご堪能ください。
隔月公開の DDBJ メールマガジン第40号 web 版です。メールマガジンに関するご質問やご意見がありましたら
までどうぞ。
秋の晴れた日には,空が青く,空気が澄み,気持ちも穏やかになります。皆様におかれましては,情緒溢れる秋をたっぷりとご堪能ください。
隔月公開の DDBJ メールマガジン第40号 web 版です。メールマガジンに関するご質問やご意見がありましたら
までどうぞ。
DDBJ, EMBL-Bank/EBI, GenBank/NCBI の3大国際 DNA データバンクは,国際塩基配列データベース共同構築の運営・推進を図るために,国際実務者会議を年1回開催しています。 2008年は 5月20日-22日にDDBJ で開催されました。
DDBJ, EMBL-Bank, GenBank 三極の活動の年次報告が行なわれた後,INSDC; International Nucleotide Sequence Database Collaboration 運用上の実務的な問題を以下のように討論しました。
検討事項と今後の課題
- 新 division, TSA (Transcriptome Shotgun Assembly)
2008年6月から INSDC では, 再構成された(assembled) mRNA 配列を格納するための新 division, TSA にデータを受け付け, 公開しています。TSA を登録するためには, その登録に先立って再構成の元となる1次転写産物 (primary transcripts) の配列データをINSDC の EST division, Trace Archive, Short Read Archive の何れかに登録しておく必要があります。TSA への登録方法などの情報は, 今後, DDBJ website で紹介していく予定です。 - 次世代型配列決定によるデータの潮流と対応
原則として, 次世代型配列決定による未処理の配列データ (raw reads) はShort Read Archiveへ登録されるべき対象です。MINSEQE (Minimal Information about a High Throughput Sequencing Experiment) ワークショップの結果を受けて, INSD 登録を当初意図していない次世代型配列決定の結果から, 多型の発見, 再アノテーションなどにより, TPA, あるいは, TSA として INSD への登録となることが可能かもしれません。しかし, INSD への登録が有意に増大することは, 当面, ないという見通しです。 - 多型関連研究における同一配列の代表登録
基本的には, INSDC は同一であっても独立に得られた配列であれば受け付けており, その点において特に変更はありませんが, 近年, 増加傾向にある多型関連研究において使用したサンプルの全てを登録するとすれば, 冗長となる場合もあります。多型関連研究においては /frequency qualifier で出現頻度とサンプル総数を記載し代表配列のみに集約して登録する方法も受け付けることをあらためて確認しました。 - REFERENCE/JOURNAL 行から電子出版のフラグ「(er)」を削除
REFERENCE/JOURNAL 行において電子出版を示す符号「(er)」を廃止します。古い仕様のもとの既登録データは, 適宜, 修正予定です。
Feature と Qualifier の改訂
以下に挙げる項目は,特に断り書きがない限り,2008年10月の Feature Table Definition の改訂後に適用されます。 - /mol_type qualifier の規定値変更;
source feature で由来分子種を示す /mol_type qualifier の規定値を変更します。 ) 追加: "transcribed RNA"
) 廃止: "snoRNA", "snRNA", "scRNA", "pre-RNA" and "tmRNA" - /organelle qualifier で新規定値 "chromatophore" を使用可能にします。 - /ncRNA_class の規定値変更
ncRNA feature において種類を示すために用いる /ncRNA_class qualifier の規定値リストを変更します。 ) 追加: "6S/SsrS", "SraD RNA", "DsrA RNA", "SroC"
) 変更: "hammerhead ribozyme" --> "ribozyme" Controlled vocabulary for ncRNA classes もご参照ください - 新規に /satellite qualifier を repeat_region feature で使用可能にします。
書式 "<satellite_type>[:<class>][ <identifier>]" satellite_type のみ必須で下記の3つの何れか
"satellite", "microsatellite", "minisatellite"
従来は存在比率の小数記載のみでしたが, 「 [n] samples 中の [m] samples 観測した」などを示す目的で, 以下の書式も可能とします;
"[m] in [n]", "[m] / [n]"
/host と /lab_host とも, 可能な限り, 二名法の生物学名を記載します。
注) /proviral qualifier は維持します - /cons_splice qualifier を廃止します
- /rearranged と /germline qualifier の検証強化
本来は, /rearranged と /germline は ともに適応的免疫反応による体細胞のゲノム再編成の有無を示します。しかし, 誤用が多いため, チェックを強化します。 - 新規に /gene_synonym qualifier を /gene qualifier を記載可能な全ての feature で使用可能とします
また, 関連して/gene qualifier 用法の軽微な修正を検討中です。 - /inference 書式仕様の拡張
推論根拠をより効率よく記載するために, /inference 書式仕様を検討中です。 - 新規に /mating_type qualifier を source feature で使用可能にします。
従来の /sex qualifier も維持します。/mating_type と /sex 用法のガイドラインを検討中です。
検討事項と今後の課題- 新 division, TSA (Transcriptome Shotgun Assembly)
2008年6月から INSDC では, 再構成された(assembled) mRNA 配列を格納するための新 division, TSA にデータを受け付け, 公開しています。TSA を登録するためには, その登録に先立って再構成の元となる1次転写産物 (primary transcripts) の配列データをINSDC の EST division, Trace Archive, Short Read Archive の何れかに登録しておく必要があります。TSA への登録方法などの情報は, 今後, DDBJ website で紹介していく予定です。 - 次世代型配列決定によるデータの潮流と対応
原則として, 次世代型配列決定による未処理の配列データ (raw reads) はShort Read Archiveへ登録されるべき対象です。MINSEQE (Minimal Information about a High Throughput Sequencing Experiment) ワークショップの結果を受けて, INSD 登録を当初意図していない次世代型配列決定の結果から, 多型の発見, 再アノテーションなどにより, TPA, あるいは, TSA として INSD への登録となることが可能かもしれません。しかし, INSD への登録が有意に増大することは, 当面, ないという見通しです。 - 多型関連研究における同一配列の代表登録
基本的には, INSDC は同一であっても独立に得られた配列であれば受け付けており, その点において特に変更はありませんが, 近年, 増加傾向にある多型関連研究において使用したサンプルの全てを登録するとすれば, 冗長となる場合もあります。多型関連研究においては /frequency qualifier で出現頻度とサンプル総数を記載し代表配列のみに集約して登録する方法も受け付けることをあらためて確認しました。 - REFERENCE/JOURNAL 行から電子出版のフラグ「(er)」を削除
REFERENCE/JOURNAL 行において電子出版を示す符号「(er)」を廃止します。古い仕様のもとの既登録データは, 適宜, 修正予定です。
Feature と Qualifier の改訂以下に挙げる項目は,特に断り書きがない限り,2008年10月の Feature Table Definition の改訂後に適用されます。 - /mol_type qualifier の規定値変更;
source feature で由来分子種を示す /mol_type qualifier の規定値を変更します。 ) 追加: "transcribed RNA"
) 廃止: "snoRNA", "snRNA", "scRNA", "pre-RNA" and "tmRNA" - /organelle qualifier で新規定値 "chromatophore" を使用可能にします。 - /ncRNA_class の規定値変更
ncRNA feature において種類を示すために用いる /ncRNA_class qualifier の規定値リストを変更します。 ) 追加: "6S/SsrS", "SraD RNA", "DsrA RNA", "SroC"
) 変更: "hammerhead ribozyme" --> "ribozyme" Controlled vocabulary for ncRNA classes もご参照ください - 新規に /satellite qualifier を repeat_region feature で使用可能にします。
書式 "<satellite_type>[:<class>][ <identifier>]" satellite_type のみ必須で下記の3つの何れか
"satellite", "microsatellite", "minisatellite"
Example
/satellite="satellite: S1a"
/satellite="satellite: gamma III"
/satellite="minisatellite"
/satellite="microsatellite: DC130"
- /frequency qualifier 書式の拡張変更従来は存在比率の小数記載のみでしたが, 「 [n] samples 中の [m] samples 観測した」などを示す目的で, 以下の書式も可能とします;
"[m] in [n]", "[m] / [n]"
Example
/frequency="23/108"
/frequency="1 in 12"
- 宿主を示す qualifeir, /specific_host を /host と変更します。/host と /lab_host とも, 可能な限り, 二名法の生物学名を記載します。
Example
/lab_host="Gallus gallus"
/lab_host="Gallus gallus embryo"
/lab_host="Escherichia coli strain DH5 alpha"
/lab_host="Homo sapiens HeLa cells"
- /virion qualifier を廃止します注) /proviral qualifier は維持します - /cons_splice qualifier を廃止します
- /rearranged と /germline qualifier の検証強化
本来は, /rearranged と /germline は ともに適応的免疫反応による体細胞のゲノム再編成の有無を示します。しかし, 誤用が多いため, チェックを強化します。 - 新規に /gene_synonym qualifier を /gene qualifier を記載可能な全ての feature で使用可能とします
また, 関連して/gene qualifier 用法の軽微な修正を検討中です。 - /inference 書式仕様の拡張
推論根拠をより効率よく記載するために, /inference 書式仕様を検討中です。 - 新規に /mating_type qualifier を source feature で使用可能にします。
従来の /sex qualifier も維持します。/mating_type と /sex 用法のガイドラインを検討中です。
DDBJ では,塩基配列の登録方法や DDBJ が提供しているデータベース検索・解析サービスを,ユーザの方々が深く理解していただけるように,年数回,全国各地において「DDBJing 講習会」を開催しています。DDBJing 講習会では,DDBJ スタッフが中心となって講義や実習を行い,サービスについての理解を深め,具体的な使い方を学んでいただいています。
6月に行われた “第19回 DDBJing 講習会 in 三島” に引き続き、11月27-28日に京都大学化学研究所バイオインフォマティクスセンター (京都大学宇治キャンパス)にて,講習会を開催いたします。今回は,DDBJ と,PDBj (Protein Data Bank Japan) , KEGG (Kyoto Encyclopedia of Genes and Genomes) の3者合同による講習会を初めて実施します。DDBJ,PDBj,KEGG の各 Web サービスの利用などについての講義と PC を用いた実習を行います。
開催に関する詳細は,近日中にホームページ上にてご案内いたします。 前回の講習会で使用した資料は ダウンロードページ から取得できますので,どうぞご利用下さい。
・DDBJing 講習会のページ
・DDBJing 講習会資料ダウンロードページ また,開催のご要望がありましたら検討いたしますので,以下のメールアドレスにお問い合わせ下さい。
開催に関する詳細は,近日中にホームページ上にてご案内いたします。 前回の講習会で使用した資料は ダウンロードページ から取得できますので,どうぞご利用下さい。
・DDBJing 講習会のページ
・DDBJing 講習会資料ダウンロードページ また,開催のご要望がありましたら検討いたしますので,以下のメールアドレスにお問い合わせ下さい。
DDBJ では, Trace Archive の受付・公開を行っております。この度,DDBJ で受け付けた 2 登録の FTP 公開を開始いたしました。
anonymousFTP サイトから,以下のデータの波形データ,配列,クオリティ,トレース情報の一括取得が可能です。
- 国立遺伝学研究所 (NIG) が決定したOryzias latipes (メダカ) の WGS データに対応するトレースデータ;
NCBI によって付与される TI 番号は以下の通りです:
NCBI によって付与される TI 番号は以下の通りです:
NCBI によって付与される TI 番号は以下の通りです:
- 2095022956-2095389675
- 2095396176-2096435759
- 2096858496-2096933759
FTPファイル:NIG (メダカ)
NCBI によって付与される TI 番号は以下の通りです:
- 2097946941-2099007079
FTPファイル:UTCOB (ヒト腸内微生物群)
DDBJ が管理・収集している塩基配列データベースは,リリースとして定期的に年4回オンライン上で公開しています。9月25日に DDBJ リリース75 が完成しました。リリース75 のエントリ数は 92,840,037 総塩基数は 95,219,505,205 です。
今回のリリースより TSA division (Transcriptome Shotgun Assemblies) を開始しました。詳細につきましては,DDBJ リリースノートおよび第 21 回国際実務者会議をご覧ください。
FTP によるリリースデータの取得は,FTP・WebAPI のページより可能です。
DDBJ の関連機関 遺伝学普及会 は,一般の方々を対象に生命科学に関する話題を分かりやすく解説し,サロン的な雰囲気の中で講師と参加者が気軽に対話を楽しむ場として, “蔵 de サイエンス” をスタートします。
今後,年数回のシリーズで企画される方針で,第1回目となる今回は,五條堀 孝 国立遺伝学研究所副所長 生命情報 DDBJ 研究センター長が,「“いのちを考える” DNA が語る病気と健康の未来」をテーマに講義をいたします。
講師 : 五條堀 孝 ( 国立遺伝学研究所副所長 生命情報 DDBJ研究センター長 )
内容 : “いのちを考える” DNAが語る病気と健康の未来
日程 : 10月25日(土) 18:00〜20:00
場所 : 丸平商店 有形文化財土蔵 (三島大社西徒歩1分) 参加申込方法など,詳細につきましては,財団法人遺伝学普及会ホームページの第1回 “蔵 de サイエンス” 開催のお知らせをご覧ください。
内容 : “いのちを考える” DNAが語る病気と健康の未来
日程 : 10月25日(土) 18:00〜20:00
場所 : 丸平商店 有形文化財土蔵 (三島大社西徒歩1分) 参加申込方法など,詳細につきましては,財団法人遺伝学普及会ホームページの第1回 “蔵 de サイエンス” 開催のお知らせをご覧ください。
DDBJ が登録を受付け,2008年8月から9月にかけて DDBJ/EMBL/GenBank 国際塩基配列データベースから公開した大量データは以下の通りです。
ヒメツリガネゴケ EST 56,525 エントリの新規公開
国立遺伝学研究所から登録されたヒメツリガネゴケ (Physcomitrella patens subsp. patens) の EST データ 56,525 エントリが公開されました。
アクセッション番号は以下の通りです。
- DC901515-DC958039(56,525 entries)
これらは 10/1分の新着データとしてDDBJより公開されております。また, anonymousFTP サイトから一括取得が可能です。
FTPファイル:Physcomitrella_patens_subsp._patens_EST_081001_1.seq.gz
関連ページ:
「第 N 世代シークエンサー(N=0, 1, 2, 3, 4)」
DNA が遺伝子の物質的本体であり,その構造が二重らせんであることが20世紀の前半ごろまでにわかってから,DNA の塩基配列をいかにして速く精確に決定するかが,生化学,分子遺伝学の分野で重要な課題となった。ようやく1970年代の中頃になって,ふたつのまったく異なる方法が提案され,提案者はどちらもノーベル化学賞を受賞した。ひとつはマクサム・ギルバート法である。生化学の常道にのっとり,長い塩基配列を4種類の塩基に対応する試薬を使って切断し,切られたDNA断片の長さを電気泳動法で測定し,長さの順に配列を決定するものである。もうひとつは, DNA 複製酵素の働きを使って, DNA をランダムな長さに複製するという,いわば逆転の発想をしたサンガー法である。複製を止めるために,ダイデオキシヌクレオチドという,生物が使わない物質を用いる特徴があるので,ダイデオキシ法とも呼ばれる。
第ゼロ世代のシークエンサーは,日本の和田昭允が開発した。マクサム・ギルバート法をもとにしたものだったが,様々な問題に直面したために,このシークエンサーは広く使われることのないままに開発は頓挫してしまった(岸,2004)。
第1世代のシークエンサーは,サンガー法を用いて,4種類の塩基を蛍光色素で識別するものである。最初は電気泳動を通常のアクリルアミドゲル上で行なったために,世界のあちこちで,数十センチもある大きなゲル板と格闘する研究者が見られたが,その後日本の技術でキャピラリータイプに変わっていった。ゲルを用いた時代からみると大きな変化ではあるが,サンガー法という意味では同一である。また大量に配列を決定するという点から見ても,ゲルとキャピラリーはそれほど大きな違いはない。20世紀末から21世紀初頭にかけて, ヒトゲノムをはじめとして,多数の生物のゲノムがこれらのシークエンサーで決定された。
サンガー法はすばらしい方法なので,30年近くにわたって DNA 生物学の世界に君臨してきた。しかし,塩基配列の並び方を電気泳動法で推定するという原理は,超小型化には不適切だったようだ。このためか,第2世代シークエンサーは,まったく異なる原理を使っている。ただ,サンガー法に慣れ親しんできた人間からみると,電気泳動を数十センチでなくても,数ミリの距離で終わらせて,それを顕微鏡で観察したら塩基配列を推定できるのではなかろうか,などと考えてしまう。生化学的には,実験スケールをこのように小さくすることはよくないのかもしれないが,アクリルアミドゲルは長いあいだ使われてきた技術なので,ぎりぎりまでマイクロ化する試みを今後も続けてほしいものだ。と書いたところで,ちょっと PubMed を検索したら,このアイデアに基づく多数の論文がすでに発表されていることを知った。最近では, Fredlake ら(2008)がある。
さて,第2世代シークエンサーである。一般には,次世代シークエンサーと呼ぶことが多いようだ。製品化されているものは現在3種類である。どれも塩基配列の伸張反応を段階的に検出するので,塩基配列の長さを測る必要がない。ひとつは,SNP 検出に以前から使われていたパイロシークエンス法を応用した454。この,数字がならんだ不思議な名前は,装置の規格かなにかに由来するらしい。通常の光を発するルシフェリン・ルシフェラーゼ系に持ってゆくので,検出装置もレーザーではなく,CCD カメラである。ジェームズ・ワトソンの個人ゲノムは,この装置を用いて決定された(Wheelerら,2008)。
2003年にとりあえず一段落したヒトゲノム配列決定には,世界中で総額数百億円が投入されたのではないかと思うが,この第二世代シークエンサーでは,5000万円ほどで決定されたとのことである。
実は,私の研究室でもパイロシークエンス機を用いて塩基配列決定を試みたことがある。ヒトミトコンドリア DNA の部分塩基配列(D ループともコントロール領域とも呼ばれる)は多型性が高く,これまでに数万人規模の塩基配列が世界中で決定されている。ところがアジア人には,この領域に塩基 C が10個前後並んだ部分がある。このような配列特異性のために,体細胞突然変異率が極めて高く,DNA によって塩基 C の個数が異なる,ヘテロプラスミー現象がひんぱんに生じることが知られている。このために通常のサンガー法では,このホモ C 領域以降の塩基配列が読めなくなる個体が続出したのである。そこで,私は SNP 検出に使っていたパイロシークエンス機を塩基配列決定に使うことを考えた。当時の機械では,まだ100塩基程度の長さしか塩基配列決定ができなかったが,ホモ C 配列の上流は通常のサンガー法できちんと読み取れるので,下流の部分だけを決定すればよい。パイロシークエンス法は,このようなホモ塩基配列の決定に弱点があるが,その弱みを逆に利用することにした。ホモ塩基配列はもともときわめて突然変異率が高いので,塩基配列を多重整列して系統樹を作成するには不向きな領域なのである。 そこで,その部分は無視することにした。結局この方式で塩基配列を決定することができた(嶋田ら,2002)。
ところが,ゲノム配列決定を日常的に行なっている研究者は,ホモ塩基配列といえども厳密に決めるのがこれまではあたりまえのようだ。しかしミトコンドリア DNA と同様に核 DNA でもそのような領域は突然変異率がきわめてたかく,遺伝的多型の程度が高いので,ある生物のゲノム配列をまず決定する時には,とりあえず無視してもよいのではないかと,私は考えている。このような態度をとれば,454は,今年,2008年末には1反応で500塩基程度まで読むことができるようになるので,決定できる塩基数がサンガー法に匹敵することになり,魅力的である。
第2世代のその他の2方法は,454に比べるとずっと短い配列しか読むことができない。Solexaは36塩基,SOLiD は50塩基である。ただ,どちらの方法も,454よりもずっと多量の反応を平行してこなせるので,一度に決定できる塩基配列総数はかなり多いようだ。ヒトゲノムの場合にはすでに参照ゲノム配列が存在するので,これら短い配列しか決定できない方法であっても,ゲノム配列に貼り付けてゆくことにより,遺伝的個体差を検出することを主な目的とする,いわゆるリシークエンシングには有用だろう。バクテリアのように繰り返し配列が少ないゲノムであれば,新規生物のゲノム配列決定にも使えるだろう。通常使われる PCR プライマーの長さが20塩基程度なのに,それらがゲノム中の特定領域を増幅することができることを考えれば, 数十塩基の配列といっても,数十億個あるいはそれ以上の塩基からなるゲノム配列の単一部分に対応することができるはずである。日本でも,産業技術総合研究所が沖縄県と共同で微生物ゲノムや日本人標準ゲノム配列取得をめざして,今年からこれらの機械を使う予定である (産総研プレス・リリース; 次世代シーケンサーによる先端的ゲノム研究を国内に先駆けて始動)。
第2世代のシークエンサーがようやく使われはじめたところなのに,第3世代のシークエンサーが提案された(Korlach ら, 2008)。ナノスケールの技術を使っており,薄い膜にずらりと作られる小さな孔の1個につき1個の DNA 分子をつなぎとめる。その孔には DNA ポリメラーゼが入っており,そこで DNA 複製がおこるたびに,蛍光色素が結合された4種類の塩基のどれかがつながれるたびに,孔から特定の光が発せられ,それを CCD カメラで検出するというものである。この場合,第2世代シークエンサーと異なり,DNA 複製酵素という生物で使われるものを使っているので,長い塩基配列を読むことが可能だという。第2世代と第3世代の違いは,ちょうど第0世代と第1世代の違いに対応すると言えるだろう。
実は,塩基配列決定にはすでにいろいろな方法が提案されており,提案だけにとどまっていることが多い。このため,実際に使うことができるマシンが登場しなければ,信用しにくいのであるが,2年後の2010年には製品化するとのことである。
そもそも,DNA は染色体1本まるごとつながっているのだから,そのつながりをそのまま保存して,塩基配列を連続して決定できれば理想的である。現在の技術では,せいぜい200kb 程度の長さの BAC クローンをひとつの長さとして,それを断片化して個々の断片を配列決定した後,コンピュータで配列を推定しているにすぎない。生物学者の理想は,BAC クローンの端から端までそのまま DNA 配列を決める,さらには染色体まるごとの DNA 配列を決めてしまうというものだ。こうなると,細胞の中に染色体があるままの形でマイクロマシンが細胞内に入り込み,DNA 分子の端を認識して,そこから長大な DNA 分子を滑るように動いていって,そのあいだに塩基配列を認識し,シグナル光を発してゆく,という仕組みが考えられる。こうなると,あっというまに全染色体の塩基配列を,そのままの姿で決定できるかもしれない。真の意味でのギガベース配列決定である。これは,第4世代ということになるのであろうか。第3世代が到来したら,このような夢物語も意外と実現するまでに短期間になるかもしれない。
引用文献
・岸宣仁(2004)『ゲノム敗北』ダイヤモンド社。
・嶋田誠,金衝坤,高橋文,斎藤成也,池尾一穂,五條堀孝,V. A. Spitsyn(2002)ロシア・ブリアート人集団におけるミトコンドリア DNA 多型. DNA 多型,10巻, 151-155頁.
・Fredlake CP, Hert DG, Kan CW, Chiesl TN, Root BE, Forster RE, and Barron AE. (2008)
Ultrafast DNA sequencing on a microchip by a hybrid separation mechanism that gives 600 bases in 6.5 minutes. Proc Natl Acad Sci USA, vol. 105, no. 2, pp. 476-481.
・Korlach J, Marks PJ, Cicero RL, Gray JJ, Murphy DL, Roitman DB, Pham TT, Otto GA, Foquet M, Turner SW. (2008)
Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nanostructures. Proc Natl Acad Sci USA, vol. 105, no. 4, pp. 1176-1181.
・Wheeler DA, Srinivasan M, Egholm M, Shen Y, Chen L, McGuire A, He W, Chen YJ, Makhijani V, Roth GT, Gomes X, Tartaro K, Niazi F, Turcotte CL, Irzyk GP, Lupski JR, Chinault C, Song XZ, Liu Y, Yuan Y, Nazareth L, Qin X, Muzny DM, Margulies M, Weinstock GM, Gibbs RA, Rothberg JM. (2008)
The complete genome of an individual by massively parallel DNA sequencing. Nature, vol. 452, no. 7189, pp. 872-876.
斎藤 成也
(国立遺伝学研究所 集団遺伝研究部門 教授)
塩基配列データベースを運営する DDBJ にとって,塩基配列の自動決定装置,いわゆるシークエンサーの動向は重要である。最近になって,第二世代と言われるシークエンサーが続々と登場しているが,それらを中心として,シークエンサーの開発を歴史的に考えながら,将来の展望を含めて考察してみたい。
(国立遺伝学研究所 集団遺伝研究部門 教授)
DNA が遺伝子の物質的本体であり,その構造が二重らせんであることが20世紀の前半ごろまでにわかってから,DNA の塩基配列をいかにして速く精確に決定するかが,生化学,分子遺伝学の分野で重要な課題となった。ようやく1970年代の中頃になって,ふたつのまったく異なる方法が提案され,提案者はどちらもノーベル化学賞を受賞した。ひとつはマクサム・ギルバート法である。生化学の常道にのっとり,長い塩基配列を4種類の塩基に対応する試薬を使って切断し,切られたDNA断片の長さを電気泳動法で測定し,長さの順に配列を決定するものである。もうひとつは, DNA 複製酵素の働きを使って, DNA をランダムな長さに複製するという,いわば逆転の発想をしたサンガー法である。複製を止めるために,ダイデオキシヌクレオチドという,生物が使わない物質を用いる特徴があるので,ダイデオキシ法とも呼ばれる。
第ゼロ世代のシークエンサーは,日本の和田昭允が開発した。マクサム・ギルバート法をもとにしたものだったが,様々な問題に直面したために,このシークエンサーは広く使われることのないままに開発は頓挫してしまった(岸,2004)。
第1世代のシークエンサーは,サンガー法を用いて,4種類の塩基を蛍光色素で識別するものである。最初は電気泳動を通常のアクリルアミドゲル上で行なったために,世界のあちこちで,数十センチもある大きなゲル板と格闘する研究者が見られたが,その後日本の技術でキャピラリータイプに変わっていった。ゲルを用いた時代からみると大きな変化ではあるが,サンガー法という意味では同一である。また大量に配列を決定するという点から見ても,ゲルとキャピラリーはそれほど大きな違いはない。20世紀末から21世紀初頭にかけて, ヒトゲノムをはじめとして,多数の生物のゲノムがこれらのシークエンサーで決定された。
サンガー法はすばらしい方法なので,30年近くにわたって DNA 生物学の世界に君臨してきた。しかし,塩基配列の並び方を電気泳動法で推定するという原理は,超小型化には不適切だったようだ。このためか,第2世代シークエンサーは,まったく異なる原理を使っている。ただ,サンガー法に慣れ親しんできた人間からみると,電気泳動を数十センチでなくても,数ミリの距離で終わらせて,それを顕微鏡で観察したら塩基配列を推定できるのではなかろうか,などと考えてしまう。生化学的には,実験スケールをこのように小さくすることはよくないのかもしれないが,アクリルアミドゲルは長いあいだ使われてきた技術なので,ぎりぎりまでマイクロ化する試みを今後も続けてほしいものだ。と書いたところで,ちょっと PubMed を検索したら,このアイデアに基づく多数の論文がすでに発表されていることを知った。最近では, Fredlake ら(2008)がある。
さて,第2世代シークエンサーである。一般には,次世代シークエンサーと呼ぶことが多いようだ。製品化されているものは現在3種類である。どれも塩基配列の伸張反応を段階的に検出するので,塩基配列の長さを測る必要がない。ひとつは,SNP 検出に以前から使われていたパイロシークエンス法を応用した454。この,数字がならんだ不思議な名前は,装置の規格かなにかに由来するらしい。通常の光を発するルシフェリン・ルシフェラーゼ系に持ってゆくので,検出装置もレーザーではなく,CCD カメラである。ジェームズ・ワトソンの個人ゲノムは,この装置を用いて決定された(Wheelerら,2008)。
2003年にとりあえず一段落したヒトゲノム配列決定には,世界中で総額数百億円が投入されたのではないかと思うが,この第二世代シークエンサーでは,5000万円ほどで決定されたとのことである。
実は,私の研究室でもパイロシークエンス機を用いて塩基配列決定を試みたことがある。ヒトミトコンドリア DNA の部分塩基配列(D ループともコントロール領域とも呼ばれる)は多型性が高く,これまでに数万人規模の塩基配列が世界中で決定されている。ところがアジア人には,この領域に塩基 C が10個前後並んだ部分がある。このような配列特異性のために,体細胞突然変異率が極めて高く,DNA によって塩基 C の個数が異なる,ヘテロプラスミー現象がひんぱんに生じることが知られている。このために通常のサンガー法では,このホモ C 領域以降の塩基配列が読めなくなる個体が続出したのである。そこで,私は SNP 検出に使っていたパイロシークエンス機を塩基配列決定に使うことを考えた。当時の機械では,まだ100塩基程度の長さしか塩基配列決定ができなかったが,ホモ C 配列の上流は通常のサンガー法できちんと読み取れるので,下流の部分だけを決定すればよい。パイロシークエンス法は,このようなホモ塩基配列の決定に弱点があるが,その弱みを逆に利用することにした。ホモ塩基配列はもともときわめて突然変異率が高いので,塩基配列を多重整列して系統樹を作成するには不向きな領域なのである。 そこで,その部分は無視することにした。結局この方式で塩基配列を決定することができた(嶋田ら,2002)。
ところが,ゲノム配列決定を日常的に行なっている研究者は,ホモ塩基配列といえども厳密に決めるのがこれまではあたりまえのようだ。しかしミトコンドリア DNA と同様に核 DNA でもそのような領域は突然変異率がきわめてたかく,遺伝的多型の程度が高いので,ある生物のゲノム配列をまず決定する時には,とりあえず無視してもよいのではないかと,私は考えている。このような態度をとれば,454は,今年,2008年末には1反応で500塩基程度まで読むことができるようになるので,決定できる塩基数がサンガー法に匹敵することになり,魅力的である。
第2世代のその他の2方法は,454に比べるとずっと短い配列しか読むことができない。Solexaは36塩基,SOLiD は50塩基である。ただ,どちらの方法も,454よりもずっと多量の反応を平行してこなせるので,一度に決定できる塩基配列総数はかなり多いようだ。ヒトゲノムの場合にはすでに参照ゲノム配列が存在するので,これら短い配列しか決定できない方法であっても,ゲノム配列に貼り付けてゆくことにより,遺伝的個体差を検出することを主な目的とする,いわゆるリシークエンシングには有用だろう。バクテリアのように繰り返し配列が少ないゲノムであれば,新規生物のゲノム配列決定にも使えるだろう。通常使われる PCR プライマーの長さが20塩基程度なのに,それらがゲノム中の特定領域を増幅することができることを考えれば, 数十塩基の配列といっても,数十億個あるいはそれ以上の塩基からなるゲノム配列の単一部分に対応することができるはずである。日本でも,産業技術総合研究所が沖縄県と共同で微生物ゲノムや日本人標準ゲノム配列取得をめざして,今年からこれらの機械を使う予定である (産総研プレス・リリース; 次世代シーケンサーによる先端的ゲノム研究を国内に先駆けて始動)。
第2世代のシークエンサーがようやく使われはじめたところなのに,第3世代のシークエンサーが提案された(Korlach ら, 2008)。ナノスケールの技術を使っており,薄い膜にずらりと作られる小さな孔の1個につき1個の DNA 分子をつなぎとめる。その孔には DNA ポリメラーゼが入っており,そこで DNA 複製がおこるたびに,蛍光色素が結合された4種類の塩基のどれかがつながれるたびに,孔から特定の光が発せられ,それを CCD カメラで検出するというものである。この場合,第2世代シークエンサーと異なり,DNA 複製酵素という生物で使われるものを使っているので,長い塩基配列を読むことが可能だという。第2世代と第3世代の違いは,ちょうど第0世代と第1世代の違いに対応すると言えるだろう。
実は,塩基配列決定にはすでにいろいろな方法が提案されており,提案だけにとどまっていることが多い。このため,実際に使うことができるマシンが登場しなければ,信用しにくいのであるが,2年後の2010年には製品化するとのことである。
そもそも,DNA は染色体1本まるごとつながっているのだから,そのつながりをそのまま保存して,塩基配列を連続して決定できれば理想的である。現在の技術では,せいぜい200kb 程度の長さの BAC クローンをひとつの長さとして,それを断片化して個々の断片を配列決定した後,コンピュータで配列を推定しているにすぎない。生物学者の理想は,BAC クローンの端から端までそのまま DNA 配列を決める,さらには染色体まるごとの DNA 配列を決めてしまうというものだ。こうなると,細胞の中に染色体があるままの形でマイクロマシンが細胞内に入り込み,DNA 分子の端を認識して,そこから長大な DNA 分子を滑るように動いていって,そのあいだに塩基配列を認識し,シグナル光を発してゆく,という仕組みが考えられる。こうなると,あっというまに全染色体の塩基配列を,そのままの姿で決定できるかもしれない。真の意味でのギガベース配列決定である。これは,第4世代ということになるのであろうか。第3世代が到来したら,このような夢物語も意外と実現するまでに短期間になるかもしれない。
08年10月2日
・岸宣仁(2004)『ゲノム敗北』ダイヤモンド社。
・嶋田誠,金衝坤,高橋文,斎藤成也,池尾一穂,五條堀孝,V. A. Spitsyn(2002)ロシア・ブリアート人集団におけるミトコンドリア DNA 多型. DNA 多型,10巻, 151-155頁.
・Fredlake CP, Hert DG, Kan CW, Chiesl TN, Root BE, Forster RE, and Barron AE. (2008)
Ultrafast DNA sequencing on a microchip by a hybrid separation mechanism that gives 600 bases in 6.5 minutes. Proc Natl Acad Sci USA, vol. 105, no. 2, pp. 476-481.
・Korlach J, Marks PJ, Cicero RL, Gray JJ, Murphy DL, Roitman DB, Pham TT, Otto GA, Foquet M, Turner SW. (2008)
Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nanostructures. Proc Natl Acad Sci USA, vol. 105, no. 4, pp. 1176-1181.
・Wheeler DA, Srinivasan M, Egholm M, Shen Y, Chen L, McGuire A, He W, Chen YJ, Makhijani V, Roth GT, Gomes X, Tartaro K, Niazi F, Turcotte CL, Irzyk GP, Lupski JR, Chinault C, Song XZ, Liu Y, Yuan Y, Nazareth L, Qin X, Muzny DM, Margulies M, Weinstock GM, Gibbs RA, Rothberg JM. (2008)
The complete genome of an individual by massively parallel DNA sequencing. Nature, vol. 452, no. 7189, pp. 872-876.
ddbjmag@ddbj.nig.ac.jp
この DDBJ メールマガジンは国立遺伝学研究所内の方と,所外の希望者に配信しています。
配信希望・変更・不要の方は,画面右上の「申込み・変更」ページをご利用になるか,次のメールアドレスまでご連絡下さい: ddbjmag@ddbj.nig.ac.jp
発行:日本 DNA データバンク (DDBJ)
大学共同利用機関法人 情報・システム研究機構
国立遺伝学研究所 生命情報・ DDBJ 研究センター
〒411-8540 静岡県三島市谷田1111
国立遺伝学研究所 生命情報・ DDBJ 研究センター
〒411-8540 静岡県三島市谷田1111
