第18回 INSDC meeting report 2005年5月16-18日 静岡県三島市
2005
第18回 INSDC meeting report 2005年5月16-18日 静岡県三島市
DDBJ, EMBL-Bank/EBI, GenBank/NCBI の3大国際 DNA データバンクは、国際塩基配列データベース共同構築の運営・推進を図るために、年1回、会議を開催しています。
2005年は DDBJ で 5月16日から18日に開催されました。
DDBJ, EMBL-Bank, GenBank の活動の年次報告が行なわれた後, 国際塩基配列データベース運営上の実務的な問題を討論しました。
会議の報告を以下に まとめました。
検討事項と今後の課題
DDBJ/EMBL-Bank/GenBank の連携のもとにある国際塩基配列データベースは, その総称を INSDC; International Nucleotide Sequence Database Collaboration としました。
また, INSDC ホームページを立ち上げました。
2003年から検討を重ねていた, INSDSeq-XML 形式のデータ提供を試験的に開始しました。
DDBJ では EMBL, GenBank に先駆けて getentry による個別の閲覧, FTP による取得を可能にしています。
2004年から MGA 登録を受け付けていますが, その受け入れ基準と公開形式を再検討しました。
2002年から TPA 登録を受け入れてきましたが, これまでは, その根拠が生物学的な実験に拠らなければならない, としてきました。
今後は, 実験に拠らない推定でも, 登録可能とする方向で受け入れ範囲を拡大する予定です。
そのための新しい受け入れ基準を検討しています。
2003年からゲノムプロジェクト用に feature 継承のための識別子として /locus_tag qualifier を使用可能としておりました。
これまでは /locus_tag に自由度の高い記載を許してきました。
しかし将来的にも、データベース全体を通じてユニークなIDとしての機能を維持していくために登録時に割り当てる基準を検討しています。
また関連して, フラットファイルに主にゲノムプロジェクトを特定するためのフラグとして project ID 情報を含めるために, 情報基盤整備を進めています。
特に rRNA に関して, 配列の向きと全長か部分かの区別が, 必ずしも,
正しくアノテーションされていないケースがあります。
rRNA に限らず, 配列の向きなどが正しく記載されるように検証が必要,
と合意しました。
Feature と Qualifier の改訂
Feature, 特に CDS の記載に実験的な根拠があるのか, 相同性から推定なのか, などを示すことが利用者から求められております。
そのような情報の受け皿として, これまで使用してきた evidence qualifier を2つの新規 qualifier, /experiment と /inference に分割し, 詳細な表現を記載可能にします。
- a) 生物学的な実験に基づくfeature の論拠
-
- 旧 /evidence=experimental 相当
- /experiment=”free text” (1000文字未満の自由記述)
- b) 生物学的な実験ではない推定に基づく feature の論拠
-
- 旧 /evidence=not_experimental 相当
- /inference=”[TYPE]( same species):[evidence basis]”
- (ただし、[TYPE] は別途定める規定値)
- 注)/evidence=experimental, /evidence=not_experimental は, それぞれ下記に置き換えます。
-
- /experiment=”experimental evidence, no additional details recorded”
- /inference=”non-experimental evidence, no additional details recorded”
近年, 環境サンプル, BARCODE project など生物多様性に登録が増加しています。
このような研究においては, 配列の単離採集元の記載が重要であるため,
source feature に下記の qualifier を新設します。
- /collection_date=”DD MMM
YYYY”, “MMM YYYY” or “YYYY”
- DD ; 日付を示す2桁の数字
- MMM ; 月を示す3文字の略号
- YYYY; 西暦年号を示す4桁の数字
- /lat_lon=”###.## [N or S], ###.## [E or W]”
- /collected_by=”[標本を採取した人物名]”
- /identified_by=”[標本を同定した人物名]”
- /PCR_primers=”fwd_name:[name],fwd_seq:[sequence],rev_name:[name], rev_seq:[sequence]”
intron, misc_RNA の2つの feature では, /pseudo qualifier が使用不可でしたが, 今後は, 使用可能とします。
/rpt_unit qualifier には location による記載, 配列自体の記載の双方が可能でしたが, 配列は /rpt_unit_seq, location は /rpt_unit_range と分割します。
CDS feature に /ribosomal_slippage, /trans_splicing の新規 qualifier を追加します。
/organelle qualifier の規定値に “hydrogenosome” を追加します。
その他の変更
location の記載規則が, 若干, 変更されます。
“join” と “order” の併用は禁止されます。
n..n は使用不可になります。
i.e. “100..100” は不可
m^n は隣接した塩基のみに制限されます。
n=m+1
ただし circular の場合, m=[最後の塩基番号] と n=1 の組を許可
i.e. “100^200” は不可
領域を表現する場合の (m.n) は使用不可になります。 i.e. “(5.10)..100” は不可