第22回国際実務者会議報告

DDBJ, EMBL-Bank/EBI, GenBank/NCBI で構成される International Nucleotide Sequence Database Collaboration (INSDC) は, 国際塩基配列データベース共同構築事業の運営・推進を図るために, 国際実務者会議を年1回開催しています。
2009年は 5月12日-13日に NCBI で開催されました。

DDBJ, EMBL-Bank, GenBank が それぞれの活動について 年次報告を行った後,INSDC 運営上の実務的な問題を討論しました。

また, 今年 (2009年) から 次世代シークエンサの出力データ (Short Read) と 従来シークエンサの出力データ (Trace) を収集する下記 Archive も INSDC のメンバーに加わりました。
この共同運営に関する第1回目の会議が 2009年 5月14日-15日に NCBI で開催されました。

Short Read Archive

DRA; DDBJ Read Archive
ERA; European Read Archive (EBI)
Short Read Archive (NCBI)

Trace Archive

DTA; DDBJ Trace Archive
Ensembl Trace Server (EBI)
Trace Archive (NCBI)

会議の報告を以下に まとめました。

検討事項と今後の課題

次世代型配列決定によるデータの潮流と対応

上述のように, 2009年から次世代シークエンサの出力データを収集する上記の各データベースも INSDC の構成員となりました。主要な科学雑誌へ DRA/ERA/SRA accession number の記載を要望する予定です。
関連して, 今後は 454 (GS 20, GS FLX, etc.) シークエンサに由来する配列データは, 従来の DDBJ/EMBL-Bank/GenBank の EST division への登録は受け付けません。原則, DRA/ERA/SRA のみで受け付けます。

project ID のための database

INSDC は, 2005 年からゲノムプロジェクトを特定するためのフラグとして project ID をフラットファイルに含めることから検討を開始しました。

2008 年からは, project ID をゲノムに限定せず, transcriptome なども含めた大規模配列データにも割り当てることで合意し, そのための基盤整備を開始し, 現在も継続しています。
DDBJ と GenBank のフラットファイルでは, DBLINK 行に, EMBL-Bank では PR 行に project ID を表示しています。ゲノム・メタゲノム関連の登録に先行記載しています。

TSA 登録と そのプライマリーエントリにおいても project ID 記載を義務化します。

微生物ゲノム登録への strain level taxonomy ID 割り当て廃止の検討

DDBJ/EMBL-Bank/GenBank では, 生物名を共同で構築している taxonomy database で管理しています。taxonomy database では, 微生物のゲノム全長規模の登録に関して, strain level taxonomy ID を付加する, という運用を長期間にわたり続けてきました。この運用は, ゲノムプロジェクトを把握を容易にすることが主な目的でした。
しかしながら, 今後は project id により把握が可能であると考え, taxonomy database では, この運用を廃止する方向で検討しています。ただし, 既に多数の機関でこのような taxonomy ID が引用されていることもあり, その影響に配慮しながら, 検討を進めています。

draft 配列データにおける frame が合わないタンパク質コード配列候補の記載

大規模な draft 配列データに由来するデータが増加したことにより, frame が合わない状態であっても location に join operator を駆使して操作上のアミノ酸翻訳エラー回避を行うことによって, CDS feature を記載することが望まれるケースがあります。
そのような CDS feature を区別して受け付けるフラグとして /artificial_location qualifier を付加した CDS feature を受け付けるための整備をしています。ただし, この対応は全ゲノム規模 (transcriptome 含) の登録に限定されます。

メタ情報を記述するための structured COMMENT 仕様の検討

GenBank は 配列データに, 生物学的サンプルのメタ情報を structured COMMENT という独自形式で記述することを開始しました。
structured COMMENT は, 登録者が記載を希望するメタ情報が, Feature Table ではサポートされていない場合でも, タグとその値の組として成形した形式で受け入れる, という自由度の高い手法です。
DDBJ/EMBL-Bank/GenBank は structured COMMENT/CC line を共通の手法として活用すべく, その書式の詳細仕様を検討していきます

Feature と Qualifier の改訂

以下に挙げる項目は,特に断り書きがない限り,2009年10月の Feature Table Definition の改訂後に適用されます。

/pseudo qualifier の名称変更を検討

"pseudo" という語は, "pseudogene" を連想させますが, INSDC における実際の /pseudo qualifier 用法は「本来の機能を果たしていない」ことを示すものでした。実際には pseudogene と推定する場合と機能しない場合の両方に使用されておりましたので, 名称と用法をあわせるために分離し, 混同を避けた方が良い, と検討しています。
この件は, 再度, 審議される予定です。

/exception qualifier に規定値 "annotated by transcript or proteomic data" 追加

新規に /haplogroup qualifier を source feature で使用可能にします。

/strain qualifier に等価な名称を列挙する場合がありましたが, 今後は禁止します。

かつて (2009年5月以前) は, /strain qualifier に下記のような記載をしている登録を認めてきました。

      /strain="ATCC #### (= JCM ### = NBRC ###)"

しかしながら, 今後は, 等価な strain 名の列挙が必要な場合, 下記のような /note qualifier の使用を推奨します。

      /note="strain coidentity: JCM ### = NBRC ###"
      /strain="ATCC ####"

上述のように, 新規に /artificial_location qualifier を CDSmRNA feature で使用可能するため仕様を検討しています。

この変更は, 2009年12月以降に適用する予定です。

/inference 書式仕様の変更

推論根拠をより効率よく記載するために, /inference 書式仕様を, 2008 年から継続検討中です。