第20回国際実務者会議報告

DDBJ, EMBL-Bank/EBI, GenBank/NCBI で構成される International Nucleotide Sequence Database Collaboration (INSDC) は, 国際塩基配列データベース共同構築事業の運営・推進を図るために, 国際実務者会議を年1回開催しています。
2007年は英国の EBI で5月21日-23日に開催され, DDBJ からは7名のスタッフが国際実務者会議に出席しました。

DDBJ, EMBL-Bank, GenBank が それぞれの活動について 年次報告を行った後, INSDC 運営上の実務的な問題を討論しました。

検討事項と今後の課題

INSDC ホームページ

2005年から INSDC ホームページを立ち上げましたが, そのコンテンツに feature 記述サンプルを提示していくことを検討します。

alternative assemblies の登録について

大量のドラフト配列が公開されているため、これをアセンブルした研究者が成果を INSDC に登録することを求めています。どのように扱うべきか方針を検討しました。既存のTPA の枠組みに組み込むべきか, など検討しましたが結論に至らず, 国際諮問委員会に意見を求めることになりました。

GSC および MIGS 関連

Genomic Standards Consortium (GSC) は, 完全長ゲノム配列とメタゲノムのデータセット標準化を目指す団体であり, 「 Minimal Information about a Genome Sequence (MIGS)」の仕様策定を進めています。三極は GSC の活動に協力していく方向で合意しました。

EST/GSS clone library ID 導入の検討開始

学術用・商用の双方のEST と GSS の clone ライブラリに個別の ID を割り当てるための枠組を検討します。

KEYWORDS 行の語彙制御

三極は以下の3つの用語を共通の keyword として使用することで合意しました。

EST の向きと相対位置を示す2つの用語
"5'-end sequence (5'-EST)"
"3'-end sequence (3'-EST)"
完全長cDNA projectに属するエントリであることを示す用語
"FLI_CDNA"

Feature と Qualifier の改訂

以下に挙げる項目は, 特に断り書きがない限り, 2007年10月のFeature Table Definition の改訂後に適用されます。

新 feature ncRNA が追加されます。

近年, "miRNA", "siRNA" などの多様な新しい RNA 転写産物が見出されています。このようなタンパク質をコードしない RNA ファミリー数は増加することが予想されるため, 新規に, 柔軟な対応が可能な ncRNA feature を追加します。
また, これに伴い, snRNA, snoRNA, scRNA の3つのfeature は, 2007年12月までに ncRNA feature に統合されます。

/ncRNA_class qualifier が追加されます。

上記の新規 feature, ncRNA では, non- protein-coding RNA の種類を示すために, 新規 qualifier, /ncRNA_class を使用します。

書式: /ncRNA_class="<ncRNA_class_TYPE>"
例:   /ncRNA_class="miRNA"
<ncRNA_class_TYPE> は以下の規定値リストから選択されます。

"antisense_RNA", "autocatalytically_spliced_intron", "telomerase_RNA", 
"hammerhead_ribozyme", "RNase_P_RNA", "RNase_MRP_RNA", "guide_RNA", 
"rasiRNA", "scRNA", "siRNA", "miRNA", "snoRNA", "snRNA", "SRP_RNA", 
"vault_RNA", "Y_RNA", "other" 

新 feature tmRNA が追加されます。

tRNA と mRNA の両方の性質を持つ RNA を記載するため, 新規に tmRNA feature が使用可能になります。tmRNA に関する情報は, tmRDB に詳しいので, ご参照ください。

新 qualifier /tag_peptide が追加されます。

tmRNA のタンパク質分解タグペプチドに対応する塩基位置を示すために, tmRNA feature で新規 qualifier /tag_peptide が使用可能になります。

書式: /tag_peptide=<base_range>
例:   /tag_peptide=90..122

source feature で由来分子種を示す /mol_type qualifier の規定値に "tmRNA" を追加します。

/specimen_voucher qualifier の値が institution code, collection code, 標本IDを含めていた値に構造化されます。

ただし, 従来の自由記述も保持します。

書式:
      /specimen_voucher="[<institution_code>:[<collection_code>:]]<specimen_id>"
      /specimen_voucher qualifier の書式は以下の3通りになります。
      <specimen_id>
      <institution_code>:<specimen_id>
      <institution_code>:<collection_code>:<specimen_id>

値に1つ以上の ":" が含まれる場合は, 「構造化されている」と扱います。Institution_code と省略可能な collection_code は, その標本の属する博物館を示すために, 管理されている用語を使用します。

例:
         /specimen_voucher="UAM:Mamm:52179"
         /specimen_voucher="AMCC:101706"
         /specimen_voucher="USNM:field series 8798"
         /specimen_voucher="personal collection:Dan Janzen:99-SRNP-2003"
         /specimen_voucher="99-SRNP-2003"

新 qualifier /culture_collection と /bio_material が追加されます。

2つの qualifier, /culture_collection と /bio_material が source feature で使用可能になります。上記, /specimen_voucher と同様の書式です。
culture_collection; 塩基配列の得られた培養系の institution_code とID

書式: 
      /culture_collection="<institution_code>:[<collection_code>:]<culture_id>"
例: 
      /culture_collection="ATCC:26370"

bio_material; 塩基配列の得られた生物学的資料のID

書式: 
      /bio_material="[<institution_code>:[<collection_code&'gt;:]]<material_id>"
例: /bio_material="CGC:CB3912" CGC; Caenorhabditis Genetics Center

old_sequence feature は, 新規登録では使用不可になります。

DDBJ の新規登録では, repeat_unit と satellite の2 feature は使用不可になります。

repeat_unit と satellite は repeat_reigon feature に統合する予定です。

5'clip と 3'clip の2つの feature は使用不可になります。

misc_recomb feature で /organism qualifier が使用可能でしたが, 使用不可になります。

/operon qualifier が protein_bind feature でも使用可能になります。

/inference qualifier の [TYPE] 規定値に "alignment" を追加します。