• getentryでENAとGenBankから特定期間に公開されたエントリーを反映できていない

BioSample

  • Home
  • Submission
    • Overview
    • Sample Information
    • Validation Rules
  • Sample Attribute
    • Example
  • FAQ
  • Search
    • Downloads
  • ホーム
  • biosample
  • サンプルの登録

サンプルの登録

ヒトを対象とした研究データの登録について
研究対象者に由来するデータを DDBJ センターが運営するデータベースに登録する場合、研究対象者の尊厳及び人権は、適用されるべき法令、指針、ガイドライン、登録者が所属している機関の方針に従い、登録者の責任において保護されている必要があります。原則として、研究対象者を直接特定し得る情報はメタデータから取り除いてください。ヒトを対象とした研究データを登録する場合は「ヒトを対象とした研究データの登録について」を熟読してください。

新規サンプルの登録

登録用アカウントを取得します。

D-way ウェブサイトの上部にある “BioSample” メニューから BioSample 登録ページに移動します。 BioSample ページ内の [New submission] をクリックし、新規サンプル登録を作成します。

1 submission で登録できるサンプル数の上限は 1,000 です。これを超える場合は submission を分けてください。
DDBJ センターから登録者に問い合わせた後三か月以上回答が無い場合は Submission をキャンセルします。
BioSample の新規登録作成
BioSample の新規登録作成

BioSample を新規登録する場合は左のタブから順番に内容を英語で入力していきます。

各項目の説明はサンプル情報を参照してください。

BioSample の登録
BioSample の登録

“SAMPLE TYPE” でサンプルや配列種別に応じたパッケージを選択し、提示される必須・任意のサンプル属性の値を入力します。

  • パッケージの選び方はサンプル情報を参照してください。
  • パッケージで提供される属性はサンプル属性を参照してください。
  • BioSample では1つの Submission で複数サンプルをまとめて登録することができますが、パッケージが異なるサンプルを混ぜることはできません。
パッケージの選択
パッケージの選択

パッケージに応じた属性入力用テンプレートファイルをダウンロードします。
独自の属性を追加したい場合は、右端に属性名と値を追加します。

サンプル属性テンプレートファイルのダウンロード
サンプル属性テンプレートファイルのダウンロード

属性値の記入

  • 属性一覧と説明
  • 属性ファイルの記入例

ファイルはタブで区切られているので、エクセルなどの表計算ソフトで編集することができます。一行目には属性名が記載されています。* で示されている属性は必須です。二行目以降に1行1サンプルで入力していきます。

エクセルでの記入方法
エクセルでの記入方法
サンプル属性のタブ区切りテキストファイルでは1行に1サンプルの属性を入力します。 行を複数作成することで、複数の sample をまとめて登録することができます。

値がない場合の記載方法

INSDC ではサンプル属性値が存在しない場合の記載方法を標準化しています。
登録者は常に定められた形式で属性値を提供することが推奨されます。サンプル情報を提供できない場合 (例 患者の同定に繋がりかねない病原菌サンプルの情報) や適切ではない場合 (ラボで保有しているモデル生物や細胞株)、 INSDC の “missing value reporting standard” に従い、missing に続けて適切な reporting level term (例 “missing: control sample”) を記載することを推奨します。適切な reporting level term が無い場合、”missing”、”not collected” や “not provided” を記載します。サンプルの採取日時と場所に関する必須属性である “collection_date” と “geo_loc_name” の二つでは理由が必須になります。

必須属性に対する値がない場合にだけ標準化された用語を使用します。推奨・任意属性に対する値がない場合は、値を空にするか、属性そのものを使用しないでください。

INSDC missing value reporting terms (INSDC website)

INSDC term (top level) INSDC term (lower level) Definition INSDC term (reporting level) Definition
not applicable information is inappropriate to report, can indicate that the standard itself fails to model or represent the information appropriately control sample Information is not applicable as the sample represents a negative control sample collected in a lab.
sample group Information is not applicable as the sample represents a group of samples that do not have a single origin. E.g. for co-assembly or transcriptome assembly.
missing not collected information of an expected format was not given because it has not been collected synthetic construct Information does not exist as the sample represents an ab-initio synthetic construct.
lab stock Information was not collected as the sample represents a cultured cell line or model organism under long-term lab control.
third party data Information does not exist as the metadata was not collected or reported in records predating the 2023 agreement. For use in Third PArty data submissions.
not provided information of an expected format was not given, a value may be given at the later stage data agreement established pre-2023 Data agreements were established before the 2023 INSDC standard and metadata can not be provided. A value may be given at a later stage.
restricted access information exists but can not be released openly because of privacy concerns endangered species Information can not be reported as the target organism is endangered e.g. on the IUCN red-list.
human-identifiable Information can not be reported as the metadata would make the sample human-identifiable.

サンプル属性の validation

サンプル属性ファイルを選択して Continue をクリックすると内容がチェックされます。Error や Warning メッセージが表示された場合は必要に応じて内容を修正して再度アップロードします。Error が解消されない限り submit することはできません。

Validation ルールとメッセージについては Validation rules ページをご覧ください。

以下のパッケージと属性セットは少なくとも一つは必須(選択必須)になります。例えば、Microbe パッケージでは strain もしくは isolate のどちらかが必須です。
サンプル登録用 tsv ファイルにおいて必須属性は「*」マークが先頭に付されていますが、選択必須属性はマークが付いていません。

パッケージ 選択必須属性セット 選択必須属性セット
Microbe strain, isolate isolation_source, host
Model.organism.animal strain, isolate, breed, cultivar, ecotype age, dev_stage
Metagenome.environmental isolation_source, host  
Invertebrate isolate, breed isolation_source, host
Plant isolate, cultivar, ecotype age, dev_stage
Virus host, lab_host  
Beta-lactamase strain, isolate  
Pathogen.cl strain, isolate  
Pathogen.env strain, isolate  
BioSample の validation。この例では KOME-2 の collection_date に将来の日付が記入されているエラーと geo_loc_name 中の国名と緯度経度が一致していない warning が表示されています。
BioSample の validation。この例では KOME-2 の collection_date に将来の日付が記入されているエラーと geo_loc_name 中の国名と緯度経度が一致していない warning が表示されています。

最後の “OVERVIEW” で内容を確認したうえで投稿します。”ATTRIBUTES” で属性ファイルをダウンロードすることができます。

BioSample の投稿
BioSample の投稿

アクセッション番号

新規 Submission を作成すると SSUB で始まる仮 ID が自動的に割り当てられます。 D-way から validation を通過したサンプルが投稿されると自動的にプレフィックス “SAMD” のアクセッション番号が発行されます。
未登録の生物名が organism に記載されていた場合や locus_tag_prefix に値が記入されていた場合はキュレータが必要な査定を実施した後にアクセッション番号が発行されます。
D-way にログイン後、ウェブ上で登録したサンプルの進行状況、最新のサンプル属性 tsv ファイルやアクセッション番号を確認することができます。

  • SSUB で始まる仮 ID を論文中に引用しないでください。
  • EBI/NCBI に登録したサンプルを DDBJ に重複して登録しないでください。

サンプルの公開

以下の選択肢があります。公開予定日は設定することができません。

  • 査定が終わった後すぐに公開
  • BioSample アクセッション番号を引用しているデータと同時に公開

登録した Sample データは一定期間非公開にすることができます。DDBJ/DRA/GEA/MetaboBank データが公開されると、引用されている BioSample データは自動的に公開されます。 BioSample が公開されても、引用している非公開の DDBJ/DRA/GEA/MetaboBank データの公開を引き起こしません。derived_from 属性で引用されている BioSample は連動公開されます。

FAQ: BioProject/BioSample/塩基配列データの連動公開の仕組みは?

サンプルの更新

登録が完了したデータを更新することができます。DDBJ BioSample で修正しますので、修正すべき事項をBioProject/BioSample/DRA 更新依頼フォームよりご連絡ください。属性を更新する場合、更新後の属性 tsv ファイルをアクセッション番号通知メールへの返信メールに添付してお送りください。属性 tsv ファイルは D-way からダウンロードすることができます。

BioSample 属性 tsv ファイルのダウンロード
BioSample 属性 tsv ファイルのダウンロード