BioSample
BioSample 概要
BioSample の目的
BioSample はデータベースに登録する実験データを得るために使われた生物学的な試料やサンプルに対するレコードです。
以下の図は BioSample がどのように他の DDBJ のデータベースとリンクしているかを示しています。 この例は、データと二つの BioSample、三つの BioProject、一つの Umbrella BioProject から構成されています。ユーザは BioProject または BioSample データベースを検索し、目的のレコードを取得、そこからのリンクをたどることによって DDBJ/DRA/GEA/MetaboBank に登録されている関連する実験データを得ることができます。
サンプル
データベースに登録されるサンプルが多様であること、また、サンプルの適切な記載方法が研究内容により異なることから BioSample の定義は柔軟なものになっています。 BioSample の典型的な例としては細胞株、組織の生検、生物個体や環境サンプルなどが挙げられます。
BioSample はサンプルに関する以下のような情報を含みます。
- 生物種
- 採取された生物試料、例: 器官、組織、セルタイプ
- 表現型 - 疾患や個人の医学的な情報など
ヒトに関する情報とそれへのアクセスは適用される全ての倫理的な要請を満たしている必要があります。 DDBJ BioSample データベースはアクセスを制限する仕組みを持っていないため、プライバシーに抵触する可能性のあるヒト由来サンプルを登録することはできません。そのようなサンプルはアクセス制限の仕組みを備えた JGA に登録してください。
サンプルの粒度
一般的に、生物学的な試料に対して BioSample を作成し、そこから抽出された核酸、代謝物などの抽出物は DRA、GEA や MetaboBank のメタデータで表します。
- biological replicate はサンプルを分けて biological_replicate 属性で区別します。例 “biological_replicate = 1” と “biological_replicate = 2” 例 DRA の構成
- technical replicate はサンプルを分けず、DRA Experiment/GEA SDRF/MetaboBank SDRF で分けます。
- 植物の葉から調整した RNA、代謝物サンプルは葉に対応する BioSample を一つ作成し、抽出物は GEA や MetaboBank メタデータで表現します。
- 同じサンプルから調整した paired-end library をシークエンスした場合、forward と reverse で BioSample を分けずに一つの DRA Run に両ペアードファイルを含めます。DRA の構成
- 同じサンプルを異なる機種でシークエンスした場合、異なる Instrument model を持つ複数の DRA Experiment を一つの BioSample にリンクします。
- ユニークなサンプル源に対し、別々の BioSample を登録します。例えば、羽から調整した RNA と肢から調整した RNA は、両者が別々にシークエンスされている場合、別個の BioSample になります。
- ゲノムアセンブリ用サンプルはゲノム配列にのみ必要な locus tag prefix などがあるため、RNA や代謝物サンプルとは別にします。
登録例
- 海水中のある採取地点から得られた 23,000 本のユニークな 16S 増幅配列 - 1 BioSample(1サンプルが採取され、16S の多様性が解析された)
- 同じ薬物で処理された三匹の「同一」なトランスジェニックマウス - 3 BioSamples(biological replicate は BioSample で区別)
- 遺伝子発現レベルの経時的な変化を解析するため、ウイルスに感染させた CHO 細胞を 0、2、4、8 時間後にサンプリング - 4 BioSamples(4 タイムポイント)
- 発現している遺伝子の差異を組織毎に調べるため、オスのアリクイ一個体から採取した脳、心臓、肺、精巣、肝臓 - 5 BioSamples(5つの異なる組織)
サンプルの属性
BioSample レコードを構成する主要部分は「サンプル属性」です。属性にはセルタイプ、採取地や表現型などの情報を記載することができ、対象となるサンプルを定義します。BioSample の属性は構造化された「属性名:値」 (name:value) の組として表現されます。例) tissue:liver BioSample は属性名にコントロールされた語句 (“辞書”) を使うことをサポートしており、サンプル種別に応じた属性セットをパッケージとして提供しています。
サンプルパッケージ
BioSample ではサンプルや配列種別に応じた必須・任意属性から構成されるパッケージを提供し、サンプル記載の充実化と属性名の標準化を促しています。
パッケージはサンプルの適切な記述を促すための仕組みであり、サンプル情報の解釈のためには実際に使用される属性の方が重要です。そのため過去に登録したサンプルとパッケージが合っていなくても、使用されている属性が適切であれば、パッケージを無理に変更する必要はありません。
生物名
BioSample の organism に記載する生物名については「生物名について」をご覧ください。 関連するお知らせ: 生物の株情報を管理する方法が変更になります
採取場所と日時
International Nucleotide Sequence Database Collaboration (INSDC)は塩基配列データの品質とサンプルのトレーサビリティを向上させるため、サンプルの「採取場所」と「採取日時」の記載を必須化しています。INSDC spatio-temporal annotation standards
- 採取場所: 配列データを得たサンプルを採取した場所。データの解釈において意味のある場所を記載します。少なくとも国や海洋を記載します。BioSample の geo_loc_name と DDBJ の country が対応する項目になります。
- 採取日時: 配列データを得たサンプルを採取した日時。データの解釈において意味のある日時を記載します。少なくとも最も近い「年」を所定の書式で記載します。BioSample と DDBJ の collection_date が対応する項目になります。
これらの情報を提供できない場合(例 宿主個人の特定に繋がりかねない病原菌サンプルの採取情報)、および、提供することが適切ではない場合(例 研究室で飼育しているモデル動物や確立された細胞株)、INSDC missing value reporting standards で定めている適用除外理由 (exemption term) を使って提供できない理由を記載するか、もしくは、従来通り missing value を記載します。
採取場所・日時に関する質問と記載例
- 系統保存機関から分譲された菌株を研究室で培養して得たサンプルの記載方法は?
- 自然環境ではない場所 (例 動物園や植物園) で生物種を採集した場合の記載方法は?
- サンプルを太平洋で2010年に採取した場合の記載方法は?
- 日本の静岡県で2023年5月5日 14:12:55 にサンプルを採取した場合の記載方法は?
- 古代 DNA サンプルの採取地と日付の記載方法は?
- 場所と日付を提供できないケースで、適切な適用除外理由 (exemption term) が見当たらない場合は?
- 配列データは INSDC に登録するが、全てのメタデータは2年後まで提供しない、と INSDC の新しいガイドライン策定前にコンソーシアムで合意しています。どうすればよいでしょうか?
- 採取場所と日時のうち、片方しか記載できない場合は?
ゲノムアセンブル用サンプル
パッケージ
DDBJ/ENA/GenBank(INSDC)ではゲノムアセンブリを管理するためゲノム配列は一つの BioProject と一つの BioSample にリンクしなければならないという制約を設けています。 ゲノムアセンブリに使用したサンプルでは以下のパッケージを使用します。 MIxS の使用が適切ではない場合、生物種に応じた Standard パッケージを使用します。
- 単離培養された原核生物の場合: Cultured Bacterial/Archaeal Genomic Sequences (MIGS.ba)、もしくは、Microbe
- 真核生物の場合: Eukaryotic Genomic Sequences (MIGS.eu)、もしくは、生物種に応じた Standard パッケージ Model organism or animal/Invertebrate/Plant
アノテーションが付与されたゲノム配列を DDBJ に登録する場合、Locus tag prefix を locus_tag_prefix 属性に記載して取得しておきます。
複数サンプルがアセンブリに使用された場合
複数サンプルからゲノム DNA を抽出、得られたリードを混合してアセンブルし、一つのゲノム配列として DDBJ に登録する場合、「ゲノム配列にリンクできる BioSample は一つ」という制約があるため、サンプルが異なっていても、以下に該当する場合は分けずに登録することを推奨します。
- サンプル間でゲノム配列が同じものとして扱っている場合
- ゲノム配列以外に遺伝子発現などの他のデータが結び付かない場合
例
- 同じ試料から異なる日に抽出したゲノム DNA サンプルの登録。抽出日の情報は BioSample 属性として記載する必要はありません。記載する場合、DRA Experiment や BioSample の description に記載します。
- 同じ試料から調製した Illumina と PacBio 用の各ゲノム DNA サンプルの登録。BioSample は分けずに、DRA Experiment で分けます。
異なるサンプルを別々に登録する場合、異なる BioSample をまとめる派生 BioSample (derived BioSample) をゲノム配列用に一つ登録します。 例えば、オスとメスに由来するリードをそれぞれ DRA に登録し、両者のリードを使ってゲノムをアセンブルした場合、オスとメスそれぞれの BioSample アクセッション番号を引用した派生 BioSample を一つ登録し、ゲノム配列にリンクします。 派生サンプルの元となるアクセッション番号は、派生サンプルの derived_from 属性に “This sample group is the combination of the [由来サンプル数] individual BioSamples: [BioSample アクセッション番号]” という書式で示します。 例: This sample group is the combination of the 2 individual BioSamples: SAMN12623203 and SAMN12623206
登録例
- ゲノム配列 JAGDQO010000000 と派生サンプル SAMN17974349
メタゲノムアセンブリ
メタゲノムアセンブリ (Metagenome-Assembled Genome、MAG) はアセンブリ度合いに応じた四種類の登録方法があります。
特定の生物に由来すると推測される MAG は DDBJ の ENV division にゲノムエントリとして登録します。
MAG 用にバーチャルなサンプルを登録します。パッケージは MIMAG を選択し、生物名には uncultured が冠されていない、MAG が由来する生物種名を記載します (例 Methanosarcina thermophila)。 派生元 BioSample を derived_from: SAMD00000001 のように記載します。登録例 MAG も一つの BioSample にリンクする必要があるため、複数サンプルに由来するリードをアセンブルした MAG の場合、複数の派生元サンプルを記載します。derived_from: SAMD00000001,SAMD00000002,SAMD00000004-SAMD00000008
ハプロタイプ
Haplotype シークエンスは同じサンプルから二つのゲノムデータが得られるという特徴があるため、INSDC ではデータの登録方法を定めています。登録方法は(Haplotype)[/ddbj/haplotype.html]を参照してください。
ヒトサンプル
ヒトを対象とした研究データの登録について
個人に由来するデータ(ヒトデータ)を DDBJ センターが運営するデータベースに登録する場合、ヒトを対象とした研究データの登録についてを遵守してください。
注意: プライバシー侵害の恐れのないヒトサンプルにのみ使用してください。登録者の責任において、適用される法律や指針に従い、由来個人を直接特定できるような情報を取り除いてください。データを保護する必要がある場合、アクセス制限の仕組みを備えた Japanese Genotype-phenotype Archive (JGA) にヒトデータを登録してください。
サンプル属性
ヒト (Homo sapiens) サンプルでは Human パッケージで登録します。以下はヒトサンプルの種類に応じた登録ガイドラインになります。属性の説明はこちらのページを参照してください。
個人由来試料
isolate には匿名化された subject id を記載します。
細胞株
推奨
- cell_type
初代培養細胞
sample_type に初代培養細胞 (primary cell) であることを記載します。 sample_type: primary cell
iPS 細胞
iPS 細胞は分化させてから使用されることが一般的であり、分化前後の情報が重要になります。 そのため上記に加え、以下の属性情報を追加します。分化させてから使用している ES 細胞等でも同様です。 複数回の分化を経ている複雑な場合、description にフリーテキストで説明を記載します。
個人由来試料
cell_type に分化に関する情報を記載します。 例 cell_type: iPS cell derived megarocyte cell
細胞株
cell_type に分化に関する情報を記載します。 例 cell_type: iPS cell (cell_line:253G1) derived megarocyte cell biomaterial_provider に iPS 細胞の入手元を記載します。 例 biomaterial_provider: ATCC
薬剤感受性表
BioSample レコードに薬剤感受性表(アンチバイオグラム、Antibiogram)を含めることができます(登録例: SAMN07958491)。登録を希望する場合は BioSample チームに連絡してください。
薬剤感受性表の登録ガイドラインは NCBI BioSample の各ページを参照してください。