BioSample
BioSample 概要
BioSample は実験データを得るために使われた生物学的な試料やサンプルに対するレコードです。BioSample は BioProject と共に関連するデータをデータベースを跨ってまとめる役割を果たしています。
サンプルの粒度
一般的に、生物学的な試料に対して BioSample を作成し、そこから抽出された核酸、代謝物などの抽出物は DRA、GEA や MetaboBank のメタデータで表現します。
- biological replicate はサンプルを分けて biological_replicate 属性で区別します。例 “biological_replicate = 1” と “biological_replicate = 2” 例 DRA の構成
- technical replicate はサンプルを分けず、DRA Experiment/GEA SDRF/MetaboBank SDRF で分けます。
- 植物の葉から調整した RNA、代謝物サンプルは葉に対応する BioSample を一つ作成し、抽出物は GEA や MetaboBank メタデータで表現します。
- 同じサンプルから調整した paired-end library をシークエンスした場合、forward と reverse で BioSample を分けずに一つの DRA Run に両ファイルを含めます。DRA の構成
- 同じサンプルを異なる機種でシークエンスした場合、一つの BioSample に異なる Instrument model を持つ複数の DRA Experiment をリンクします。
- ゲノムアセンブリ用サンプルはゲノム配列にのみ必要な locus tag prefix などがあるため、RNA や代謝物サンプルとは別にします。
登録例
- 海水中のある採取地点から得られた23,000本のユニークな16S 増幅配列 - 1 BioSample(1サンプルが採取され、16S の多様性が解析された)
- 同じ薬物で処理された三匹の「同一」なトランスジェニックマウス - 3 BioSamples(biological replicate は BioSample で区別)
- 遺伝子発現レベルの経時的な変化を解析するため、ウイルスに感染させた CHO 細胞を 0,2,4,8 時間後にサンプリング - 4 BioSamples(4 タイムポイント)
- 発現している遺伝子の差異を組織毎に調べるため、オスのアリクイ一個体から採取した脳、心臓、肺、精巣、肝臓 - 5 BioSamples(5つの異なる組織)
サンプル属性
BioSample を構成する主要部分は「サンプル属性」です。属性には採取地や表現型などの情報を記載することができ、対象となるサンプルを定義します。BioSample の属性は構造化された「属性名:値」 (name:value) の組として表現されます。属性リスト 例) tissue:liver
BioSample は属性名に統制された語句を使うことをサポートしており、サンプル種別に応じた属性セットをパッケージとして提供しています。
生物名
BioSample の organism に記載する生物名については「生物名について」をご覧ください。
採取場所と日時
INSDC は塩基配列データの品質とトレーサビリティを向上させるため、サンプルの「採取場所」と「採取日時」の記載を必須化しています。INSDC spatio-temporal annotation standards
- 採取場所: サンプルの採取場所。データを解釈するうえで意味のある場所を記載します。少なくとも国や海洋を記載します。BioSample と DDBJ の geo_loc_name が該当する属性になります。
- 採取日時: サンプルの採取日時。データを解釈するうえで意味のある日時を記載します。少なくとも最も近い「年」を所定書式で記載します。BioSample と DDBJ の collection_date が該当する属性になります。
これらの情報を提供できない場合(例 宿主個人の特定につながるような病原菌サンプルの採取情報)、および、提供することが適切ではない場合(例 研究室で飼育しているモデル動物)は、INSDC missing value reporting standards に従って適用除外理由 (exemption term) を記載します。採取場所・日時に関する FAQ 集
パッケージ
生物やデータの種類に応じたパッケージを提供し、サンプル記載の充実化と標準化を促しています。
パッケージに含まれる属性リストはサンプル属性をご覧ください。
パッケージは記述を促すための仕組みであり、サンプル情報の解釈のためには実際に使用されている属性の方が重要です。そのため過去に登録したサンプルの種類とパッケージが合致していなくても、属性が適切であれば、パッケージを変更する必要はありません。
パッケージ分類
Standard
生物やサンプルの種類に応じたパッケージ。
- SARS-CoV-2: clinical or host-associated
公衆衛生に関わる SARS-CoV-2 サンプル
- SARS-CoV-2: wastewater surveillance
公衆衛生に関わる SARS-CoV-2 廃水モニターサンプル
- Microbe
細菌や単細胞微生物
- Model organism or animal
動物及びマウスやショウジョウバエ等のモデル生物
- Metagenome or environmental
メタゲノムや環境サンプル
- Invertebrate
無脊椎動物
- Human
ヒト由来サンプル。注意: 由来個人を直接特定できるような情報を取り除いてください。データを保護する必要がある場合、アクセス制限の仕組みを備えた Japanese Genotype-phenotype Archive (JGA) に登録してください
- Plant
植物や植物由来の細胞株
- Viral
病気に直接関係しないウイルス。病原ウイルスには Pathogen: clinical or host-associated を使います
- Beta-lactamase
抗生物質耐性を持つ beta-lactamase 遺伝子の形質転換体サンプル
- Omics
遺伝子発現、エピジェネティックスやメタボロミクスといったオミックスデータサンプル
Pathogen
公衆衛生に関わる病原菌サンプル用パッケージ。
- Pathogen: clinical or host-associated
臨床検体もしくは宿主から採取された病原菌サンプル
- Pathogen: environmental/food/other
環境/食品/その他の病原菌サンプル
MIxS
ゲノム・メタゲノム配列用パッケージ。
- Cultured Bacterial/Archaeal Genomic Sequences (MIGS.ba)
- Eukaryotic Genomic Sequences (MIGS.eu)
真核生物のゲノム配列。生物種の系統は Eukaryota
- Viral Genomic Sequences (MIGS.vi)
ウイルスのゲノム配列。生物種の系統は Viruses
- Environmental/Metagenome Genomic Sequences (MIMS.me)
環境サンプル由来の配列もしくはメタゲノム配列。生物名は unclassified sequences 中の 'metagenome' で終わる名前にします
- Metagenome-assembled Genome Sequences (MIMAG)
メタゲノムアセンブリ配列。生物名には 'metagenome' を含んだ名前を使うことはできない。ウイルスゲノムには MIUVIG を使用します
- Single Amplified Genome Sequences (MISAG)
一細胞ゲノム配列
- Specimen Marker Sequences (MIMARKS.specimen)
標本サンプルのマーカー遺伝子配列(例 16S, 18S, 23S, 28S rRNA や COI)
- Survey-related Marker Sequences (MIMARKS.survey)
生物の培養や同定を経ることなく環境サンプルから直接解析されたマーカー遺伝子配列(例 16S, 18S, 23S, 28S rRNA や COI)。生物名は unclassified sequences 中の 'metagenome' で終わる名前にします
- Uncultivated Viral Genome Sequences (MIUVIG)
メタゲノムもしくは metatranscriptome データにおいて同定された未培養ウイルスゲノム配列。生物種の系統は Viruses
MIxS Environmental package
MIxS パッケージを選択した場合は、サンプル採取環境に応じた環境パッケージも選択します。採取環境の記載に必要な属性 (例 air における altitude) が追加されます。MIMS.me と MIMARKS.survey は No package を選択できません。
- agriculture
- air
- built
- food-animal
- food-farm_env
- food-human_foods
- food-prod_facility
- host-associated
- human-associated
- human-gut
- human-oral
- human-skin
- human-vaginal
- hydrocarbon-cores
- hydrocarbon-fluids_swabs
- microbial
- miscellaneous
- plant-associated
- sediment
- soil
- symbiont-associated
- wastewater
- water
パッケージの選び方
生物やデータの種類に応じたパッケージを選択します。当てはまるパッケージが Standard と MIxS の両方にある場合は、属性リストをみて、サンプルを記載するのにより適した方を選びます。
ゲノムアセンブリ配列用サンプル
DDBJ/ENA/GenBank ではゲノムアセンブリを管理するため、ゲノム配列は一つの BioProject と一つの BioSample を参照すること、という制約を設けています。 ゲノムアセンブリサンプルでは生物種に応じたパッケージを選択します。
- 単離培養された原核生物
- 真核生物
アノテーションが付与されたゲノム配列を DDBJ に登録する場合、希望する Locus tag prefix を locus_tag_prefix 属性に記載して tag を取得します。
メタゲノム用サンプル
メタゲノムはアセンブリ段階に依って使用するパッケージが異なります。詳しくはメタゲノムアセンブリをご覧ください。
- 生リード・プライマリーメタゲノム
- Binned メタゲノム・MAG
派生サンプル
混合サンプルなど、複数サンプルから構成される BioSample が必要な場合は、派生サンプル (derived sample) を登録し、元となるアクセッション番号を derived_from 属性にカンマやハイフン区切りで記載します。例: SAMD00000001,SAMD00000002,SAMD00000008-SAMD00000100。必要になるには以下のような場合です。
INSDC ではゲノムアセンブリを管理するため「ゲノム配列は一つの BioProject と一つの BioSample を参照すること」という制約を設けています。そのため、複数サンプルから得られた配列を混合してアセンブルしたゲノム配列を DDBJ に登録する場合、BioSample を一つにまとめる必要があります。
例えば、オスとメスに由来するリードを混合してアセンブルしたゲノム配列を登録する場合は、オスとメスそれぞれの BioSample アクセッション番号を引用した派生 BioSample を一つ登録します。
多数の環境サンプルから計算機上で再構成されたメタゲノムアセンブリ (MAG) を登録する場合、MAG 用に派生サンプルを登録し、derived_from に由来となる環境サンプルのアクセッション番号を記載します。
ヒトサンプル
ヒトを対象とした研究データの登録について
個人に由来するデータ(ヒトデータ)を登録する場合、ヒトを対象とした研究データの登録についてを遵守してください。
注意: 登録者の責任において、適用される法律や指針に従い、由来個人を直接特定できるような情報を取り除いてください。データを保護する必要がある場合、アクセス制限の仕組みを備えた Japanese Genotype-phenotype Archive (JGA) にヒトデータを登録してください。
サンプル属性
ヒト (Homo sapiens) サンプルでは Human パッケージで登録します。以下はサンプルの種類に応じた登録ガイドラインになります。属性の説明はこちらのページを参照してください。
個人由来試料
isolate には匿名化された subject id を記載します。
細胞株
cell_type の記載を推奨
初代培養細胞
sample_type に初代培養細胞 (primary cell) であることを記載します。 sample_type: primary cell
iPS 細胞
iPS 細胞は分化させてから使用されることが一般的であり、分化前後の情報が重要になります。 そのため上記に加え、以下の属性情報を追加します。分化させてから使用している ES 細胞等でも同様です。 複数回の分化を経ている複雑な場合、description に説明を記載します。
個人由来試料
cell_type に分化に関する情報を記載します。 例 cell_type: iPS cell derived megarocyte cell
細胞株
cell_type に分化に関する情報を記載します。 例 cell_type: iPS cell (cell_line:253G1) derived megarocyte cell biomaterial_provider に iPS 細胞の入手元を記載します。 例 biomaterial_provider: ATCC
薬剤感受性表
BioSample レコードに薬剤感受性表(アンチバイオグラム、Antibiogram)を含めることができます(登録例: SAMN07958491)。
登録を希望する場合は BioProject/BioSample/DRA 更新依頼フォームに連絡してください。
薬剤感受性表の登録ガイドラインは NCBI BioSample の各ページを参照してください。