AMED Genome group sharing Database
AGD への登録
登録概要
AGD は NBDC で承認された利用制限ポリシーを持つ,匿名化されたデータだけを受け付けています。 登録者は NBDC に AGD へのデータ提供を申請し, AGD は NBDC から正式に提供が承認された連絡を受け,登録者に登録手順を案内します。
登録しようとしているデータの公開を制限すべきかどうかは,データを収集した個人との間で合意された協定から明らかなはずです。 AGD に登録されたデータの公開は制限されます。 AGD データを利用するためには,NBDC に利用を申請し,承認される必要があります。
制限公開は論文公表までの間,データを非公開にすることとは異なります。 AGD を含む全ての DDBJ データベースでは,論文公表までの一定期間,データを非公開にすることができます。
メタデータオブジェクトに対して以下のプレフィックス付きアクセッション番号が割り振られます。
プレフィックス | メタデータオブジェクト | 数字の桁数 | 例 |
---|---|---|---|
AGD | Submission | 6 | AGD_000001 |
AGDS | Study | 6 | AGDS_000001 |
AGDN | Sample | 9 | AGDN_000000001 |
AGDX | Experiment | 9 | AGDX_000000001 |
AGDR | Data | 9 | AGDR_000000001 |
AGDZ | Analysis | 9 | AGDZ_000000001 |
AGDD | Data set | 6 | AGDD_000001 |
AGDP | Policy | 6 | AGDP_000001 |
塩基配列データ (raw/unaligned と aligned)
AGD でサポートしているファイル形式を以下に示します。 異なるファイル形式をもっている場合や不明な点がある場合は AGD に連絡してください。
データファイルが複数サンプルに由来するデータを含んでいる場合,投稿する前にファイルをサンプルごとに分割します。そうすることによって Data は1つのサンプルに由来するデータファイルだけを持つようになります。
BAM 形式
Binary Alignment/Map (BAM) ファイルは AGD への登録にとって好ましいファイル形式の一つです。BAM は Sequence Alignment/Map (SAM) ファイル形式のバイナリー圧縮です (詳細は SAMv1.pdf)。BAM ファイルは SAM/BAM 用ツール (例えば samtools) で human-readable なテキスト形式である SAM に変換することができます。BAM はアライメントされなかった unaligned read を含めることができます。
AGD はプライマリーデータとして Data に unaligned read を含む BAM を登録することを強く推奨しています。
圧縮という観点で BAM ファイルはほぼ最適化されているので,ファイルをさらに圧縮する必要はありません。
Fastq 形式
シングルとペアードの塩基配列データは下記の条件を満たした Fastq ファイルでの登録を推奨しています。
- Quality score が Phred スケールである。初期の Solexa パイプラインから出力された quality score は Phred スケールに変換されている必要があります。 ASCII とスペース区切りの数字で表された quality score をサポートしています。 Phred quality score のオフセットが 33 か 64 であるかは自動的に判定されます。
- Technical リード (アダプター,リンカー,バーコード配列) が取り除かれている。
- シングルリードは一つの Fastq ファイルで登録します。
- ペアードリードは分割し,二つの Fastq ファイルとして登録します。 リード名はペアの最初か二つ目のリードかを区別する ‘/1’ と ‘/2’ のような suffix を持っている必要があります。 リードの正規表現は “^(.*)([\\.|:|/|_])([12])$” になります。
- それぞれのリードが ‘@’ で始まる。
- ベースコールと quality score が ‘+’ で始める行で分けられている。
- Fastq ファイルは gzip か bzip2 で圧縮されている。
シングルリードを含む Fastq ファイルの例:
@read_name
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
...
ペアードリードを含む Fastq ファイルの例:
@read_name/1
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
@read_name/2
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
...
SFF 形式
454 プラットフォームからのデータは,SFF での登録が推奨されます。
圧縮という観点で SFF ファイルはほぼ最適化されているので,ファイルをさらに圧縮する必要はありません。
アレイデータ (遺伝子型タイピング,SNP,遺伝子発現)
AGD は全ての種類のアレイプラットフォームからのデータを受け付けています。例えば,genotypes,遺伝子発現やメチル化解析データなどです。
AGD はこれらのデータの登録に柔軟に対応しており,Analysis にアレイ実験から得られたあらゆる種類のデータファイルを格納することができます。
AGD は生データ (例 CEL) と解析したデータの両方を登録することを推奨します。これらは利用者が結果をみるためだけではなく,論文で示されている結果を再現するためにも役立ちます。
AGD はサンプルに関連した表現型 (phenotype) 情報も Analysis にアーカイブしています。
変異データ
AGD は variation データの VCF 形式での登録を推奨しています。AGD Analysis に vcf ファイルを登録することができます。
その他のデータ
Analysis は複数の Data もしくは Sample を参照することができるので,これらのオブジェクトに登録されているデータを解析,集計したデータを Analysis に登録することができます。Analysis に登録できるファイルの例を以下にリストします。
- 複数 Data に登録された配列データから作成したリファレンス配列 GFF3 ファイル
- 複数 Analysis に登録されたアレイデータを正規化し表にまとめたファイル
メタデータ
AGD データモデルは Sequence Read Archive のモデルを拡張してつくられています。AGD メタデータは XML オブジェクトで構成されています。AGD と JGA の xsd は共通です。
AGD XML schema: AGD xsd
Submission
登録プロセスを管理します。登録者の連絡先情報を含みます。
XML schema: JGA.submission.xsd
Study
研究を記述します。 研究のタイトル,study type と論文に使われるようなアブストラクトを含みます。論文公表後,登録したデータを使った論文の PubMed ID を追加し,論文情報を更新します。
XML schema: JGA.study.xsd
Sample
研究で使った各サンプルを記載します。一般的に Sample は個人に対応します。 必須項目は少ないですが,できるだけ詳細な情報を記入し,研究対象者の表現型を含むサンプルについての有用な情報を提供することを推奨します。
XML schema: JGA.sample.xsd
Experiment
実験のセットアップを記述します。サンプルの調整からデータの取得にいたるまでのプロトコールや使ったシークエンサを記載します。次世代シークエンス実験にのみ対応しています。
XML schema: JGA.experiment.xsd
Data
次世代シークエンスデータについての情報と,それらと Experiment との関係を記述します。ファイルをまとめる役割を果たします。
XML schema: JGA.data.xsd
Analysis
アレイデータ,データを解析,集計した結果を登録します。 変異データは VCF ファイルとして登録することができます。 それぞれの Analysis には一つの VCF ファイルしか登録できません。また,VCF で使われたサンプルは AGD Sample に対応している必要があります。 使用したリファレンス配列を INSDC のアクセッション番号,もしくは広く使われているラベル名で記載します。
XML schema: JGA.analysis.xsd
Data set
Data XML と Analysis XML に記載されているデータファイルを,データセットという単位にまとめます。 Study 中に適用されるポリシー (利用制限事項) が異なるデータ (Control と Case 等) が含まれている場合,データセットを分ける必要があります。
一般的にポリシーは個人 (Sample) との間のインフォームドコンセントによって規定されます。
XML schema: JGA.dataset.xsd
Policy
データ利用制限ポリシーを記載します。NBDC ポリシー以外に適用すべきポリシーがなければ作成する必要はありません。
AGD ポリシー以外に適用すべきポリシーがある場合は,NBDC にポリシーを登録し,発行される AGDP 番号を Data set から参照します。
XML schema: JGA.policy.xsd
Analysis のみの登録
集計されたデータ,もしくは,Experiment-Data に格納するのが適切ではないデータを登録する場合は Sample-Experiment-Data ではなく Sample-Analysis セットでデータを登録することができます。
Sample-Analysis セットでデータ登録をする場合は AGD チームに連絡します。
登録の更新
登録を更新するためには AGD チームに連絡します。