AMED Genome group sharing Database
登録手順
AGD 概要
日本 DNA データバンク (DDBJ) センターはヒトデータをグループ共有 (制限共有) するためのデータベースである AMED Genome group sharing Database (AGD) を DDBJ グループクラウドでサービス提供しています。 データ提供・利用申請審査は National Bioscience Database Center (NBDC) で実施しています。
- AGD はオープンなデータベースである INSDC やアクセス制限データベースである JGA とは別のデータベースです。
- AGD の登録システムは DDBJ センターのオープンデータ登録システムである D-way,アクセス制限データベースである JGA とは異なります。
- AGD にデータを登録するためには NBDC へのデータ提供申請とヒトデータ審査委員会での承認が必要です。
- AGD 登録アカウントのアカウント名とパスワードは NBDC から通知されます。
このページでは AGD へのデータ登録手順を説明しています。
エクセルでのメタデータ作成
エクセルファイルへの記入
メタデータ記入用エクセルファイルを下記よりダウンロードし、内容を英語で記入してください。メタデータの説明はこちらのページをご参考ください。
last updated: 2017-08-18
必ずエクセルのファイル名は _metadata.xlsx で終わるようにしてください。_metadata より前は Submission ID など識別のために自由に名前を付けることができます。
エクセルの記入例
AGD submission tool
AGD submission tool (最終更新日: 2018-11-21,v3.5.0) をダウンロードします。
Java 8 で実行してください。Java 7 では動作しません。プロキシ環境での使用方法について
Windows
展開したフォルダに含まれる bat ファイルをダブルクリックして起動。
動作環境: Java Runtime Environment Version 8 Update 45 以上
Unix
展開したフォルダに含まれる sh ファイルをシェルで実行して起動。
動作環境: Java SE Development Kit 8u45 以上。OpenJDK では動作しません。
エクセルをアップロード
AGD tool を起動し,NBDC 担当者から通知されるアカウントとパスワードでログインします。
左ウィンドウがお手許のコンピュータ,右ウィンドウが AGD のセキュアなファイルサーバになります。
右ウィンドウ上部の Submission ID で対象となる AGD 登録の ID (例 upload-0003) をプルダウンメニューから選択します。 左ウィンドウでメタデータを記入したエクセルファイル (例 AGD_upload-0003_metadata.xlsx) を選択し,Encrypt & Upload をクリックします。
エクセルファイルがサーバにセキュアにアップロードされます。下部ウィンドウにエラーメッセージが表示されますが無視してください。
エクセルファイルをアップロードした後,メールで AGD 担当者にご連絡ください。
エクセル/XML をダウンロード
AGD ファイルサーバ上にある「ファイル名が _metadata.xlsx で終わるエクセル」と「XML ファイル」は tool でダウンロードすることができます。
ダウンロードしたいエクセルファイル (例 AGD_upload-0003_r1_metadata.xlsx) を右クリックし,表示されるメニューの Download を選択します。対象のファイルが左ウィンドウで表示されているローカルマシンにダウンロードされます。
ダウンロードしたい XML ファイル (例 upload-0003_Data.xml) を右クリックし,表示されるメニューの Download を選択します。対象のファイルが左ウィンドウで表示されているローカルマシンにダウンロードされます。必要な XML ファイルを1つずつダウンロードします。
登録ファイルのアップロード
登録するデータ
Data オブジェクトに fastq や bam ファイルなどの個人レベルの生データを登録します。Analysis に変異解析,表現型情報,質問票など解析したデータや各種ドキュメントを登録します。
メタデータ XML ファイル
ダウンロードした XML ファイルとデータファイルを AGD tool で選択し,対象 submission にまとめてアップロードします。
登録ファイルの検証処理
メタデータとデータファイルに以下の検証処理が実施され,データファイルは暗号化されて AGD サーバにアップロードされます。
- メタデータ XML の JGA XML schema に対する検証
- メタデータオブジェクト相互の関係
- Data と Analysis XML に記載されているデータファイルの存在チェック
- データファイルアップロード前後での md5 値の一致チェック
全ての検証処理を通過すると,下部ウィンドウに [INFO] upload succeeded. を表示されます。登録が査定され,問題がなければ AGD 管理用 IDが発行されます。
エラーメッセージが表示された場合はメールで AGD 担当者にご連絡ください。
複数ファイルの選択方法
左ウィンドウに表示されているファイルを複数選択することができます。
範囲選択
始点となるファイルのファイル名部分 (チェックボックスではありません) を選択します。続いて終点となるファイル名を Shift キーを押しながら選択すると,ファイルが範囲選択されます。選択した状態で右クリックメニューから “check (selected item)” を選び,範囲選択したファイルをチェックします。
複数選択
Control キーを押しながらファイルを選択していくと,ファイルが複数選択されます。選択した状態で右クリックメニューから “check (selected item)” を選び,選択したファイルをチェックします。
サブディレクトリ選択
ファイルが含まれているサブディレクトリをチェックすると,配下の全てのファイルがチェックされます。
プロキシ環境での使用方法
プロキシ環境でツールを使用するためにはプロキシサーバの設定が必要になります。
ツールが格納されているフォルダ中の “proxy.properties” を開きプロキシサーバ名 (server=) とポート番号 (port=) を設定します。
# Enter the server name and port number of the proxy server
to connect the AGD server via the proxy.
# For example:
# server=proxy.example.ac.jp
# port=8080
server=
port=
プロキシサーバが認証を要求している場合,ツールにログイン後に表示されるウィンドウに認証情報を入力します。
2017-01-26 にリリースした v3.2.1 で BASIC 認証に対応しましたが Digest 認証には未対応です。
ハードディスクでのデータファイル送付
AGD ツールでの転送に多大な時間を要する,ファイル選択画面がフリーズするなど,大容量・多件数のファイル転送が困難な場合には,ハードディスクでデータを受け付けています。
データの暗号化
AGD データ暗号化ツールを使ってデータファイルを暗号化し,ディスクにコピーし郵送します。XML メタデータファイルは AGD Submission Tool でアップロードし,ディスクに含めないでください。
last updated: 2017-01-26
ツールの動作環境
- 暗号化対象データの総サイズ分の空きディスク領域が必要です。
- CentOS 6.4 で動作確認を行っています。
- Java Runtime Environment Version 8 Update 45 以上の Java 実行環境が必要です。
取得した “agd-data-encrypt.tar.gz” ファイルを tar コマンドで解凍します。 下記のような構成のディレクトリが生成されます。内部のディレクトリ構成は変更しないでください。
agd-data-encrypt.sh (実行シェルスクリプト) jar/ -> 実行ファイル格納ディレクトリ (改変不可)
ツールを配置したディレクトリに移動し,下記の要領でコマンドを実行します。
sh agd-data-encrypt.sh[space]-t[対象ファイルパス][space]-o[出力先ディレクトリパス]
例)
$ sh agd-data-encrypt.sh -t target.fastq -o output
コマンドラインオプション
-t –target
暗号化対象ファイルのファイルパスを指定します。
指定可能なファイルは1ファイルです。複数ファイル(*ワイルドカードでの指定)の指定やディレクトリを指定することはできません。
複数のファイルを一括で暗号化する場合はシェルスクリプトを組んでください。
-o –output
暗号化したファイル,暗号化鍵,MD5 ファイルを出力するディレクトリのパスを指定します。
指定されたパスにディレクトリが存在しない場合,実行時にディレクトリが作成されます。
出力されるファイル
出力ディレクトリには,暗号化対象1ファイルに対して以下の3種類のファイルが出力されます。
-
暗号化された対象ファイル (.encrypt)
ファイル名は [暗号化前のファイル名].encrypt になります。 (例: 暗号化前のファイル名が file1.fastq の場合 file1.fastq.encrypt) -
鍵ファイル (.encrypt.dat)
暗号化に使用された鍵ファイルです。暗号化対象ファイル1つにつき1鍵ファイルが生成され,公開鍵で暗号化された状態で出力されます。 ファイル名は [暗号化された対象ファイル名].dat となります。 (例: 暗号化前のファイル名が file1.fastq の場合、file1.fastq.encrypt.dat)
暗号化前後の MD5 ファイル (.md5)
暗号化対象ファイルの暗号化前後の MD5 値を記録したファイルです。暗号化対象1ファイルに対して1つの MD5 ファイルが生成されます。 ファイル名は [暗号化前のファイル名].md5 となります。 (例: 暗号化前のファイル名が file1.fastq の場合、file1.fastq.md5 となります)
出力メッセージ
本ツールのメッセージはログファイル (ツールを設置したディレクトリ内の [実行サーバ host 名].agd-data-encrypt.log ファイル) および標準出力に出力されます。標準出力に表示される標準的なメッセージは以下の通りです。
$ sh agdcmd.sh -t /home/hoge/file.txt -o /tmp/output
START encrypt file ←処理開始
start encryption : /home/hoge/file.txt ←対象ファイル名
encryption complete : /tmp/output /file.txt.encrypt ←出力ファイル名
FINISH encrypt file ←処理完了
エラーメッセージ
メッセージ | 内容 |
---|---|
[code 11] encryption error : <target> | ファイルの暗号化処理でエラーが発生しました |
[code 12] make md5 file error : <target> | ファイルのMD5取得、MD5書き込み処理でエラーが発生しました |
[code 13] output dir is not a directory : <target> | -o に指定されたパスがディレクトリではありません |
[code 14] target is not a file : <target> | -t に指定されたパスが通常ファイルではありません |
データの送付
AGD にデータを登録するためには「暗号化された対象ファイル」「鍵ファイル」「暗号化前後のMD5ファイル」の3点セットが必要です。各対象データファイルについて生成される3ファイルを全てディスクにコピーします。
メタデータ XML ファイルはディスクにはコピーせず,AGD Submission Tool でアップロードします。
USB 接続のハードディスクにデータをコピーし,宛先が記入された返送用の伝票を同封して下記宛にお送りください。ハードディスクにラベルを貼って区別しやすくすることを推奨いたします。
〒411-8540
静岡県三島市谷田1111 国立遺伝学研究所 生命情報研究センター W201 AGD 担当
電話:055-981-6853