「ユーザーの皆様へ,お願いです!」
ユーザーの皆様が DDBJ に登録をする際に参考にして頂く為のアドバイスを,DDBJ 登録担当者が Mail Magazine に連載したコラムをまとめました。
連載期間:No.54(2010年11月1日発行)〜No.57(2011年2月1日発行)※最新の情報とは内容が異なる場合がありますのでご注意下さい。
1. より迅速なアクセッション番号発行を目指して
DDBJ の登録担当者は,ユーザーの皆様へすみやかにアクセッション番号を発行するために日々奮闘しています。
この毎日の登録作業では,意外にも,以下のような点を修正するために多くの時間を費やしています。そこで,ユーザーの皆様へお願いです!
データ登録の際には,事前に以下の点を確認してから入力して頂くと,より迅速にアクセッション番号をお知らせできますので,皆様のご協力をお願いいたします。
-
- FAX番号の登録をお願いします
- DDBJ では通常,登録者への連絡に電子メールを使用しております。 しかしながら,サーバートラブル等により,電子メールによる連絡ができない場合には FAX で連絡をさせて頂くことになります。 このような事情ですので,連絡用 FAX 番号の入力をお願いいたします。
-
- 登録者はコンタクトパーソンひとりではなく,複数でお願いします
- 塩基配列の修正・更新を行える権利を有するのは登録者のみです。 登録者がひとりでは,連絡が取れなくなる可能性がありますので,複数の方を登録者に指定頂くことを推奨しています。
-
- vector 配列のコンタミのチェックは必ず行って下さい
- 登録配列中に vector 配列が含まれている場合には,配列の修正が必要となります。 ご登録の前にベクタースクリーニングをお願いいたします。 DDBJ Vector Screening System をご利用下さい。
-
- 同一配列であっても複数個で登録して下さい
- 基本的には,配列が同一であっても,独立に配列決定を行ったデータであれば,個別に配列を受け付けます。つまり,決定した配列すべての登録をお願いします。
しかし,場合によっては,/frequency qualifier で出現頻度とサンプル総数を記載し代表データのみに集約して登録することも可能です。 その場合,配列多型 (haplotype, allele) および/または,観測した集団(country, lat_lon, host など)の記載の単一性を維持可能な単位を考慮して,各々のサンプル単位に集約することが推奨されます。 多型関連研究における同一配列の代表データ登録 をご覧下さい。
-
- 配列由来種の生物名で種が特定出来ない,どのように登録すればよいか判らない,そんな質問が多くあります
- まずは,Organism qualifier に記載する生物名DDBJ をご一読下さい。
【生物名記載の各論】 1から4のどれに該当するか確認して下さい。 SAKURA で登録される場合には,【SAKURA からの配列データ登録に際して】 の図に従い入力下さい。
-
- CDS では,gene 名および/または product 名を必ず記載して下さい
- 機能,名称等が不明な蛋白質の場合は hypothetical protein と記載することを推奨します。 略号の複数記載を希望される場合は,代表的な略号を gene に記載し,その他の略号を gene_synonym に記載して下さい。 どうすればよいか?と迷ったら,以下のページをご参照下さい。
- タンパク質コード配列; CDS feature について
- DDBJ の遺伝子命名に関する考え方: CDS についての詳しい解説, product や gene の書き方があります。
- The DDBJ/EMBL/GenBank Feature Table:
Definition: 記述形式ついての詳しい解説が英文で書かれています。
かなり長文ではありますが Feature 情報を正しく使用するためにもぜひ一度ご覧下さい。
-
- E-mail, Phone, Fax はフラットファイルに表示されません
- E-mail, Phone, Fax はデータ公開時に非表示ですが,個別に公開,非公開の設定が可能です。 REFERENCE 1 をご覧下さい。
2. よりスマートな公開のために
DDBJ では,皆様からお預かりした貴重なデータを,滞りなく速やかに公開するため,日夜,努力を続けています。データは,いつでも公開できる準備を事前に整え,そのタイミングを静かに待っています。とは言うものの,いざ公開となってから,雑多な作業が必要になり,てんてこ舞いする事も多々あります。”より多くのデータを正確かつスムーズに”公開するための妨げとなる諸問題を解決するため,データ登録者の皆様のご協力をお願いいたします。
-
- ”年末,年度末” 問題
- 例年,年末および年度末の時期では,公開予定のデータ,新規登録のデータが大変多く,通常時の十倍以上の件数となります。そのため,作業員は,特別体制で対応しておりますがお返事の遅れなどが発生する場合もあります。可能でしたら,この時期をはずしてデータの登録を行う,公開予定日を「年末,年度末」以外の日付に設定する,などして頂きますと助かります。また,この時期,ユーザー対応に遅れが見られる場合もございますが,どうかご理解をお願いします。
-
- ”データ公開予定日の管理” 問題
- データは設定された公開予定日になりますと,直ちに公開作業を開始します。
予定日の10日前に予告メールを送信していますが,近年,この予告メールが迷惑メールとして除外され,登録者ご自身に到達しない場合が見受けられます。
「DDBJ から何も連絡がないのに(と思っていたが実は予告メールは送信済み),意に反してデータが公開されてしまった」となりませんよう,非公開データについては,ご自身で公開予定日の管理をお願いします。登録データが,データベースから公開されてしまった場合には以下のように扱われますのでご注意下さい。
[FAQ] 公開を取り消したデータが,現在も参照できるのはなぜですか?
-
- ”修正しないとデータが公開できない” 問題
- 主に新種の生物名に関連する場合では,データ公開前に生物名の修正が必要となります。 この変更作業は GenBank との密接な情報交換を伴いますので時間が必要になります。どうぞご注意下さい。 その他の feature 情報の変更が必要な場合には,下記の定義に則ってご指定下さい。
-
- ”DDBJ の明日はどっちだ?” 問題
- まだまだ,力の足りない DDBJ ですが,次世代に向けて新たな一歩を踏み出す時がきています。これからどうしていくべきか,何が皆様から求められているのか,今,できる事は何なのか。昨今の仕分け論議の盛り上がりもあり,日々悩みの種は尽きません。DDBJ はこれからも,適切な目標をたて,限られた資源を効率良く運営していかなければなりません。「わかりにくい DDBJ」から「頼りがいのある DDBJ」に変わっていきたい!との思いは皆,強く持っています。とは言うものの内部の人間からは見えない問題点もあります。 DDBJ の明日のため,どうぞ皆様のお知恵をお貸し下さい。
3. パーフェクトなデータ更新に向けて
登録されたデータは,即時公開されたり,公開予定日までクローズされたり様々ですが, 「登録時から現在までの期間に一度も変更がされなかった」というものはほとんどありません。 そのぐらい,更新作業というのは当たり前の作業なのです。 もちろん,最初からパーフェクトなデータが入力されてくる事が理想ですが, そうでなかったとしても大丈夫です。私たちがしっかりと皆様のデータをお守りいたします。 今回はすべての皆様にとって避けて通れない,データの変更についてのお願いをまとめました。
-
- データを変更する権利のある方は,「登録者」として登録されている方のみになります
- データ登録時に,変更依頼者が「登録者」として登録されていなかった場合には,まず,変更依頼者を「登録者」のひとりとして追加する作業が必要になります。こちらでは,すべてのアクセッション番号について,「登録権利者」の確認をおこなっております。どうぞお気をつけ下さい。
-
- 公開予定日の変更
- 変更対象の全アクセッション番号と新公開予定日の具体的な日付(例:2011年12月20日)をお知らせ下さい。 「公開予定日」は必ずご自身で管理して下さい。理由は その2 で記載しています。
-
- 文献情報の更新
- 論文が公開されました に従い,お知らせ下さい。 論文に使用していないデータでも,関係配列として文献情報の更新・公開を行う事が可能です。 JOURNAL 名欄は,NCBI のJournals DB を基に表示していますので,希望される略称での表示とならない場合がありますが,その場合にはご相談下さい。 論文がインターネットなどで閲覧できない場合には,お手元に論文のコピーがありましたら添付書類としてお送り下さい。 なお,論文受理の段階で当該論文がweb 上で先行公開される場合では,非公開を希望されてもDDBJ 公開原則が適用され,直ちに公開されますのでご注意下さい。
-
- コンタクトパーソン情報の更新
- コンタクトパーソン情報, 住所, 所属情報を変更したい に従い,お知らせ下さい。 たとえ公開完了済みのデータであっても,コンタクトパーソンメールアドレスが変更になった場合は必ずお知らせ下さい。 その際対象となるアクセッション番号はもれなくご記載下さい。 公開データで表示される内容とは異なる連絡先を登録する事も可能です。
-
- 登録内容は永久にメンテナンスされ続けます
- アクセッション番号が発行されてしまうと,あるいは論文が公開されてしまうと,そこでDDBJ の仕事は終わりになる,と思われがちですが,そうではありません。そのデータは将来にわたって永久に管理され続けます。 例えば,将来,新発見があり,過去のデータについて,修正の指摘があった場合には,DDBJ はそのデータの登録者の確認を取った後に,データを正しい内容に修正していく必要があります。 そのため,コンタクトパーソンの連絡先アドレス(非公開)は常に最新の内容になるよう,修正され続けていくのです。
- 登録データのアクセッション番号や登録内容が不明になってしまった場合
- こちらで検索し,お知らせすることも可能です。しかしながら,同姓同名の方がいらっしゃる場合など,特定できないケースもありますので,ご自身での管理をお願いします。
- FEATURES 情報に関する変更の場合は
-
- 登録データの修正・更新
- Feature key の定義
- Qualifier key の定義
- Organism qualifier に記載する生物名
- タンパク質コード配列; CDS feature について
などの規定に則りメールで依頼して下さい。変更点が非常に多い場合は,事前にご相談下さい。
4. 登録したいデータの量が多くて困った時のヒント集
実験結果も着々と蓄積し,「あとは論文にするだけ」とほっとするのもつかの間, 「その前にアクセッション番号を取得しなくては!時間がな~い。」 そんな経験はおありでしょうか。近年,配列決定のスピードアップやコストダウンがはかられ, 大量の配列データを保持されている研究者の方が増えているようです。 DDBJでは, 独立に配列が決定された結果については,すべて登録して頂く事を推奨しています。 今回は,一度に多数のデータにアクセッション番号を発行する ”大量登録 システム(MSS)”と, 登録データ量が多い場合に役立つヒントなどをご紹介いたします。
DDBJ は,The International Nucleotide Sequence Databases Collaboration(INSDC ) を構成する primary database ですので,すべての塩基配列について, その配列が受け入れ基準を満たしており,これを広く一般に公開することを目的とするならば,学術論文の投稿予定の有無に関わらず登録を受けつけ, アクセッション番号を発行しています。
DDBJ では,データ登録用入力システムとして,SAKURA システムと 大量登録システム(MSS)を用意しております。SAKURA は,1エントリ単位で,対話型入力システムです。MSS は,EST, WGS, 全ゲノム規模などの登録をする場合に多くの方が利用していますが, 「事前に一部データをサンプルとして提示して頂き,アノテーション内容(入力事項)をどのように記載するべきかなど, 登録者とDDBJ 担当者との間で事前調整をした後に,全データについての,登録用ファイルを電子メールまたは ftp でお送くり頂く」方式となっています。
MSS で使用する登録ファイル作成には,少々コツが必要ですが,一度作成して頂けば, 同じ要領で何度でも大量データを登録する事が可能ですので,非常に便利なシステムになっています。 (SAKURA で連番登録実行時に,登録件数が多くなり過ぎ,途中で何がなんだかわからなくなってしまった経験をお持ちの方は, MSS 利用が向いていると考えられます)
時々,ご依頼の中に「登録件数が確定していますが,うまく登録ファイルを作成できません。アクセッション番号の予約をしてもらえないでしょうか」 というものがあります。 大変申し訳ありませんが,アクセッション番号の予約発行はできません。 必ず登録ファイルを作成して下さい。アクセッション番号発行可能なファイルを頂いた後に番号を発行します。 ファイル作成がうまくできないでお困りの場合には,こちらでサポートする事も可能ですので利用申し込み後にどうぞご相談下さい。
SAKURA とMSS,どちらでもお好きな方をご利用頂けますが,「500,000 bp より大きい配列」 「WGS」「MGA」 については,MSS のみで受け付けております。
実際の登録にあたり, ご自身のデータをどう登録するのがふさわしいのかわからない,とお悩みの方は お問い合わせ から,どうぞお気軽にご相談下さい。
以下では,過去にありました質問の一部を記載しています。
Q1.原核生物の16S rRNA のみからなる配列の登録では,順鎖側または逆鎖側のいずれで登録すべきでしょうか?
A1.原核生物の 16S rRNA のみの配列の場合は,順鎖側の配列をご登録下さい。
確認方法:BLAST のページで検索対象データベース欄から, 塩基配列データベースとして 16S rRNA (Prokaryotes) を選択して,実行します。
Q2.海水や土壌などの「環境から取得したデータ」の生物名はどのように登録すればよいですか?
A2.海水や土壌などの「環境フィールドから,生物種の単離・培養の過程を経ず,PCR, DGGE あるいは,その他の方法で直接, 分子を単離・決定された塩基配列」は,環境サンプル(environmental sample) としてご登録をお願いします。 しかし,同じく環境フィールドからサンプルが得られた場合でも, サンプルから単離・培養されている個体(群)から配列が得られた場合,環境サンプルとは扱わず, 配列の由来種の生物名(学名)でのご登録をお願いします。
Q3. The Barcode of Life Data Systems(BOLD) に登録予定または登録済みのデータ はどのように登録すればよいですか?
A3.The Barcode of Life Data Systems(BOLD) に登録予定のデータについては,塩基配列は,SAKURA または MSS へ, 波形データは,DDBJ Trace Archive (DTA) へ登録して下さい。
MSS 利用者のうち,一部の方では下記の図にあります DDBJ Trace Archive (DTA), DDBJ sequence Read Archive(DRA) の両方に登録して頂く場合がございます。
Q4.DDBJ Trace Archive(DTA) とはどのようなデータベースでしょうか? DDBJ sequence Read Archive(DRA) とはどのようなデータベースでしょうか?
A4. DTA は,キャピラリ式シークエンサからの出力自体(シングルパスリードの DNA sequence chromatograms (traces), base calls, quality estimates)を登録するためのデータベースです。 DRA は,Roche 454 GS System®, Illumina Genome Analyzer®, Applied Biosystems SOLiD System® などの, いわゆる次世代シークエンサからの出力データのためのデータベースです。
Q5.次世代シークエンサによって配列決定されたmRNA の配列は,どのように登録すればよいですか?
次世代シークエンサによって配列決定されたゲノム配列は,どのように登録すればよいですか?
A5.次世代シークエンサによって配列決定されたmRNA 配列は,原則 DRA に登録をお願いします。 従来のEST などとは区別しておりますので,MSS では登録を受け付けておりません。
次世代シークエンサによって配列決定されたゲノム配列は, raw reads data については, DRA への登録をお願いします。( 必須ではありませんが, 強く推奨します)
raw reads data を加工した配列およびアノテーションが付加された配列は,MSS から登録をお願いします。 ドラフト配列の場合は,WGS, scaffold CON となりますが,完成度の高いゲノム配列は通常(general) データとして登録できます。