DDBJ Web Magazine No.81


No.81   2013年3月14日 DDBJ 発行


2013年 国立遺伝学研究所 一般公開
国立遺伝学研究所では、年に一度桜の開花時期にあわせて構内の一般公開を行っております。
研究所で行われている研究を展示や講演会で公開いたします。DDBJ もパネル展示で参加し、活動を紹介します。同時に、構内に植えられた多くの種類の桜を楽しんで頂けます。それぞれの種類の木肌や花弁の色や形、香りの違いを間近でご観察ください。

今年の一般公開は、4月6日(土)です。三島駅から無料シャトルバスも運行されます。皆様のお越しをお待ちしております。 詳細は、こちら をご覧ください。

DDBJ Web Magazine No.81 です。
anonymous FTP のディレクトリ構成変更: unified-all ディレクトリ新設と non-redundant から unified-new へディレクトリ名称変更

FTP の ddbj_database (DDBJ 由来データ) 配下のディレクトリに unified-all を新設しました。また、これに伴い、non-redundant から unified-new に名称変更しました。
ddbj_database 以下の構成の詳細は、同ディレクトリ内の README.TXT をご参照下さい。定期監視されている場合は、この変更による影響のご確認をお願いいたします。

unified-all; ftp://ftp.ddbj.nig.ac.jp/ddbj_database/ddbjnew/unified-all
このディレクトリには ddbj と ddbjnew のディレクトリ内に含まれる全ファイルを統合して、更新されたエントリを最新のバージョンのみ含むようにしています。つまり、置き換えられた以前のバージョンのエントリを除いています。
ディレクトリ構成

 unified-all
  |- fasta   : in FASTA file format
  |- blastdb : in BLAST DB format
unified-new; ftp://ftp.ddbj.nig.ac.jp/ddbj_database/ddbjnew/unified-new
このディレクトリには ddbjnew のディレクトリ内に含まれる全ファイルを統合して、更新されたエントリを最新のバージョンのみ含むようにしています。 つまり、置き換えられた以前のバージョンのエントリを除いています。
ディレクトリ構成

 unified-new  : in DDBJ flat file format
  |- fasta   : in FASTA file format
  |- blastdb : in BLAST DB format
日本特許庁(JPO)データにおける公開フラットファイルの新フォーマットの紹介
DDBJ アノテータ 青野 英雄


1. はじめに
DDBJ では、日本特許庁(JPO)データの公開フラットファイル(FF) について、COMMENT 部分に記載される内容の改良を行った。塩基配列データの新フォーマットはDDBJ release 90.0 から、JPO の全データが新フォーマットに対応している(図1参照)。アミノ酸配列データにおいては、2012年9月公開のJPO アミノ酸蓄積ファイルより、全データが新フォーマットで提供を行っている(図2参照)。
今回のコラムでは、JPO データの新フォーマットの特徴を紹介したい。

 

2. COMMENT 部分の新フォーマット
2-1:
JPO データは公開公報のフロントページに記載される出願基本情報に関わる内容が記載され、公開公報を参照しなくてもFF だけで特許基本情報が把握できる特徴がある。
しかしFF の各部分に出願基本情報に関わる内容が記載されるため、必要な情報がFFのどの部分に記載されているのか理解しておく必要があった。特に出願人名はREFERENCE 部分のJOURNAL 行のみに記載され、FF 構造を理解していないと出願人情報を取得するのが難しかった(図3参照)。

図3: REFERENCE 部分の出願人記載箇所


2-2:
新フォーマットではCOMMENT 部分に出願基本情報に関わる内容を全て記載し、COMMENT 部分を参照しただけで出願基本情報を把握できる様に改良を行った(図4参照)。

図4: COMMENT 部分の新フォーマットと各行の説明


新フォーマットでは、出願人名が記載されるPA 行、発明タイトルが記載されるPT 行、出願人指定の配列番号を記載したPS 行の追加を行った(表1参照)。

表1: COMMENT 部分新規追加行の説明
COMMENT 部分新規追加行 記載内容
PA 行 出願人名が記載される。
PA 行の他に、REFERENCE 部分のJOURNAL 行にも記載される。
PT 行 発明タイトルが記載される。
PT 行の他に、DEFINITION、REFERENCE 部分のTITLE 行にも記載される。
PS 行 配列表で記載される配列番号が記載される。
N の後ろに配列番号が記載される。
3. 配列番号
3-1:
公開公報で記載される配列番号と、JPO データのFF での配列番号が一致しない問題があった。
旧フォーマットではFF 上で配列表の配列番号の記載がないため、公開公報の内容をみてJPO データのFF を参照しても、該当する配列を特定するのが難しかった。
その問題を解消するため、新フォーマットではPS 行を新たに追加した。

3-2:
出願人は配列をJPO へ提出する際に、WIPO ST.25 という ガイドライン に従い配列表を作成する。
配列表では1 から始まる通し番号の配列番号を、出願人が各配列に付与している。出願内容に複数の配列が含まれる場合、配列番号は塩基配列、アミノ酸配列の順序は考慮されずに記載される。そのためJPO ではDDBJ に配列データを送る際に、塩基配列、アミノ酸配列の順に入れ替えを行い、配列番号を振り直している(表2参照)。

表2: 配列表とFF での配列番号の対応


JPO 記載の配列番号は公開番号とともに、DEFINITION 行、KEYWORDS 行、COMMENT 部分のPN 行、REFERENCE 部分のJOURNAL 行に記載される。
国内公報および公表公報由来データの公開番号には先頭にJP、国際公報由来のデータにはWO が記載され、公開番号の後ろには"-A" が記載される(表3参照)。

表3: JPO 記載配列番号のFF 記載箇所と公開番号フォーマット
配列番号FF 記載箇所 公開番号フォーマット
DEFINITION 行
KEYWORDS 行
COMMENT PN 行
JP[space]公開番号[-A/]配列番号
WO[space]公開番号[-A/]配列番号
REFERENCE JOURNAL 行 JP[space]公開番号[-A][space]配列番号
WO[space]公開番号[-A][space]配列番号
3-3:
PS 行は固定文字列N の後に配列表の配列番号が記載されるため、ARSA で公開番号とN を含めた配列番号をキーワードに指定することにより、該当するエントリーを検索できる様になった。

4. 最後に
COMMENT 部分に新フォーマットを導入することにより、特許データのFF と公開特許公報との関連性を高めることができた。より利便性を高めるため、現在、JPO データのFF を公開特許公報にハイパーリンクで参照することができる様に検討を行っている。
"DDBJ 塩基配列登録システム F A Q" –その3.
DDBJ 塩基配列登録システム について、頻繁に寄せられる質問と回答です。ご登録の際に参考にしてください。 その1. その2.


Q."7.Annotaton" のページで Invalid value [X - XXX] for [transl_table] qualifier とエラーメッセージが出て先へ進めません。何が原因でしょうか?

A.正しい"genetic code" が入力されていないのが原因です。
Edit アイコンをクリックし、Scientific name 欄へ学名を入力する際にリスト表示される「生物名」を選択すると、自動的に正しい”genetic code” が入力されます。
生物名が入力済みの場合は、Scientific name 入力欄にカーソルを移動し、キーボードの上・下キーを押すと生物名リストが現れますので選択してください。リストにない生物の場合は、genetic code 欄に正しい値を入力してください(参照:Genetic Code Tables)。



     参照7.Annotation – 生物名の入力について
Q.Value of [ codon_start ] is not 1, but [1..>300] is 5 complete type. とエラーメッセージが表示されたのですが、どのように修正したらよいでしょうか?

A."Location" か "codon_start" の記述が正しくない可能性があります。
codon_start の値が「2」 や「3」 の場合は、CDS feature の5' 側Location は部分配列指定になっている必要があります。Location の記述法 に基づいて5'側locationを部分配列指定し、<1..>300 に修正してください。
あるいは、CDS feature の5' 側Location が開始コドンで始まっている場合は、codon_start を「1」 に修正してください。



     参照codon_start qualifier による翻訳開始の位置補正
この DDBJ Web Magazine は国立遺伝学研究所内の方と,配信を希望される方に送らせて頂きます。
配信申込・中止・変更の方は,「申込・変更」ページをご利用下さい。
発行:日本 DNA データバンク(DDBJ)
大学共同機関法人 情報・システム研究機構 国立遺伝学研究所 DDBJ センター
〒411-8540  静岡県三島市谷田1111

Comments are closed.