-
DDBJ アノテータ 青野 英雄
1. はじめに
DDBJ では、日本特許庁(JPO)データの公開フラットファイル(FF) について、COMMENT 部分に記載される内容の改良を行った。塩基配列データの新フォーマットはDDBJ release 90.0 から、JPO の全データが新フォーマットに対応している(図1参照)。アミノ酸配列データにおいては、2012年9月公開のJPO アミノ酸蓄積ファイルより、全データが新フォーマットで提供を行っている(図2参照)。
今回のコラムでは、JPO データの新フォーマットの特徴を紹介したい。2. COMMENT 部分の新フォーマット
2-1:
JPO データは公開公報のフロントページに記載される出願基本情報に関わる内容が記載され、公開公報を参照しなくてもFF だけで特許基本情報が把握できる特徴がある。
しかしFF の各部分に出願基本情報に関わる内容が記載されるため、必要な情報がFFのどの部分に記載されているのか理解しておく必要があった。特に出願人名はREFERENCE 部分のJOURNAL 行のみに記載され、FF 構造を理解していないと出願人情報を取得するのが難しかった(図3参照)。2-2:
新フォーマットではCOMMENT 部分に出願基本情報に関わる内容を全て記載し、COMMENT 部分を参照しただけで出願基本情報を把握できる様に改良を行った(図4参照)。新フォーマットでは、出願人名が記載されるPA 行、発明タイトルが記載されるPT 行、出願人指定の配列番号を記載したPS 行の追加を行った(表1参照)。
表1: COMMENT 部分新規追加行の説明
COMMENT 部分新規追加行 記載内容 PA 行 出願人名が記載される。
PA 行の他に、REFERENCE 部分のJOURNAL 行にも記載される。PT 行 発明タイトルが記載される。
PT 行の他に、DEFINITION、REFERENCE 部分のTITLE 行にも記載される。PS 行 配列表で記載される配列番号が記載される。
N の後ろに配列番号が記載される。3. 配列番号
3-1:
公開公報で記載される配列番号と、JPO データのFF での配列番号が一致しない問題があった。
旧フォーマットではFF 上で配列表の配列番号の記載がないため、公開公報の内容をみてJPO データのFF を参照しても、該当する配列を特定するのが難しかった。
その問題を解消するため、新フォーマットではPS 行を新たに追加した。3-2:
出願人は配列をJPO へ提出する際に、WIPO ST.25 という ガイドライン に従い配列表を作成する。
配列表では1 から始まる通し番号の配列番号を、出願人が各配列に付与している。出願内容に複数の配列が含まれる場合、配列番号は塩基配列、アミノ酸配列の順序は考慮されずに記載される。そのためJPO ではDDBJ に配列データを送る際に、塩基配列、アミノ酸配列の順に入れ替えを行い、配列番号を振り直している(表2参照)。JPO 記載の配列番号は公開番号とともに、DEFINITION 行、KEYWORDS 行、COMMENT 部分のPN 行、REFERENCE 部分のJOURNAL 行に記載される。
国内公報および公表公報由来データの公開番号には先頭にJP、国際公報由来のデータにはWO が記載され、公開番号の後ろには"-A" が記載される(表3参照)。表3: JPO 記載配列番号のFF 記載箇所と公開番号フォーマット
配列番号FF 記載箇所 公開番号フォーマット DEFINITION 行
KEYWORDS 行
COMMENT PN 行JP[space]公開番号[-A/]配列番号
WO[space]公開番号[-A/]配列番号REFERENCE JOURNAL 行 JP[space]公開番号[-A][space]配列番号
WO[space]公開番号[-A][space]配列番号3-3:
PS 行は固定文字列N の後に配列表の配列番号が記載されるため、ARSA で公開番号とN を含めた配列番号をキーワードに指定することにより、該当するエントリーを検索できる様になった。4. 最後に
COMMENT 部分に新フォーマットを導入することにより、特許データのFF と公開特許公報との関連性を高めることができた。より利便性を高めるため、現在、JPO データのFF を公開特許公報にハイパーリンクで参照することができる様に検討を行っている。





