2003年12月公開予定の DDBJ release 56 より,フラットファイル BASE COUNT 行のフォーマットを変更します*。
これは DDBJ/EMBL/GenBank 国際塩基配列データベースが決定した,登録可能な配列長制限(350,000 bp/1エントリ)の撤廃に対応するための変更です。
これまで BASE COUNT 行では配列中の acgt および others の数を各6桁で記述していましたが,変更後は acgt の数を9桁分で記述し,others の記述を廃止することになります。
変更後のフォーマットは以下の例をご覧下さい。
上記制限の撤廃にあたり,GenBank はリリース138(2003年10月)よりフラットファイルから BASE COUNT 行を廃止しました。
DDBJ では GC 含有量は配列の性質を総括する情報の1つであり,フラットファイルに載せるべき情報であるという観点から,DDBJ フォーマットのフラットファイルには引き続き BASE COUNT 行を残しています。
* 新着データ(daily update)はリリース公開に先だち,12月3日公開データからこの形式で公開します。

  記述例)現在  1    6   11   16   21   26   31   36   41   46   51   56   61   66   71  |----|----|----|----|----|----|----|----|----|----|----|----|----|----|  BASE COUNT   123456 a 123456 c 123456 g 123456 t 123456 others  記述例)変更後  1    6   11   16   21   26   31   36   41   46   51   56   61   66   71  |----|----|----|----|----|----|----|----|----|----|----|----|----|----|  BASE COUNT    123456789 a    123456789 c    123456789 g    123456789 t
DDBJ フォーマットのフラットファイルについての詳細は,DDBJ ホームページ以下のサイトををご覧下さい。塩基配列登録のための参考資料/資料10 DDBJ のデータ公開形式 (flat file) の説明皆様のご理解とご協力をお願い申し上げます。ご質問がありましたら ddbj@ddbj.nig.ac.jp までご連絡下さい。