これは DDBJ/EMBL/GenBank 国際塩基配列データベースが決定した,登録可能な配列長制限(350,000 bp/1エントリ)の撤廃に対応するための変更です。
これまで BASE COUNT 行では配列中の acgt および others の数を各6桁で記述していましたが,変更後は acgt の数を9桁分で記述し,others の記述を廃止することになります。
変更後のフォーマットは以下の例をご覧下さい。
上記制限の撤廃にあたり,GenBank はリリース138(2003年10月)よりフラットファイルから BASE COUNT 行を廃止しました。
DDBJ では GC 含有量は配列の性質を総括する情報の1つであり,フラットファイルに載せるべき情報であるという観点から,DDBJ フォーマットのフラットファイルには引き続き BASE COUNT 行を残しています。
* 新着データ(daily update)はリリース公開に先だち,12月3日公開データからこの形式で公開します。
-
記述例)現在 1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 |----|----|----|----|----|----|----|----|----|----|----|----|----|----| BASE COUNT 123456 a 123456 c 123456 g 123456 t 123456 others 記述例)変更後 1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 |----|----|----|----|----|----|----|----|----|----|----|----|----|----| BASE COUNT 123456789 a 123456789 c 123456789 g 123456789 t