最終更新日:2015.1.6.

AGPファイル作成概説

CON エントリの登録には、AGP ファイルが必要となります。
AGP ファイルの書式は、UCSC, EBI および NCBI により開発されました。

 

CON 配列ファイル

AGP ファイルのみで配列が構築可能である場合、配列ファイルは特に必要ありません。

 

CON アノテーションファイル

DIVISIONCON を指定しておく必要があります。

 

CON AGP ファイル

AGP ファイルには、CON エントリを構築する際のピースエントリの順序、種類、方向等が記載されます。

 

#1 2 3 4 5 6 7 8 9
scaffold1 1 1345 1 W BZZZ01123456.1 1 1345 +
scaffold1 1346 2845 2 N 1500 scaffold yes align_genus
scaffold1 2846 4301 3 W BZZZ01123457.1 1 1456 +
scaffold1 4302 4401 4 U 100 scaffold yes align_genus
scaffold1 4402 5631 5 W BZZZ01123458.1 1 1230 -
scaffold2 1 650 1 W BZZZ01123486.1 1 1345 +
scaffold2 651 750 2 N 100 scaffold yes align_genus
scaffold2 751 2980 3 W BZZZ01123488.1 1 1230 -
  • AGP ファイルは 9 カラムで構成されています。
  • 6 以降のカラムは、カラム 5 の value に依存して記述内容が異なります。
  • タブ区切りテキスト形式で作成してください。
  • 途中にスペース、空行が入らないようにしてください。
  • # で始まる行はコメント扱いとなります。データには反映されません。ファイルの先頭に記載してください。
  • AGPファイルは、"UME" (Utilities for MSS Error check)でチェックすることが可能です。

 

[各カラムにおける記述内容について]
カラム 内容 入力項目・注意事項
1 object CONエントリ名
(chromosome, scaffold, contig 等に対する固有の名称)
2 object_beg CON エントリにおける component/gap の開始位置
3 object_end CON エントリにおける component/gap の終了位置
4 part_number CON エントリを構成する component/gap の順序
5 component_type component の種類を示す規定値: A, D, F, G, O, P, W, N, U のいずれか
A Active Finishing; finishing に向けて更新され得る段階
D Draft HTG; HTG phase1, phase2, あるいは不明な draft 段階
つまり finished レベルに達していない HTG
F Finished HTG; phase3, finished レベルの HTG
G Whole Genome Finishing
O Other sequence; WGS, HTG に該当しないもの
P Pre Draft
W WGS contig; ピースエントリが WGS エントリである場合
N サイズが特定・予測されている gap
U サイズ不明の gap、100 塩基とすること

* component: より大きな配列を構築するために使用される配列 (ピースエントリ)

  • object には、アノテーションファイルのエントリ名と対応するエントリ名を入力してください。
  • 6 以降のカラムは、カラム 5 の value に依存して記述内容が異なります。

 

カラム 5 が "N"と"U"以外の場合:
カラム 内容 入力項目・注意事項
6 component_id component のアクセッション番号とバージョン番号、
あるいは component のエントリ名
7 component_beg component の開始位置
8 component_end component の終了位置
9 orientation component の相対的な配列の方向。規定値は下記:
+ プラス、順鎖
- マイナス、相補鎖
? 不明
0 ゼロ、不明 (deprecated)
na irrelevant
ただし、"?"、"0"、"na" も順鎖と扱う。

* component: より大きな配列を構築するために使用される配列 (ピースエントリ)

 

カラム 5 が "N"あるいは"U"の場合:
カラム 内容 入力項目・注意事項
6 gap_length [N の場合] ギャップの長さ(bp)
[U の場合] 100 (固定値)
7 gap_type gap の種類を示す。規定値は下記:
scaffold scaffold (含 superscaffold, ultra-scaffold)内の2つの配列間の gap
contig scaffold 以外の2配列間の長さが不明な gap
centromere centromere が存在することによる gap
short_arm chromosome の末端動原体が存在することによる gap
heterochromatin heterochromatin が存在することによる gap
(centromere を含んでいる場合も可)
telomere telomere が存在することによる gap
"repeat" 解読不能な repeat
8 linkage 前後の配列が連鎖するか否か、連続性 (yes, no のいずれか)
9 linkage evidence 隣のカラム 8 に示される linkage の根拠を示す。規定値は下記:
na カラム 8 が 'no' の場合、固定値
paired-ends DNA 断片の両端の配列のペア
align_genus 同属の参照ゲノムとのアラインメント
align_xgenus 異なる属の参照ゲノムとのアラインメント
align_trnscpt 同種の転写産物とのアラインメント
within_clone 同一 clone 内から得られた配列だが、その両側がgap であり、paired-end に相当しない場合。
近接する配列の順序と向きが不明なものも含む。
clone_contig tiling path 内の clone contig から示される場合。
例えば、clone 中に gap の存在を確認しているが、配列をまだ、読んでいないなど。
map 配列決定以外の方法による linkage が支持されている場合。RH, fingerprint、光学的手法など。
strobe ストロボ シークエンシング(PacBio 用)
unspecified 古い AGP で根拠が示されていない場合の固定値
linkage の証拠が複数ある場合は、セミコロン";"で区切り、連結して示すことも可能です。
(例 "paired-ends;align_xgenus ")
  • 長さが判明していないギャップ領域については、一律 100 個の n で記述する規則となっています。
    component_type の value に"U"、gap_length の value に "100" と記載します。
  • カラム 5 が "N"あるいは"U"の場合、連続性の情報は gap_type および linkage の組み合わせで与えられます。
    以下の表を参考にしてください。

 

gap_type linkage 解説・注意事項
scaffold 内の gap: gap 前後の配列が1つの scaffold に収まる場合、連鎖している
scaffold yes scaffold を分けずに記載すること
gap 前後の配列が連鎖する証拠があることを示す
repeat yes scaffold を分けずに記載すること
gap に未解消の繰り返し単位が存在し、前後の配列が連鎖する証拠がある場合は 'yes' とする
scaffold を分ける gap: gap 前後の配列が分かれた scaffold に それぞれ位置し、連鎖するか否か不明
contig no scaffold を分けて記載すること
gap 前後の配列が連鎖する証拠がなく、連鎖するか否か不明
repeat no scaffold を分けて記載すること
gap に未解消の繰り返し単位が存在し、前後の配列が連鎖する証拠がない場合は 'no' とする
centromere
short_arm
heterochromatin
telomer
no scaffold を分けて記載すること
これら生物学的 gap は chromosome に沿った scaffold の間に配置すること
使用禁止となる gap type と linkage の組み合わせ
contig yes この組み合わせは使用禁止
もし、gap 前後の配列が連鎖する証拠があるならば、gap type は contig ではなく scaffold とすべきである
scaffold no この組み合わせは使用禁止
もし、gap 前後の配列が連鎖する証拠がないならば、gap type は scaffold ではなく contig とすべきである
centromere
short_arm
heterochromatin
telomere
yes この組み合わせは使用禁止
これら生物学的 gap は scaffold 内では使用しないこと
ページの先頭へ戻る