[2] データベース利用

[2-1] データベース利用
[2-1-1] データの検索・リリースデータの取得,その他

公開を取り消したデータが,現在も参照できるのはなぜですか

一度公開されたエントリに対して一定の利用制限をかけることは、条件つきで可能です。
その場合は、次回以降に作成する定期リリースに当該データを含めないこととし、DDBJ 配下の通常検索サービスから削除することになります
しかしながら、getentry を利用してアクセッション番号で検索した場合には、永久に閲覧が可能な状態になります。
# ただし,国際塩基配列データベース側の作業ミスにより誤って公開された場合は,その限りではありません。
これは国際塩基配列データベースの諮問機関である国際諮問委員会が作成した 登録データの取扱いについて の中で,次のように明文化されています。



3. INSD に登録されたデータは,科学資料として永久に保存され公開される。登録者によるデータの訂正や更新は歓迎するし, 誤った部分は次のデータリリースで訂正されるべきであるが,全てのデータは永久に保存され,アクセッション番号で検索できるものとする。


また、不特定多数の機関が国際塩基配列データベースを随時コピーして独自のデータベースを構築しております。
これらのデータベースからの削除は DDBJ ではサポートできかねます。それぞれの管理者へ直接、ご依頼いただくことになります。

(1129)    更新日:2014年2月17日



現在公開されている配列の更新前の内容を参照できますか

getentry webAPI を使用して検索することが可能です。
検索方法は getentry ヘルプgethistory に関する説明をご参照ください。

(1146)    更新日:2014年2月17日



論文に掲載されているアクセッション番号が検索できません

DDBJ ではデータ公開原則 に従いデータの公開作業を行なっています。

論文に掲載されている ID が国際塩基配列データベースが発行するアクセッション番号かどうか, 今一度ご確認ください。
アクセッション番号ではなく、protein_id や NCBI の RefSeq の ID などの場合があります。
アクセッション番号についての詳細は、国際塩基配列データベースのアクセッション番号 を ご一読ください。

論文に公表されている場合、必要な確認作業を行ないますので,DDBJ へのお問い合わせ の「塩基配列データの更新・修正」より,以下の情報をお知らせください。

参考
  • 論文に掲載されているアクセッション番号
  • タイトル
  • 著者名
  • 雑誌名
  • 巻・頁・年
  • DOI・PMID

(1130)    更新日:2014年2月20日



最新データが最も早く参照できる検索サービスは何ですか

getentry です。 getentry はアクセッション番号等によりエントリを検索するシステムです。 通常,公開作業を行なった日の翌日にデータベース上に反映されます。 相同性検索などのサービスへの反映は getentry に引き続き行なわれますが,getentry と相同性検索などのサービスには 公開されたエントリ数により,1日から1週間程度の差が生じることがあります。

(1131)    更新日:2012年9月3日



DDBJ から公開されたデータは EMBL/GenBank ではどのように公開されますか

DDBJ は国際塩基配列データベースを EMBL,GenBank と共同で構築しており, 塩基配列データ登録の窓口になっています。 DDBJ に登録されたデータは DDBJ から公開されますと,EMBL と GenBank に送られます。 ただし,送られたデータは各データバンク独自の書式に変換して公開されますので,公開されるデータファイルの書式は各データバンクで異なります。

(1132)    更新日:2012年4月12日



DDBJ/EMBL/GenBank で最新データが公開される時間的な差はどのくらいですか

EMBL と GenBank から DDBJ に送られたデータは,通常,そのデータを受け取った当日に DDBJ で公開されます。 DDBJ から EMBL と GenBank に送ったデータは,通常,DDBJ で公開された日の,翌日か翌々日には EMBL と GenBank で公開されます。 ただし,各バンクとも大量件数のデータを受け取った場合やネットワークトラブル,システム保守等により公開が遅れることがあります。 また,公開のタイミングは各バンクで管理しているため,時間差や公開日時を明確に示すことはできません。

(1133)    更新日:2012年9月3日



「DDBJ 新着データ」の説明にある「DDBJ 定期リリース後」とは具体的にいつですか

「DDBJ 新着データ(DDBJ 定期リリース後の新着データ)」は DDBJ 最新リリースの締め日の翌日以降に公開されたデータです。 最新リリースの締め日は リリースノート の文中に記述されています。 例えば,最新リリースが Release 67 の場合,以下のように2006年8月25日が締め日ですので, この時点の「DDBJ 新着データ」は8月26日以降公開されたデータになります。

The present release contains the newest data prepared by the DNA Data Bank ofJapan (DDBJ), GenBank (*), and European Molecular Biology Laboratory/EuropeanBioinformatics Institute (EMBL/EBI) as of August 25, 2006. (Rel.67 のリリースノートより抜粋,以下省略)

(2114)    更新日:2012年9月4日



期待している検索結果が得られません,検索方法が誤っているのでしょうか

DDBJ/EMBL/GenBank は各データバンクに登録された配列を相互に交換しており, 総合的には基本的に同じデータを持っています。 ただし,各データバンクが公開したデータを互いに交換し合う際の時間差,更に各バンク内でそのデータを 検索サービスへ反映させる際の時間差により,同じ日の近い時間であっても検索サービスのデータには 微妙な差が存在している可能性があります。 期待している検索結果が得られないのは,これら時間差に負うところが大きいと思いますが, さらに詳細な調査が必要な場合はDDBJ へのお問い合わせ の「その他一般的な質問」から以下の情報をお知らせ下さい。

・検索プログラム名や検索を行なった URL
・検索条件
・検索を行った日時
・検索されるはずのエントリのアクセッション番号
・検索結果の URL
・その他

また,Q and A の以下の質問もご参照下さい。

[2-1-1] 論文にでているアクセッション番号が検索できません
[2-2-1] 公開されているはずのアクセッション番号が検索できません

(2113)    更新日:2012年9月4日



DDBJ から提供されるデータを FTP で一括取得する方法を教えて下さい

以下のダウンロードサイトから DDBJ リリースを始めとする各種データ, ミラーデータベースの最新リリースデータ,および,新着データなどの取得が可能です。 どうぞご利用下さい。

FTP を利用したリリースデータ取得

(2107)    更新日:2012年12月4日



DDBJ ではデータの検索・解析サービスを行なっていますか

DDBJ では検索・解析サービスの提供は行なっていますが,特定のデータの検索・解析作業や, 検索・解析結果を送付するサービスはしていません。 データの検索・解析作業は,ご利用者ご自身で行なって下さるようお願いします。

データの検索・解析は,下記の2つの方法がありますので,どうぞご利用下さい。
・Web Server や ftp などのネットワークサーバを利用して検索・解析する。
 これらはユーザ ID がなくても利用することができます。
・国立遺伝学研究所のスーパーコンピュータシステムにログインして検索・解析する。
(利用にあたりスパコンのユーザID が必要ですので, 情報・システム研究機構国立遺伝学研究所スーパーコンピュータシステム利用の条件(暫定) を ご一読いただき,スーパーコンピュータシステムの利用申込 を行って下さい。)

(2106)    更新日:2012年9月4日



Anonymous FTP でログインが拒否されます

DDBJ は,2000年11月より FTP サーバのセキュリティ強化を実施しております。 接続先確認の為,DNS (ドメイン ネーム システム) よりドメイン名が確認できないマシンからの Anonymous FTP を拒否するように設定してあります。 ご利用の端末が DNS に登録されているかをご所属のネットワーク管理者にお問い合わせ頂き, 登録されていない場合には登録を依頼して下さい。 または,DNS に既に登録されているマシンから Anonymous FTP をご利用下さい。

(2108)    更新日:2012年4月6日


[2-1-2] 原著論文・論文への引用

論文に DDBJ データベース利用を引用したいと思います。文献を紹介して下さい

DDBJ のデータベースを学術論文などで引用する場合には,以下の文献をお使い下さい。

  "DDBJ launches a new archive database with analytical tools for next-generation sequence data"
  Kaminuma E, Mashima J, Kodama Y, Gojobori T, Ogasawara O, Okubo K, Takagi T and Nakamura Y.
  Nucleic Acids Research, 2010, Vol. 38, Database issue D33-D38

(2109)    更新日:2012年4月12日



DDBJ の検索・解析ソフトを用いた結果を論文に載せるときの記載形式はありますか

記載形式は雑誌により異なりますので,出版者にお問い合わせ下さい。 論文には各ツールの原著論文,DDBJ の遺伝子配列データ検索・解析ソフトを利用した旨を記載して下さい。

(2110)    更新日:2012年4月6日



DDBJ の検索・解析ソフトの原著論文,関連論文を紹介して下さい

DDBJ HP の 利用の手引き から 検索解析サービス References のページをご覧下さい。

(2111)    更新日:2012年9月4日


[2-2] Web を利用したサービス
[2-2-1] Web を使った検索・解析サービス


[getentry] 検索結果を FTP ファイル転送で得ることができません

DDBJ は,2000年11月より FTP サーバのセキュリティ強化を実施しております。
接続先確認の為,DNS (ドメイン ネーム システム) よりドメイン名が確認できないマシンからの Anonymous FTP を拒否するように 設定してあります。 ご利用の端末が DNS に登録されているかをご所属のネットワーク管理者にお問い合わせ頂き,登録されていない場合には 登録を依頼して下さい。 または,DNS に既に登録されているマシンから Anonymous FTP をご利用下さい。

(2222)    更新日:2012年4月12日



[getentry] getentry で取得できるデータの数に上限はありますか?

取得できるデータの数に上限はありません。 パラメータを指定することで,無制限に取得することができます。設定方法は以下の通りです。

[getentry web フォーム]
「上限」に「0」を入力して下さい。
[webAPI]
データ取得の上限を設定するパラメータ limit に「0」を指定して下さい。
例:アクセッション番号 FY736910 - FY762881( 25,972 entries)の検索結果を上限を無制限としてgz圧縮ファイルで出力
http://getentry.ddbj.nig.ac.jp/getentry?database=na&accession_number=FY736910 - FY762881&filetype=gz&limit=0
パラメータの設定方法の詳細は,getentry ヘルプをご覧下さい。

大量のデータを取得する場合は,以下の点にご注意下さい。
[ブラウザに表示させる場合]
件数が多い場合,表示に時間がかかる場合があります。また,ブラウザの性能により全件表示できない場合がありますのでご注意下さい。
[gzファイルをダウンロードする場合]
ダウンロードの途中で接続切れ等が発生した場合,そこからのやり直しやレジューム機能はありません。大量のデータをダウンロードする際には条件を分割するなどして複数回に分けて取得し、1回あたりの対象エントリーを少なくすることをお勧めします。

DDBJ リリースやWGS などはFTPサイトよりダウンロードできますので、こちらをご利用下さい。

(2251)    更新日:2012年11月5日



[getentry/ARSA] 公開されているはずのアクセッション番号が検索できません

アクセッション番号による検索に用いている ID 番号が,国際塩基配列データベースが発行する アクセッション番号かどうか, 今一度ご確認下さい。 アクセッション番号ではなく,protein_id や NCBI の RefSeq の ID などを検索に用いていることがあります。

国際塩基配列データベースが発行するアクセッション番号の詳細は, 「国際塩基配列データベースのアクセッション番号」 をご覧下さい。

protein_id は,翻訳される CDS feature に対して国際塩基配列データベースが発行する ID です。 BAA12345(例)のように3文字のアルファベットと5つの数字で構成されています。 検索に用いている ID 番号が protein_id であった場合には, getentry ARSA で検索可能です。
・getentry は番号指定のメニュー選択欄で [Protein ID] を選択する
・ARSA は Simple Search で Protein ID をそのまま入力する

RefSeq は,NCBI が国際塩基配列データベースのデータをもとに独自に運用している二次データベースです。 詳細は RefSeq のホームページ に掲載されていますので, こちらをご確認の上,検索を行なって下さい。 ご不明な点につきましては,RefSeq(info@ncbi.nlm.nih.gov)に直接お尋ね下さい。

上記に該当しない場合は,Q and A の以下の質問をご参照の上,必要な項目をお知らせ下さい。

[2-1-1] 期待している検索結果が得られません,検索方法が誤っているのでしょうか
[2-1-1] 論文にでているアクセッション番号が検索できません

(2225)    更新日:2012年9月4日



[BLAST] 検索結果をあとで見ることは可能ですか?

検索結果は Request ID を入れた,下記の URL で表示できます。

  http://blast.ddbj.nig.ac.jp/blast/r/Request ID

Request ID 入力内容送信後の画面に表示されますので,必ず控えて下さい。

入力内容送信後画面


検索結果画面


検索結果閲覧期間 実行後,7日間です。

(2241)    更新日:2012年5月30日



[BLAST] 検索結果の見方を教えて下さい

検索結果は,下記の順に出力されます。

1. 相同性スコアの高い配列の順位表
2. 相同な配列とのアラインメント
3. パラメータと統計
詳細については以下の Q and A の質問より,BLAST の原著論文をご覧下さい。 また,BLAST の検索結果では,塩基配列の場合は,"|" は塩基配列が一致していることを意味します。 アミノ酸配列の場合は,一致しているアミノ酸が表示されます。 また,類似しているアミノ酸は "+" で表示されます。

[2-1-2]DDBJ の検索・解析ソフトの原著論文を紹介して下さい
[2-1-2]論文に DDBJ データベース利用を引用したいと思います。文献を紹介して下さい

下記の参考文献もご参照下さい。
「改訂 第2版 バイオデータベースとウェブツールの手とり足とり活用法」(羊土社)
    編集/中村保一,石川 淳,磯合 敦,平川美夏,坊農秀雅      ISBN978-4-7581-0811-9
[BLAST] Ian Korf, Mark Yandell and Joseph Bedell, OREILLY

(2206)    更新日:2012年6月8日



[BLAST] 入力した配列の一部が「N」(X) に置き換わってしまいました

入力した配列が,BLAST プログラムによりフィルタリングされたためです。 フィルタリングにより,入力した配列のうち構造の複雑度が低い領域は "N"(アミノ酸配列の場合は "X")に 置き換わります。 フィルタリングの詳細は,BLAST HELP の フィルター をご覧下さい。 フィルタリング機能を OFF にする場合は,設定画面の下の方にある「フィルター」オプションの ラジオボタンで OFF を選択して下さい。 なお,このオプションを OFF にすると検索時間が通常よりかかる場合がありますので,ご注意下さい。

(2207)    更新日:2012年9月4日



[BLAST] 検索結果の表示数が少ない(No Hit Found になってしまう)のですが

「検索結果一覧の表示数」,「アラインメント表示数」で指定した数より少ない場合, 表示数を増やすには,”より詳細な設定” 欄の「期待値」の値を大きくしてお試し下さい。 このような場合は,期待数の値を10000 などと極端に大きくして下さい。 なお,配列が短すぎる場合(配列長が10 前後),BLAST では見つけられないことがよくあります。

(2208)    更新日:2012年9月14日



[BLAST/ClustalW] BLAST や ClustalW の検索結果中のアクセッション番号にリンクがないのですが,簡単に内容を見る方法はありますか?

以下の方法で,結果画面に表示されたアクセッション番号を getentry または UniProt で検索・表示させることができます。

1) 下記の link を右クリックして お気に入りやブックマークに登録しておく。

      accession number を getentry で検索
      タンパク質名,または accession number を UniProt で検索

2) 該当アクセッション番号のテキストを選択して,ブックマークを呼び出す。

DDBJ では,2012年3月のスーパーコンピュータのリプレースに伴い,BLAST ,ClustalW も新サービスとして提供を開始しておりますが,一部作業が間に合わず皆様にご迷惑をおかけしております。検索結果中のリンクについては,当面の代替機能として上記方法をご利用下さい。

(2232)    更新日:2012年9月14日



[ClustalW] 解析時に BOOTSTRAP を指定することはできますか

ClustalW は 2012年4月より,新システムに移行致しました。

新ClustalW では,全ての解析時に BOOTSTRAP の計算を実行致します。
出力ファイルの最後にある [Download Tree File] を選択して頂くと, .phb ファイルをダウンロードすることができます。

ただし,入力フォームで[FORMAT] と [CLUSTERING] の選択が以下の様な組み合わせのときには .phb ファイルは作成されません。

[FORAMT] [CLUSTERING]
PHYLIP NJ
NEXUS NJ
PHYLIP UPGMA
NEXUS UPGMA

(2231)    更新日:2012年5月30日



[ClustalW] 3種類の記号 “*”, “.”, “:” の意味は何ですか

そのマークのついているサイトにアラインメントされているアミノ酸が,
"*"では,完全に一致している
":"では,強い類似性のあるグループに属している
"."では,弱い類似性のあるグループに属している
ということを示しています。 強い弱いの基準は,PAM250 MATRIX において,アミノ酸間のスコアが0.5より大きいか,0.5以下かで分けています。 README 抜粋中の
     STA
     NEQK
     :
は,横一行がその印がつくときのアミノ酸のグループを現しています(アミノ酸の一文字記号で書かれています)。

ClustalW のソースパッケージに含まれる README に,以下のような記述があります。
---------------------------------------------------------------------------
12. The conservation line output in the clustal format alignment file has beenchanged.
Three characters are now used:
'*' indicates positions which have a single, fully conserved residue
':' indicates that one of the following 'strong' groups is fully conserved:-
       STA       NEQK
       NHQK
       NDEQ
       QHRK
       MILV
       MILF
       HY
       FYW
'.' indicates that one of the following 'weaker' groups is fully conserved:-
       CSA
       ATV
       SAG
       STNK
       STPA
       SGND
       SNDEQK
       NDEQHK
       NEQHRK
       FVLIM
       HFY
These are all the positively scoring groups that occur in the Gonnet Pam250
matrix. The strong and weak groups are defined as strong score >0.5 and weak
score =<0.5 respectively.
---------------------------------------------------------------------------

(2216)    更新日:2012年11月6日



[ClustalW]ClustalW の解析結果で,”query.ph” や”query.phb” の値が 0 になっています。なぜですか。

考えられる原因として,"query" にしている配列の長さが極端に違う場合や"query" 配列間で重なりがない場合,"query.ph","query.phb" の値がすべて 0 のファイルが作成されます。
(数値がすべて 0 ということは,意味を持たないファイルが作成されたことになります。)
このような場合,"query" 数を減らしたり,重ならない配列を除くなどして,再度実行して下さい。

(2990)    更新日:2014年1月16日



[ClustalW] TreeView をダウンロードしたい

TreeView は TreeView のホームページから入手できます。 TreeView のマニュアルもこちらのサイトにありますのでご覧下さい。
※Mac OSX をご利用の方は [Linux/Unix版] をダウンロードして下さい。

(2218)    更新日:2012年11月6日



[Pipeline]DRAのアカウントを所持しているがPipelineにログインできない

DDBJ Pipeline を利用する為には、DRAのアカウントとは別にPipeline専用のアカウントが必要です。 お手数ですが、ログインページより新規アカウント作成へ進んでいただき、新たにPipelineのアカウントを取得してください。

(2281)    更新日:2013年6月21日



[Pipeline]新しくアカウント登録をおこなったが、メールが届かない

通常であれば、数分で、Login IDとPasswordが記載されたメールが、より送信されます。メールが届かないようであれば、ご自分のメールソフトウェアのフィルタリング設定などをご確認ください。 また、登録されたメールアドレスが正しくない可能性がありますので、メールアドレスをご確認の上、再度、アカウントの登録をおこなってください。

(2282)    更新日:2013年6月21日



[Pipeline]FTP接続がうまくいかない

ケース1.DRAユーザーの場合

DRA登録されているユーザーの方は、FTPに接続できない場合がございます。
その場合は一度パイプラインにログインしていただき、パスワードの変更を行っていただくことでFTP接続が可能になります。

ケース2.FTPクライアントが未対応

WindowsやMACに標準装備されているFTPクライアントではパイプラインのFTPへ接続することが出来ません。
パイプラインではFTP over SSLのサーバーを使用しており、FTPへのログインやデータの送受信が暗号化されるようになっており、これを利用するには対応したクライアントが必要になります。
Windowsの場合はWinSCP、MACの場合はCyberduckなどが上記の接続に対応しております。

WinSCPサイト
http://winscp.net/
Cyberduckサイト
http://cyberduck.ch/

(2283)    更新日:2013年6月21日



[Pipeline]HTTP uploadでファイルがリストに表示されない

HTTP通信の場合、ファイルがアップされるまでに時間がかかります。場合によっては、途中で通信が切断されてしまうこともあります。
また、ファイルがアップされた後に、リストの更新がされない場合がありますので、ページの再読み込みをおこなってください。

(2284)    更新日:2013年6月21日



[Pipeline]ジョブの実行時間が長くかかっているが問題ないか

denovoAssemblyを実行している場合(特にVelvet)は処理完了まで数日を要する場合があります。
多くの場合は処理するデータ量に比例して処理時間が伸びていきますが、オプションの指定方法や、元データの品質によって処理が完了しない可能性があります。
こうした場合はジョブがハングアップしている可能性が高く、そのままでは計算機リソースが無駄に占有されてしまう為、こちらで強制終了させていただく場合があります。

(2285)    更新日:2013年6月21日



[Pipeline] ジョブがエラーになる

<パターン1>
Status画面で、Statusが「error」でStart timeが「表示されていない」場合

  • 指定したクエリーファイルが、何らかの原因で読み込めなかったことによるエラーです。
  • 指定したクエリーファイルが、テキストファイルであることを、ご確認ください。(拡張子の指定は特にありません。)
  • また、FASTA/FASTQなどのフォーマットに問題がないか、ご確認ください。
  • 空行(最終行などに)が含まれていると、エラーになりますので、ご注意ください。
  • ファイル名が半角の英数(記号)であることを、ご確認ください。(日本語などの全角文字には対応していません。)
  • ファイル名には、スペースを含めないでください
  • Assembly→BLAT(mapping)を選択された場合で、Assembly結果ファイルが得られなかった場合は、BLAT(mapping)でこの状態になります。

FAQ_2_1
<パターン2>
Status画面で、Statusが「error」でStart timeが「表示されている」場合
  • 指定したクエリーファイルの、FASTA/FASTQなどのフォーマットに問題がないか、ご確認ください。
  • オプションなどの入力値を、ご確認ください。
  • Selecting Tools画面から、各ToolのサイトやHelpをご確認いただけます。※選択されたツールによっては、列の長さに上限があります
  • Detail view画面で、実行されたCommandと、Log1(標準出力)とLog2(標準エラー)から、原因を特定できる場合もありますので、ご確認ください。

<パターン3>
Status画面で、Statusが「complete」だが、Detail view画面で、エラーが出ている場合
  • オプションなどの入力値を、ご確認ください。
  • Selecting Tools画面から、各ToolのサイトやHelpをご確認いただけます。※選択されたツールによっては、列の長さに上限があります。
  • Detail view画面で、実行されたCommandと、Log1(標準出力)とLog2(標準エラー)から、原因を特定できる場合もありますので、ご確認ください。


原因が特定できない場合や、お気づきの点などありましたら、お手数ですがsupportまでご連絡ください。

(2286)     更新日:2013年6月27日



[Pipeline]パラメーター(オプション)の変更ができない

ツール選択画面では、ツールごとにマニュアルページへのリンクがありますので、こちらを読んでいただき、Setting for Assembly/Mapping画面で、Set optional parameters 以下の空白box内に適宜セットして下さい。

(2287)    更新日:2013年6月21日



[Pipeline]mappingで生成されるファイルはSAMファイルだけで、BAMファイルの生成は別途、SAMToolsで行わなければならない?

SAMtoolsも組み込まれておりますので、BAMファイルも生成されます。

(2288)    更新日:2013年6月21日




[Pipeline]Samtools indexファイルはダウンロードできない?

対応を検討致します。

(2290)     更新日:2013年6月21日



[Pipeline]== Specifying Database of Reference Genome 画面 ==User original setsに登録した項目は削除できない?

現状では対応しておりませんのでシステム改善案として上げさせて頂きます。

(2291)    更新日:2013年6月21日



[Pipeline]== Generating Query Sets from Query Read Files 画面 ==Read lengthとQuality Scoreが表示されず、リードをトリムできない

現在この機能は、DRA登録された方が、そのデータを使用して解析する際に、利用できるものです。この為、"PreProcess"処理を開発中です。各画面の左にありますメニュー、"step-1"以下の"PreProcess"から利用できます。
この処理では、QSの平均と標準偏差を計算、グラフ作成。QV閾値以内のデータをトリムする事などが行えます。
開発中ですので、何か問題がありましたらご連絡下さい。

(2292)    更新日:2013年6月21日



[Pipeline]== Setting for Reference Genome Mapping 画面 ==Set optional parameters….のStep3)で、Uniqを選択すると?

SAMファイル中の個々のリードのマップ結果を表す行のうち、ゲノムに一カ所でマップした結果の行(XT:A:Uを含む)のみを出力します(BWAのみ対応)。以下をご参考ください。
http://seqanswers.com/forums/showthread.php?t=5450

(2293)    更新日:2013年6月21日



[Pipeline]== Setting for Reference Genome Mapping 画面 ==SAMtools pileup とSAMtools mpileup の違いがわからない

pileupに対してmpileupはSNPコールが追加されています。以下をご参考ください。
http://samtools.sourceforge.net/mpileup.shtml

(2294)    更新日:2013年6月21日



[Pipeline]== Detail view 画面 == out.sam が、マッピング情報のSAMファイル生成なのか?

生成結果です。

(2295)    更新日:2013年6月21日



[Pipeline]== Detail view 画面 ==samtools view -bS -o out.bam out.sam このコマンドで、SAM—>BAM変換するのか?

samtools view はレファレンス配列(ゲノム)へのマップ結果のうち、特定領域の結果のみ出力するコマンドです。しかし、基本的に許可していないので、レファレンス配列(ゲノム)全体での結果となります。
http://samtools.sourceforge.net/samtools.shtml#3

(2296)    更新日:2013年6月21日



[Pipeline]== Detail view 画面 == samtools sort out.bam out2 このコマンドで、BAMのソーティングをして、out2.srt.bamという出力形式になるのでしょうか?

ダウンロードされるのは、out2.bam.zipで、このファイルを解凍するとout2.bamとなります。

(2297)    更新日:2013年6月21日



[Pipeline]== Detail view 画面 ==samtools view -hX out.bam>out.samXとmerged SAMがどのようなファイルなのか、わかりません

merged.samは、Detail view画面「Download merged pileup file」枠内のファイルの事であると思いますが、これは染色体ごとのsamの結果を1つに合わせたものとなっております。 out.samX は

samtools view -hX
Usage: samtools view [options]|[region1 [...]]
Options: -h     print header for the SAM output
            -X     output FLAG in string (samtools-C specific)

samとsamXで2カラムめの表記が変わります。以下をご参考ください。
http://sourceforge.net/apps/mediawiki/samtools/index.php?title=SAM_FAQ#The_integer_FLAG_field_is_not_friendly_to_eyes
merged SAMは染色体1本の場合out.sam(Downloadのファイルは圧縮されているが)中身は同じです。

(2298)    更新日:2013年6月21日



[Pipeline]== Detail view 画面 ==out2.bamはソートされたBAMファイルなのか?

そうです。

(2299)    更新日:2013年6月21日



DDBJ に登録されたデータ(アクセッション番号)へ直接リンクを張る方法はありますか。

DDBJ エントリへのリンク設定方法 をご参照ください。

(2992)    更新日:2014年2月19日



 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

ページの先頭へ戻る