DDBJデータ解析チャレンジ受賞者の発表

2016年9月30日

DDBJデータ解析チャレンジ実施委員会

2016年7月6日から8月31日にDDBJデータ解析チャレンジを実施しました。DDBJデータ解析チャレンジでは、DDBJ保有のビッグデータである塩基配列公開データベースを用いて、チャレンジ課題の機械学習モデルの精度を競います。構築モデルは京都大学のビッグデータ大学に投稿します。今回「DNA配列からのクロマチン特徴予測」のチャレンジ課題について、38名が参加して、延べ360回のモデル投稿がありました。モデル精度が上位1位～3位の最優秀賞・優秀賞・優良賞と、参加学生中で1位の学生賞の対象者を発表致します。また最優秀賞の構築モデルの概要を記載します。

DDBJデータ解析チャレンジ2016 入賞者

最優秀賞1st Prize of DDBJ Challenge Awards 2016	株式会社情報数理バイオ　研究開発部ライフサイエンスグループ望月正弘
優秀賞2nd Prize of DDBJ Challenge Awards 2016	国立研究開発法人理化学研究所情報基盤センターバイオインフォマティクス研究開発ユニット松本拡高(代表※)、尾崎遼(※)※チームとして2名で参加
優良賞3rd Prize of DDBJ Challenge Awards 2016	ビッツ株式会社岡山利次
学生賞Student Prize of DDBJ Challenge Awards 2016	東京大学大学院情報理工学系研究科修士課程1年加藤卓也

最優秀賞モデルの概要

望月氏のモデルは、Extremely Randomized Trees(ERT, 参考文献1) と Convolutional Neural Network(CNN, 参考文献2) の2種類の分類器を基盤として、Stacked Generalization(Stacking, 参考文献3) アンサンブル学習法で精度向上を図っています。特徴量は、チャレンジのクエリ配列だけでなく外部特徴量(ゲノム座標、遺伝子注釈情報)を組み入れています。1つ目のERTモデルはゲノム座標が特徴量でn(配列数) x m(染色体数)の行列です。ゲノム座標はクエリ配列をシロイヌナズナTAIR10ゲノム参照配列(参考文献 4)にアライメントして得ます。このERTモデルをGenomic Coordinates Based Model(GCBM)とします。2つ目のCNNモデルの特徴量は、クエリ配列と遺伝子注釈情報(TAIRからGFFファイルをダウンロード)です。Figure 1の様にforward/reverse strand別で遺伝子注釈情報を組み込んでいます。遺伝子注釈情報は定量値で、定義は次式になります。変数rは減衰率で、変数dは遺伝子の1塩基目からの距離です。変数rが0なら特徴量は1になり、遺伝子中に対象塩基が含まれる事を表します。変数rが0より大きい時は、遺伝子開始塩基からの勾配値が与えられます。このCNNモデルをGene Annotated Sequences Based Model(GASBM)とします。Figure1: Structure of the neural network of GASBMFigure2はベンチマーク結果です。ERT-GCBMモデルとCNN-GASBMモデルのパラメータ値などの詳細は、他の受賞者モデルも含めた全体解説(データクレンジング、特徴量選択、モデル訓練と予測法)と共に、報告論文で公開する予定です。Figure2: Benchmark result of modelsReference[1]　Geurts, P., Ernst, D. & Wehenkel, L. Extremely randomized trees. Machine Learning 63, 3-42 (2006).[2]　LeCun, Yann, et al. “Gradient-based learning applied to document recognition.” Proceedings of the IEEE 86.11 (1998): 2278-2324.[3]　Wolpert, D. H. Stacked generalization. Neural Networks 5, 241-259 (1992).[4]　https://www.arabidopsis.org/

受賞モデルの精度結果

DDBJ Challenge Award	AUC	Model Design	Tool Version
1st Prize	0.94564	2 Classifiers(Extremely Randomized Trees, CNN)Ensemble Learning(Stacking)*External Data(Genomic Position, Gene Structure Annotation)	python=3.5scikit-learn=0.17.1chainer=1.10.0
2nd Prize	0.89859	2 Classifiers(CNN, Product of Genomic Distance Decay Parameter and Nearest Training Data Output)Ensemble Learning(Averaged)*External Data(Genomic Position)	julia=0.4.6python=2.7.10skflow(tensorflow=0.8.0)
3rd Prize	0.85428	7 Classifiers(Naive Bayes for Multivariate Bernoulli Models, Logistic Regression, Random Forest, Gradient Boosting, Extremely Randomized Trees, eXtreme Gradient Boosting, CNN)Ensemble Learning (Stacking)	python=2.7.11numpy=1.10.4scikit-learn=0.17chainer=1.11.0xgboost=0.4a30
Student Prize	0.84318	3 Classifiers(LeNet like CNN, DeepBind like CNN, Variable filter DeepBind like CNN)Ensemble Learning(Soft Voting)	python=2.7lasagne=0.2.dev1

お問い合わせ：DDBJへのお問い合わせの「DDBJデータ解析チャレンジ」からご連絡ください。