機種でお悩みの方
これから次世代シーケンサーの利用を検討されている方へのご参考情報

次世代シーケンサーの機種

企業名 機種名 リード長 ラン当たりの配列出力量 ラン時間 備考
illumina HiSeq2500 100bp×2 600Gb 11日 標準モード
100bp×2 120Gb 27時間 Rapidモード
MiSeq 250bp×2 8.5Gb 39時間
Life Technologies 5500xl SOLiDTM 60bp×2 180Gb 7日
Ion ProtonTM 200bp 10Gb 2~4時間 PITMChip
Ion PGMTM 200bp 1Gb 4.5時間 318Chip
Roche GS FLX+ ~1000bp 700Mb 23時間

ひとくちに次世代シーケンサーと言っても様々な種類が存在しており、リード長やペアエンドのサポート、ラン当たりの配列出力量は大幅に異なります。これらの機種ごとの特性から、一般的には下表に示す使い分けが行われています。(注意:下表は一般的な傾向を示すものであり、解析結果の品質等を保証する情報ではありません)

解析方法 HiSeq2500 MiSeq 5500xl SOLiDTM Ion ProtonTM Ion PGMTM GS FLX+
変異解析(exome)
変異解析(whole genome)
変異解析(long indel/CNV)
変異解析(ハプロタイプ)
変異解析(Cancer panel等)
RNA-Seq
ChIP-Seq
メチローム解析
de-novoアセンブル

また、多くの次世代シーケンサーでは、従来法(サンガー法)と異なり、出力されるリード配列は、1つの核酸分子に由来するものです。この特性を活かして、より正確なハプロタイプ解析等が可能になります。

便利な受託解析サービス

まだまだ次世代シーケンサーは高価ですので、所属している研究機関に次世代シーケンサーがないという方が多いのではないでしょうか?そんな場合でも次世代シーケンサーの解析をしたいという方は、シーケンス業務の受託サービスを利用するというのはいかがでしょうか?
受託サービス会社では、常日頃から次世代シーケンサーの解析手法の動向を把握しており、その時点でユーザーに最も適した解析手法やデータ解析ツールを提案してくれます。 例えばタカラバイオ様では様々な次世代シーケンサーを揃えており、解析ごとに最適な機種を利用することができるようです。もちろん、弊社でもシーケンサーの種類とデータ解析手法の組み合わせに関して常に研究開発を進めておりますので、お客様に最適なデータ解析手法のご提案をさせていただけます。

 

解析ツールでお悩みの方
シーケンサーから出力された配列情報の解析は、手法によって、大きく2通りのパターンに分類されてます。各パターンごとにツールを紹介します。

マッピングが必要な解析

1つ目の解析は、RNA-Seq、ChIP-Seqなど、マッピング処理が必要な解析です。参照配列(既知のゲノム配列)にリードをマッピング(参照配列のどこに該当するのかを決める)する一次解析と、解析手法ごとの二次解析の二段階の処理が必要になります。

de novoアセンブル以外の解析

Sanger法のシーケンサーの最大の用途だったゲノム配列のシーケンス解読です。
リシーケンスという手法が新たに登場したので、こちらはde novoアセンブルと呼ばれるようになりました。

de novoアセンブル以外の解析

無料お悩み相談はこちら

ハードウェアでお悩みの方
次世代シーケンサーに付属している標準ハードウェアでは、解析インフラとしては十分とは言えず、ストレージや解析サーバーについても検討する必要があります。ストレージやメモリはどれだけ必要か?そんなお悩みに実際の検証データでお答えします。

ストレージについて

「次世代シーケンサーから大量のデータが出るけど、どれだけストレージを用意すればいいの?」

そんな声をよく耳にします。そこで、必要なストレージ量を計算してみました。

illumina HiSeq2500では、1回のランで下表のストレージ領域が必要になります。

データ種類 サイズ 備考
配列データ(生データ) 約1TB バックアップ要
作業領域 約1TB~2TB 解析終了後削除可能
解析結果(BAMを含む) 約600GB バックアップ要
合計 2.6~3.6TB

ちょっとシミュレーション
10ランの解析を実行し、作業領域は5ラン分削除すると仮定すると、少なくとも21TB以上のストレージ領域が必要になります。

データ種類 サイズ 備考
配列データ(10ラン分) 約10TB
作業領域(5ラン分) 約5TB~10TB
解析結果(10ラン分) 約6TB
合計 21~26TB

次世代シーケンサーでは、やはりデータを保存するストレージが一番苦労しそうです。

メモリについて

データが巨大ならメモリもたくさん必要なのでは?
ものすごいコンピュータでなければ動かないのでは?

そこで、マッピングソフト"bowtie"を使った場合のメモリの使用量を社内環境で検証してみました。

  • 使ったデータは以下です。
    ヒトのリシーケンスデータを、ヒトゲノムに対してマッピングしました。

    参照配列 Human GRCh37
    リードの形式 Paired-end 75bp
    インサートサイズ 250bp
    リード数 1000万
  • 検証環境(H/W、S/W)は以下のとおりです。

    CPU 64bit Xeon 2.5Gb × 4 core
    搭載メモリ 24GB
    OS Linux 2.6.18
    ソフトウェア Bowtie 0.9.9
    Bowtieオプション -n 2 -p 4 --fr

検証の結果、最大使用メモリ2.9GB、実行時間200分でした。
Bowtieは、ゲノムをメモリに読込みますが、リードは読込みませんので、
実行途中でメモリ使用量はほとんど変化がありませんでした。

無料お悩み相談はこちら

その悩み、ズバリ解決いたします!
  • MSSの次世代シーケンサー関連ソリューション一覧
  • 「解析システム構築」サーバ、ストレージの設計から設置まですべてお任せ下さい。
  • 「解析パイプライン構築」用途に応じた最適な解析ツール選び、ツールを組み合わせてのパイプライン構築をご提案します。
  • 「ソフトウェア開発」用途に応じてオリジナルのソフトウェアを開発いたします。
  • 「その他サービス」その他、パートナー企業と連携して、様々なソリューションをご提供いたします。
  • 「受託解析」弊社の解析ノウハウ、計算サーバーをフル活用。どんな解析でもお任せ下さい。

その悩み、お気軽にご相談ください

無料お悩み相談はこちら

次世代シーケンスデータのためのゲノムブラウザー:GenomeJack登場 genomejack

導入事例紹介

解析システム構築 事例ファイル1:東京工業大学様 次世代シーケンサー向け大規模ファイルサーバ

MSS提案のポイント

  • 1.将来拡張性や柔軟性を重視
  • 2.使い勝手とコストパフォーマンスの両立
  • 3.システム安定稼動のための運用サポート

システム構成概要

スイッチ
8ポートのファイバーチャネルポートを有し、外部機器とのシームレスな連携に対応。将来の拡張も容易です。
ファイルサーバ
QC Xeon×2CPU,4GBメモリ構成。
OSは小サイズFileの扱いにも強い、SUSE Linuxを搭載しています。
ストレージ
コストパフォーマンスに優れたSerialATAを80本を搭載。
物理容量56TB/実効容量約48TB(RAID6構成後)の大規模ストレージ空間。多量のシーケンスデータの受皿として役割を果たします。

解析システム構築 事例ファイル2:理化学研究所 発生・再生科学総合研究センター様 (理研CDB様)

MSS提案のポイント

  • 1.解析ニーズに則したソフトウェア構成
  • 2.パイプライン処理に適した計算リソース
  • 3.将来拡張性や柔軟性を重視

システム構成概要

ソフトウェア
実験手法のヒアリング結果から、一次解析(マッピング)、二次解析それぞれに最適なソフトウェアソリューションをご提案。
計算ノード
一次解析用(マッピング処理)用の8台の計算ノード、二次解析用の大容量のメモリ計算ノード(256GBメモリ)と、NGS解析にベストな構成。
ストレージ
コストパフォーマンスに優れたSerialATAを搭載。 物理容量48TB/実効容量約36TB(RAID6構成後)の大規模ストレージ空間。
HPCソリューションズ
  システム構築およびH/W構築については、HPCソリューションズ殿にて実施しました。

解析システム構築 事例ファイル3:奈良先端科学技術大学院大学様 (NAIST様)

MSS提案のポイント

  • 1.充実のハードウェア基盤
  • 2.充実のソフトウェア環境
  • 3.充実のサポート&サービス

システム構成概要

ハードウェア
Nehalem(QuadCore)を2CPU搭載、144GBの大規模メモリ空間を有した充実の計算リソース。
ソフトウェア
NGSのご利用目的(大腸菌のシステムレベルでの解析)に合わせて構築された充実のソフトウェア環境(Bowtie、Velvet、FindPeaks、etc)。
サポート&サービス
バイオインフォマティクス全般および次世代シーケンサー運用フローに精通した専門チームによる充実のサポート。