|
FASTQ形式はテキストベースの形式で、DNAなどの塩基配列とそのクオリティスコアを1つのファイルに一緒に保存する際に用いられる。 塩基配列とクオリティスコアは各1文字のASCII文字で表され、これにより塩基とクオリティの対応関係が分かりやすくなっている。この形式はWellcome Trust Sanger Instituteで開発されたもので、FASTA形式のデータにクオリティ情報を追加するためのものであった。しかし今日ではIllumina Genome Analyzerのような次世代シーケンサー等から出力された塩基配列のデータを保存する際のフォーマットとしてデファクトスタンダードとなっている。 ==形式== FASTQファイル内では、1本の配列は4行で記述される。1行目は文字「@」で始まり、その後ろに配列のIDと、オプションとして説明を記述する。2行目は塩基配列を記述する。3行目には文字「+」を記載する。またその後ろに配列のIDを記載することもある。 4行目には2行目に記述した配列のクオリティ値を記述する。このクオリティ値は2行目の配列と同じ文字数でなければならない。 最小のFASTQファイルは、以下のようなものである:
元のSangerのFASTQファイルでは、塩基配列とクオリティ文字列の行の折り返しを許していた(その場合、数行飛びに分割される)。 しかし折り返しありのファイルでは、簡素な実装のプログラムではファイルのパージングの際にクオリティ行頭の「@」や「+」を誤ってID等の目印として認識してしまうものもあり、正確に折り返しに対応しようとすると実装が複雑となるため、折り返しありの形式は避けられることも少なくない。 抄文引用元・出典: フリー百科事典『 ウィキペディア(Wikipedia)』 ■ウィキペディアで「Fastq」の詳細全文を読む スポンサード リンク
|