BWA是用于將低分叉序列比對(duì)到大的參考基因組比如人基因組的軟件包。BWA主要是由三種算法組成:BWA-backtrack、BWA-SW和BWA-MEM。第一個(gè)算法是針對(duì)于illumina測(cè)序reads最多100bp的算法。后面兩個(gè)主要是針對(duì)于從70bp到1Mbp的更長(zhǎng)序列。BWA-SW和BWA-MEM擁有一些相同的特征例如長(zhǎng)reads支持和序列分開(kāi)模式。但是相對(duì)而言,更加推薦BWA-MEM,可以更快和更準(zhǔn)確在更高質(zhì)量的序列上比對(duì)。BWA-MEM相比較BWA-backtrack在70-100bp illumina reads上有更好的性能。。它由三個(gè)不同的算法:
BWA-backtrack:是用來(lái)比對(duì)Illumina的序列的,reads長(zhǎng)度最長(zhǎng)能到100bp。-
BWA-SW:用于比對(duì)long-read,支持的長(zhǎng)度為70bp-1Mbp;同時(shí)支持剪接性比對(duì)。
BWA-MEM:推薦使用的算法,支持較長(zhǎng)的read長(zhǎng)度,同時(shí)支持剪接性比對(duì)(split alignments),但是BWA-MEM是更新的算法,也更快,更準(zhǔn)確,且BWA-MEM對(duì)于70bp-100bp的Illumina數(shù)據(jù)來(lái)說(shuō),效果也更好些。
對(duì)于上述三種算法,首先需要使用索引命令構(gòu)建參考基因組的索引,用于后面的比對(duì)。所以,使用BWA整個(gè)比對(duì)過(guò)程主要分為兩步,第一步建索引,第二步使用BWA MEM進(jìn)行比對(duì)。
bwa的使用需要兩中輸入文件:
Reference genome data(fasta格式.fa,.fasta,.fna)
Short reads data(fastaq格式.fastaq,.fq)