一、如雷贯耳的BLAST
Blast(Basic Local Alignment Search Tool),可谓生信领域最常用的工具,拿到一段序列(测序结果,或设计好的引物等等),一般都会去blast一下,查找相似序列。
在查找相似序列的基础上衍生出了各种作用,比如鉴别基因组,蛋白质,查找特定靶区,检验引物特异性等等。自打1990年由Altschul SF等人开发出来,NCBI引进,至今还在改善,更新算法。
1 量身选用数据库
网址:https://blast.ncbi.nlm.nih.gov/Blast.cgi
做BLAST不仅要考虑选择哪种算法,还要考虑选哪个数据库来比对。我们最常用的可能就人类或小鼠基因组+转录组,但仍可根据自身情况选择合适的数据库,能大大节省检索时间,并提高返回的结果的质量和特异性。
不过这么多库怎么选呢,可以点一下旁边的问号(Help),查看选所的数据库的说明:
再者,如果你已经知道你要查的序列来自哪个物种,或你要跟哪个物种比对,也可以在Organism选项框中输入,也可以减少BLAST的操作程序,节省时间。
2 不同序列不同算法
BLAST工具跟一套手术器械似的,不同的算法干不同的活,得根据自己需要的信息,选择需要的工具。可以看到检索页面上方有5个选项卡,分别代表5种查询类型。
各大类之下可能还有几个小分类可选:
它们的功能要点总结如下:
3 结果解读
找一小段蛋白序列来试一下那个新算法Quickblastp。可能是我的序列太短了,并没有感觉到Quick (0.0) 如果你的序列够长可以体会一下。
首先会看到一个表头,展示这次比对的基本信息,如比对类型、序列长度、所选的数据库等等,就不贴图了。接下来就是图形描述(Graphic Summary)。
第一部分是保守域,当检测到时才会显示。
第二部分是比对上的序列(hit)在查询序列上的分布。
有刻度的条带是序列的坐标,其下的每一个细条带代表一段hit,其颜色是按上方的颜色标尺显示比例得分(alignment score),得分越高,相似度越高。
另外还可注意E value,E值越低,相似度越高,点击可显示详细信息。
保守域也可点开查看详情,在每个hit上悬浮鼠标可看到它编码的蛋白的3D结构图以及功能等详细说明,在下方的列表中点开+号还可看到具体的序列。
二、读懂Blast结果图
众所周知,同源性是预测基因和蛋白质功能的主要线索,而序列同源性的判断则离不开两个或多个序列之间相似性的检测。一般来说,序列间的相似度越高,它们是同源序列的可能性就越高。
其中,序列比对无疑是评估序列相似性的最简单方法。显然,Blast就是序列比对检测的中坚力量。Blast自1990年首次亮相以来,凭借从各大数据库(EST、PDB数据库等)获取信息的能力,迅速成为序列比对界的领头羊。
老实说,Blast的界面非常友好,点击相应模块后,大家只需在序列框中丢上自己的靶序列,勾选好物种基因组,点击搜索即可!
可看着结果界面涌现出的几十个、数百个甚至数千个候选匹配序列,不少选择困难症的童鞋表示头疼不已:结果辣么多,究竟哪个才是最优解?
本文以NM_001206932为例,分解BLAST结果页面,让大家迅速摆脱Blast新手身份。
1 Blast结果解析
首先会看到一个表头,即本次比对的基本信息,如比对类型、序列长度、所选的数据库等等。如果所选的数据库不合适,请及时迷途知返哦。
接下来就是Blast的结果显示图(Graphic Summary):颜色比例尺,其中相似度从高到低排列分别为:红、紫、绿、蓝、黑,红色区域越多则表示有较好的比对结果。
而在Blast结果的描述区域,两个衡量标准最为重要:Max Score和E值(E value),前者匹配片段越长,相似性越高则Score值越大;后者是得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。
而点击相应注释名称,又或者在结果显示图(Graphic Summary)中点击对应的线条,均可以查看比对结果的详细信息。
其中,Expect(E值)、Identities(一致性)、Gaps(缺失或插入)三项是评价blast结果的标准。E值接近零或者为零时,具体上就是完全匹配了;一致性:匹配上的碱基数占总序列长的百分数。
如此,就可对Blast结果做到了如指掌,然而有些急性子的科研者却对Blast的运行速度有些瞧不上眼,因而又挖掘出了序列比对的新神器Blat,不仅让序列比对速度翻倍增长,而且其共线性输出结果更加简单易读,咱们下面会提到Blat。
2 步骤序列对比常用在线工具
1. SimiTriX-SimiTetra
功能:多序列比对相似性展示
网址:http://cotton.hzau.edu.cn/EN/tools/BioERCP/simitrix.php
2. MUSCLE
功能:运行速度比较快的多序列比对
网址:http://www.ebi.ac.uk/Tools/msa/muscle/#
3. Clustal Omega
功能:DNA、RNA、蛋白的多序列比对
网址:http://www.ebi.ac.uk/Tools/msa/clustalo/
4. ClustalW2
功能:应用较广泛的多序列比对
网址:http://www.ebi.ac.uk/Tools/msa/clustalw2/
5. T-Coffee
功能:准确度高,速度慢的多序列比对
网址:http://www.ebi.ac.uk/Tools/msa/tcoffee/
三、Blat更快一步
拿到一段乱七八糟的序列,可以通过blast得到它的信息;设计完引物也可以通过blast看看它的特异性。但是大家有没有感觉到Blast速度真是太慢了,网页打开慢,计算过程也慢….
比如我想找一段氨基酸序列对应的蛋白质,当我点完Blast,等了两分钟还没出结果(时间就是金钱啊….我们怎么能这样浪费金钱呢…)
所以这里给大家推荐另一个工具Blat:
http://genome.ucsc.edu/cgi-bin/hgBlat ,在UCSC的主页可以打开。Blast相对于这种比对有几个缺陷:速度偏慢、结果难于处理、无法表示出包含intron的基因定位等。Blat就是在这种形势下应运而生了。
Blat的主要特点就是:速度快,共线性输出结果简单易读。
在Genome一栏选好物种信息。Query type选择你输入的序列类型,是蛋白还是DNA等,当然也可以让Blat自动识别(Blat's guess),Output type选hyperlink,结果中有超链接,可以点击进去在USCS中具体查看该基因信息;选psl则结果为表格形式。
一点Blat立马出结果,点击details可以查看具体的比对信息,点击browser可以查看对应的基因信息
这是点击browser后的页面,即常见的UCSC显示基因信息的页面。可以看出这段氨基酸数列是P53蛋白。
本文首发于“解螺旋精选”微信公众号
转载请注明:解螺旋·临床医生科研成长平台