snapgene怎么比对序列_找不到相似序列?快来Blast一下!

一、如雷贯耳的BLAST

Blast(Basic Local Alignment Search Tool),可谓生信领域最常用的工具,拿到一段序列(测序结果,或设计好的引物等等),一般都会去blast一下,查找相似序列。

在查找相似序列的基础上衍生出了各种作用,比如鉴别基因组,蛋白质,查找特定靶区,检验引物特异性等等。自打1990年由Altschul SF等人开发出来,NCBI引进,至今还在改善,更新算法。

1 量身选用数据库

网址:https://blast.ncbi.nlm.nih.gov/Blast.cgi

做BLAST不仅要考虑选择哪种算法,还要考虑选哪个数据库来比对。我们最常用的可能就人类或小鼠基因组+转录组,但仍可根据自身情况选择合适的数据库,能大大节省检索时间,并提高返回的结果的质量和特异性。

v2-8c002b665e31216b9a983484189ac0ae_b.jpg

不过这么多库怎么选呢,可以点一下旁边的问号(Help),查看选所的数据库的说明:

v2-648daa4dccb9de21598152fc8d60b165_b.jpg

再者,如果你已经知道你要查的序列来自哪个物种,或你要跟哪个物种比对,也可以在Organism选项框中输入,也可以减少BLAST的操作程序,节省时间。

v2-0c23b8447f62f9b1d7a2cc0577cfa29c_b.jpg

2 不同序列不同算法

BLAST工具跟一套手术器械似的,不同的算法干不同的活,得根据自己需要的信息,选择需要的工具。可以看到检索页面上方有5个选项卡,分别代表5种查询类型。

v2-e0d550e322225366340812d922dde741_b.jpg

各大类之下可能还有几个小分类可选:

v2-ee8d4db271303c1ccb84895ea7548f18_b.jpg

它们的功能要点总结如下:

v2-53cd9a8a69cf4e5fafe0b4757e1bc353_b.jpg

3 结果解读

找一小段蛋白序列来试一下那个新算法Quickblastp。可能是我的序列太短了,并没有感觉到Quick (0.0) 如果你的序列够长可以体会一下。

首先会看到一个表头,展示这次比对的基本信息,如比对类型、序列长度、所选的数据库等等,就不贴图了。接下来就是图形描述(Graphic Summary)。

v2-ad67cf8b55ea78ba7a435846f8d8f804_b.jpg

第一部分是保守域,当检测到时才会显示。

第二部分是比对上的序列(hit)在查询序列上的分布。

有刻度的条带是序列的坐标,其下的每一个细条带代表一段hit,其颜色是按上方的颜色标尺显示比例得分(alignment score),得分越高,相似度越高。

另外还可注意E value,E值越低,相似度越高,点击可显示详细信息。

保守域也可点开查看详情,在每个hit上悬浮鼠标可看到它编码的蛋白的3D结构图以及功能等详细说明,在下方的列表中点开+号还可看到具体的序列。

v2-e24da4836ff269d1573d9df57fa1c47a_b.jpg

二、读懂Blast结果图

众所周知,同源性是预测基因和蛋白质功能的主要线索,而序列同源性的判断则离不开两个或多个序列之间相似性的检测。一般来说,序列间的相似度越高,它们是同源序列的可能性就越高。

其中,序列比对无疑是评估序列相似性的最简单方法。显然,Blast就是序列比对检测的中坚力量。Blast自1990年首次亮相以来,凭借从各大数据库(EST、PDB数据库等)获取信息的能力,迅速成为序列比对界的领头羊。

v2-07f98097783ef75b65592dd3af3b523e_b.jpg

老实说,Blast的界面非常友好,点击相应模块后,大家只需在序列框中丢上自己的靶序列,勾选好物种基因组,点击搜索即可!

v2-ce0724ed7b5cea5439668f532779c3a4_b.jpg

可看着结果界面涌现出的几十个、数百个甚至数千个候选匹配序列,不少选择困难症的童鞋表示头疼不已:结果辣么多,究竟哪个才是最优解?

本文以NM_001206932为例,分解BLAST结果页面,让大家迅速摆脱Blast新手身份。

1 Blast结果解析

首先会看到一个表头,即本次比对的基本信息,如比对类型、序列长度、所选的数据库等等。如果所选的数据库不合适,请及时迷途知返哦。

v2-07526bfedda9668f28a7e5af2efaa97b_b.png

接下来就是Blast的结果显示图(Graphic Summary):颜色比例尺,其中相似度从高到低排列分别为:红、紫、绿、蓝、黑,红色区域越多则表示有较好的比对结果。

v2-e2d52b8752f240ee91b02bec31403e57_b.jpg

而在Blast结果的描述区域,两个衡量标准最为重要:Max Score和E值(E value),前者匹配片段越长,相似性越高则Score值越大;后者是得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。

v2-f71185730e17a8d5be59aeafcd5879e8_b.jpg

而点击相应注释名称,又或者在结果显示图(Graphic Summary)中点击对应的线条,均可以查看比对结果的详细信息。

其中,Expect(E值)、Identities(一致性)、Gaps(缺失或插入)三项是评价blast结果的标准。E值接近零或者为零时,具体上就是完全匹配了;一致性:匹配上的碱基数占总序列长的百分数。

v2-45b9a7c53264653ecb76e8309818fea3_b.jpg

如此,就可对Blast结果做到了如指掌,然而有些急性子的科研者却对Blast的运行速度有些瞧不上眼,因而又挖掘出了序列比对的新神器Blat,不仅让序列比对速度翻倍增长,而且其共线性输出结果更加简单易读,咱们下面会提到Blat。

2 步骤序列对比常用在线工具

1. SimiTriX-SimiTetra

功能:多序列比对相似性展示

网址:http://cotton.hzau.edu.cn/EN/tools/BioERCP/simitrix.php

v2-77daad66679cbe076c6ba22f9dc13212_b.jpg

2. MUSCLE

功能:运行速度比较快的多序列比对

网址:http://www.ebi.ac.uk/Tools/msa/muscle/#

v2-cfdf2a9eb6208b9ca08e4b34f9e428d6_b.png

3. Clustal Omega

功能:DNA、RNA、蛋白的多序列比对

网址:http://www.ebi.ac.uk/Tools/msa/clustalo/

v2-f5c4e80cef299ee5c1496b19fcafa6a4_b.png

4. ClustalW2

功能:应用较广泛的多序列比对

网址:http://www.ebi.ac.uk/Tools/msa/clustalw2/

v2-6d2b59bb8df11ddf4ec7cb7c86818bfc_b.png

5. T-Coffee

功能:准确度高,速度慢的多序列比对

网址:http://www.ebi.ac.uk/Tools/msa/tcoffee/

v2-0930493b005e6d1deb982adcc93ccb6c_b.png

三、Blat更快一步

拿到一段乱七八糟的序列,可以通过blast得到它的信息;设计完引物也可以通过blast看看它的特异性。但是大家有没有感觉到Blast速度真是太慢了,网页打开慢,计算过程也慢….

v2-127ec4b203660ea0aa18b2d571ae57ac_b.png

比如我想找一段氨基酸序列对应的蛋白质,当我点完Blast,等了两分钟还没出结果(时间就是金钱啊….我们怎么能这样浪费金钱呢…)

v2-88fd77f95f735bf28097da655cd929bf_b.jpg

所以这里给大家推荐另一个工具Blat:

http://genome.ucsc.edu/cgi-bin/hgBlat ,在UCSC的主页可以打开。Blast相对于这种比对有几个缺陷:速度偏慢、结果难于处理、无法表示出包含intron的基因定位等。Blat就是在这种形势下应运而生了。

Blat的主要特点就是:速度快,共线性输出结果简单易读。

v2-a1efff4271258e78f27024eea6dedd09_b.jpg

在Genome一栏选好物种信息。Query type选择你输入的序列类型,是蛋白还是DNA等,当然也可以让Blat自动识别(Blat's guess),Output type选hyperlink,结果中有超链接,可以点击进去在USCS中具体查看该基因信息;选psl则结果为表格形式。

v2-311831a0858500d34b0cf928041c2311_b.jpg

一点Blat立马出结果,点击details可以查看具体的比对信息,点击browser可以查看对应的基因信息

v2-34c2cd54f51697c9962527438757729f_b.jpg

这是点击browser后的页面,即常见的UCSC显示基因信息的页面。可以看出这段氨基酸数列是P53蛋白。

本文首发于“解螺旋精选”微信公众号

转载请注明:解螺旋·临床医生科研成长平台

Published by

风君子

独自遨游何稽首 揭天掀地慰生平