NCBI,从一窍不通到略知一二

进了实验室就要学会使用各种高级你看啊NCBI应该是这么用的:

1)序列查询

进入NCBI 主页:http://www.ncbi.nlm.nih.gov/,在 search 后面选择 Gene,在for后面填写需要查找的基因的名字,我们用P53作为例子。

实验万事屋作品

点击进入后,可以看到大量的信息,如下图:

实验万事屋作品

按照这样的提示,我们就可以同时获得基因的mRNA,基因组DNA,蛋白序列,及功能等大量相关信息了。

2)用Map-View寻找基因的启动子

打开Map viewer页面,网址为:http://www.ncbi.nlm.nih.gov/mapview/index.html, search 的下拉菜单里选择物种,for 后面填写你的目的基因。我们还是用P53作为例子。

实验万事屋作品

点击“advanced search”,“Type of mapped object”选择“Gene”。

实验万事屋作品

染色体的红色区域即为你的目的基因所处位置。

实验万事屋作品

下面参考序列给出了很多个基因,但并不全是P53,有很多是P53结合蛋白之类的。真正的P53在17号染色体上,显示了三个基因,是不同的部门做出来的,经我验证,序列有微小的差异,但总体来说基本相同。尽管分别点击后,序列代码、序列代码等有所差异,但碱基基本一致,不影响大家研究分析序列。点击上述三条序列第一条序列(即 reference)对应的"Genes seq",出现新的页面。点击上图出现的“Download/ViewSequence/Evidence ”,即下载查看序列等功能。

实验万事屋作品

先对上面这张图做点简要的说明,在 SequenceFormat(序列输出格式)后面是一个下拉式选择菜单,默认的为 FASTA 格式,还有一个是 GenBank 格式。推荐大家选择 GenBnak格式,因为这个格式提供了很多该基因的信息,而 FASTA格式只有基因序列。在 SequenceFormat 后选择 GenBank,然后点击下面的 Display,目的基因的相关信息和序列就出现在眼前了。

实验万事屋作品

在上述打开的网页中,你可以看到基因长度,基因序列,以及这个基因是如何被报道出来的等各种信息。你会看到:complement(14362..33510),这代表了从基因的14362位开始就是转录区了,即我们常说的mRNA片断,由于内含子的存在,所以mRNA在DNA序列上分成了几段。CDS (join (15569..15650 , 16569.. 16675 , 19495..19568, 19661..19797 , 20141..20250 , 20819..20931 , 21013.. 21196, 21954..22232 , 22342..22363 , 22481..22554 )) 代表编码序列,即蛋白编码区是从15569开始的(ATG),由于剪接作用所以 CDS 区也是不连续的。转录起始位点前面是基因的调控区,启动子区没有明显的位置定义,大家也只是猜测它的大体位置,如果你要研究promoter区的话,建议选择转录起始位点前的2000个碱基进行研究,一般默认的是这样。当然你如果觉得长度太长不好研究的话,也可以只研究-1000 到0这一千个碱基,因为一般情况下,启动子区的变异都在这个区域内。

3)BLAST搜索序列

提到序列比对,绝大多数战友都会想到 BLAST,但 BLAST 的使用确实又是一个很大的难题,因为他的功能比较强悍,里面涉及到的知识比较多。这里只能给大家简单介绍一下用法了。首先打开BLAST 页面,http://www.ncbi.nlm.nih.gov/BLAST/ ,BLAST 的这个页面主体部分,包括了三部分:BLAST Assembled Genomes、Basic BLAST、Specialized BLAST。这是三种序列比对的方法,或者说是 BLAST 的三条途径。

实验万事屋作品

BLAST Assembled Genomes 就是让你选择你要比对的物种,点击相应物种之后即可进入比对页面。Basic BLAST 包含了5个常用的BLAST,每一个都附有简短的介绍。Specialized BLAST 是一些特殊目的的BLAST,如IgBLAST、SNP等等,这个时候你就需要在 Specialized BLAST部分做出适当的选择了。我们就从最简单的Basic BLAST来入手,点击Basic BLAST部分的nucleotide blast 链接到一个新的页面。

实验万事屋作品

Enter Query Sequence 部分是让我们输入序列的,你可以直接把序列粘贴进去,也可以上传序列,还可以选择你要比对的序列的范围(留空就代表要比对你要输入的整个序列)。Job Title 部分还可以为本次工作命一个名字。Choose Search Set 部分是让我们选择要与目的序列比对的物种或序列种类(genome DNA、mRNA 等等)。如果是人或老鼠的话,就可以直接选择了如果是其他物种就要选择“others”了,这时候网页会主动跳出一个下拉对话框和一个输入式对话框,你可以分别选择和输入要跟你的序列比对的序列种类和物种。下面的 Entrez Query 可以对比对结果进行适当的限制。Program Selection 部分其实是选择本次比对的精确度,种内种间等等。点击BLAST便可等待出现结果。

实验万事屋作品

结果的信息量比较大,“E value”这个指标与其他指标不同,它的数值越小相似程度越高,其他几个(如 Totle score)都是数值越高相似度越高。直接点击BLAST的结果,就可以看到找到的相似序列比对了。

其实NCBI就像是一个宝库,需要慢慢挖掘。好了,今天就介绍这点吧,大家可以慢慢消化一下先。

(本文转自实验万事屋)

(0)

相关推荐