展示基因家族的结构域,如何更好更方便?
1. MEME 适合挖掘motif,不适合展示基因家族的结构域
上周推出了如何使用TBtools重新绘制MEME结构域图片...似乎感兴趣的朋友比较多,甚是欣慰。这说明这个小工具还是有点用的。
然而,之前以为MEME就可以直接展示基因家族的结构域了,Too young, too naive....
MEME suite非常敏感,但毕竟是以motif为单位,而在序列中,往往一个结构域会包含一个以上的motif,这就非常有趣了,因为我们不大可能给文章读者展示多个motif,然后说,
这多个motifs组合成为第一个domain,那几个呢,组合成第二个domain....
说到底,MEME主要是用来挖掘保守区域;在基因家族分析工作中,在鉴定或者展示的时候,还是要另寻他法---> NCBI CDD 数据库
2. 首选NCBI CDD 数据库,鉴定基因保守结构域
NCBI Conserved Domain Database (缩写为 CDD) ,是收录大量NCBI官方矫正过的结构域模型,同时也提供一部分结构域的3D结构和功能说明。一般,做基因家族,或者说基因结构域鉴定的时候,会用到。
这篇推文,主要是介绍如果极其方便极其简单地批量化地绘制一个基因家族的结构域图片。
还是使用MEME推文的例子为例,继续整ARF基因序列。
序列集合的下载地址,点击此处下载,不知道怎么下载的,看MEME的推文
http://planttfdb.cbi.pku.edu.cn/download_seq.php?sp=Ath&fam=ARF
今次我们就不提交到MEME,直接提交到NCBI的CDD batch search
点击此处跳转
https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi

随后先吃一早餐,然后回来下载结果,大概2分钟估计就有结构了,下载结果文件

3. 使用TBtools可视化Batch-CDD结果
上述2.的操作,得到的是全部上传序列的保守结构域信息,一图胜千言,我们毕竟是视觉动物。
打开TBtools,在Others->Redraw Motif Pattern (from NCBI Batch-CDD),随后点击Start

于是得到结果

保存图片的格式PDF SVG JPG... 就不提啦,反正应该还是不错的。
从图片可以看出,今次出的是domain水平的图片,相比与之前的图片

从两张图的比较可以看出,一个domain在MEME suite的分析下,还是很容易被分割成几个。我也试过调整motif宽度或者是自定义motif,但是不是太准确
所以呢,做基因家族domain展示,那就用今天更新的这个工具吧