技术贴 | 物种内部基因的共线性分析
本文由沐子星根据实践经验而整理,希望对大家有帮助。
原创微文,欢迎转发转载。
今天我们学习物种内部的基因共线性分析,基因的共线性分析在基因家族类分析中很常见,通常基因家族主要通过串联重复、片段复制、反转录转座、全基因组复制或多倍化等形式形成。借助强大的TBtool软件,我们来分析物种内的基因是否存在串联重复现象或者片段复制现象。
物种内部基因的共线性分析
需要准备的文件:protein.fa;gff;
1. 物种内部protein.fa进行比对,生成Tab文件。
我们要做物种内部的比对,所以Query和Subject序列都是本物种的蛋白序列。设置输出文件的路径,拟定输出文件的名称,Tab格式。设置完毕后点击Start,呈现Running状态,等待Tab文件的生成。


2. 处理基因组的gff文件。
处理基因组的gff文件,同样需要设置输出文件的路径,拟定输出文件的名称。点击Start。


3. 使用MCScanX进行共线性分析。
分别导入刚才生成的Tab文件和sim.gff文件,设置输出路径(不需要设置文件名称)。点击Start,即可生成6个文件,其中tandem文件用于串联重复基因的可视化,collinearity文件用于片段复制基因的可视化。



4. 处理结果文件。
(1)结果生成的tandem文件是由逗号分隔的基因对,对其简单处理,从逗号分开基因对,将一列分成两列:使用Excel打开tandem文件——选中这一列——点击数据——分列——分隔符号——下一步——选择逗号(如图)——完成,即可将逗号分隔的基因对分成两列,然后保存txt文本格式即可。

(2)结果生成的collinearity文件,需要处理成link格式(如下图)。


5. 结果可视化。
(1)串联重复基因的可视化:输入原始gff文件、分两列的tandem文件,以及自己关注的基因ID,点击start即可将串联重复基因可视化(由括弧线连接)。



(2)片段复制基因的可视化:与tandem的可视化操作一致,将分两列的tandem文件更换为collinearity.links文件即可。点击start即可将片段重复基因可视化(由直线连接)。


6. 结果生成后可自行调整图片,保存pdf格式,便于后续编辑图片。

7. 利用修图软件可适当调整图片,加上漂亮的颜色,即可呈现出自己的结果。

最后,祝大家科研顺利!
感谢阅读!
