高原牦牛的长非编码RNA的鉴定
咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程!
标题:Detection and integrated analysis of lncRNA and mRNA relevant to plateau adaptation of Yak
标题:牦牛高原适应相关基因LncRNA和mRNA的检测与整合分析
期刊:Reprod Domest Anim(发表时间:2020 Nov;5 )
通讯:1.Jincheng Zhong 2.Qiumei Ji
机构:1.青藏高原动物遗传资源保存与利用重点实验室(西南民族大学)
2.青稞和牦牛种质资源与遗传改良国家重点实验室,
文章链接:doi: 10.1111/rda.13767
摘要:耗牛被誉为“高原之船”,经过几千年的进化和低氧强紫外线的残酷环境选择,适应了高原环境,为青藏高原人民提供了重要的物资。本研究旨在寻找牦牛高原适应过程中差异表达(DE)基因和新的长非编码RNA(LncRNAs)及其潜在的共表达调控网络。
本研究选取家牛自交、耗牛X家牛、耗牛自交的大脑和小脑组织进行RNA-seq分析。使用三个软件预测了12072个候选lncRNA.使用Ballgown进行差异分析。 4256个显著差异的转录本。其中1021个是蛋白质编码基因,14个是已知的lncRNAs,661个是新的lncRNAs。 利用WGCNA,对差异 mRNAs和lncRNAs构建了由5个模块组成的共表达网络,以确定功能关联簇。
这项研究揭示了一个有价值的子网络,它由8个hub基因、1个已知的lncRNA和5个新的lncRNA组成主要模块。这些HUB基因与血压调节、活性氧的产生和新陈代谢有关。因此,共表达基因的分析为牦牛高原适应的调控机制以及杂交群体和亲本群体间额外基因的检测提供了基础。
背景知识:牦牛被称为“高原之船”,对高原低气压、低氧和高紫外线辐射具有很强的适应性。为了评估牦牛的遗传优势,许多研究报道了SNPs和拷贝数变化与高原适应的关系。然而,高原适应的潜在基因表达、调控和功能仍不清楚,特别是mRNA-incRNA共表达网络。大脑是神经中枢的关键组织,负责对极端环境中适应的生理反应。大多数牛(Bos Taurus)在暴露在3000米以上的高海拔后死于颅内出血,但牦牛存活得很好。这些证据表明,脑是哺乳动物适应高原环境的一个重要而复杂的系统。2016年,王等人提出。使用牦牛和牛的四个器官来提供对高海拔适应的见解。但由于耗牛和家牛在遗传学上存在巨大的差距和差异。无论选择哪一个参考基因组,种群噪音总是无法区分。藏雅口作为牦牛和家牛的杂交品种,表现出适度的高原适应。借助三个品种的表达趋势,将提高检测候选基因和预测PA所涉及的共表达网络的准确性。
本研究对雷武旗牦牛(B.grunniens)、藏雅口牛(B.grunniens×B.Taurus)和三江牛(B.Taurus)三个品种进行了RNA-seq分析。通过对大脑和小脑组织的高通量转录组测序,确定这三个品种之间高原适应的差异,以确定DE基因并预测新的lncRNAs。此外,我们构建了DE mRNAs和lncRNAs的网络,以评估它们之间的相互作用以及这些相互作用的作用。
数据和方法
1.RNA测序和转录本组装
样本分组:18个样本:3头雷武旗牦牛、3头藏雅口牛和3头三江牛
测序平台:HiSeqTM 4000 paired-end
过滤:fastp(v0.19.8)
参考基因组:Yak reference genome (GCF_000298355.1 BosGru v2.0; Qiu et al., 2012)
比对:HISAT2(v2.1)
组装:StringTie(v1.2.3)
差异分析:Ballgown
注释:gffcompare(v0.10.8) (GCF_000298355.1 BosGru v2.0)
2.lncRNA的鉴定
筛选条件:
转录本长度大于200nt
转录本类型:u x i j o
FPKM >1
exon number >1
编码能力鉴定:CPC2 CNCI CPAT 三个软件的交集用于下游分析。
3.牦牛和三江牛 群体间差异mRNA和lncRNA
差异分析:Ballgown 阈值|log2FoldChange|>1和p<0.01
富集分析:clusterProfiler org.Bt.eg.db
4.共表达网络分析
WGCNA

结果
1.转录本组装
average mapping ratio of 91.57%
总共有101,835个转录本被组装到18个样本的合并组装文件中,其中有32,667个转录本在所有18个样本中表达。用log2(FPKM+1)值给出了18个样本中的所有转录表达水平。有3755个基因只有一个转录本,占总基因的24.16%,表明大多数基因都有多个转录本。
2.lncRNA鉴定
三个软件取交集一共12072个候选lncRNA.新的lncRNA为未知基因(64.17%),其中19.75%为多外显子匹配,10.32%完全包含在内含子内,3.98%与相对位点重叠,1.78%与外显子重叠

3.差异分析
这个差异分析比较容易复现,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;
解读GEO数据存放规律及下载,一文就够 解读SRA数据库规律一文就够 从GEO数据库下载得到表达矩阵 一文就够 GSEA分析一文就够(单机版+R语言版) 根据分组信息做差异分析- 这个一文不够的 差异分析得到的结果注释一文就够
共鉴定出4,257个显著(p<.01)基因。去除|log2foldchange|<1后,共有2577个差异表达(DE)基因,其中867个上调,1710个下调(图2a)。其中,1021个是蛋白质编码基因,14个是已知的lncRNAs,661个是新的lncRNAs。


4.共表达网络
共表达网络的构建及模块检测的方法,我在生信技能树有多个教程分享WGCNA的实战细节,见:
一文学会WGCNA分析