HiC数据分析实战之通过文章来了解流程

通过第一讲:三维基因组学习笔记,我们了解了3D基因组研究范围,然后根据我在生信技能树发布的生信工程师标准提炼出基础技能,也就是第二讲:生信基础技能 最后提炼出了数据分析流程,并且安装好了对应的软件,也就是第3讲:流程及软件

本来准备直接实战了,但是在看一些新的paper 时候发现我漏掉了hic技术应用的文章解读,我还是需要带领大家看看那些已经发表的好文章到底是如何处理hic数据的。

癌细胞的HIC文章

文章是 :3D genome of multiple myeloma reveals spatial genome disorganization associated with copy number variations 数据公布在:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE87585

北大李程课题组的研究人员比较了骨髓瘤细胞与正常B细胞之间的TAD的差异,在GM12878,RPMI8226与U266三个细胞系中,其分别得到了2756,3457,3342个TAD,其中有1281个TAD在三个细胞系中保守存在,740个TAD特异的存在于两种骨髓瘤细胞系中,这些数据表明在癌症细胞中TAD的结构会发生相当比例的改变,同时TAD的长度变小,数目增多。

作者进一步对骨髓瘤细胞与正常B细胞相比发生compartment改变区域内的基因进行了信号通路富集分析,结果表明,富集到的信号通路与骨髓瘤都密切相关,包括了MAPK,TNF,cytokine-cytokine受体相互作用等信号通路。

虽然本次我们讲解HiC,但事实上这个文章利用的各种数据比较多,包括:

我们关心的HiC数据

主要是4个HiC样本,如下:

GSM2334835: Hi-C U266 MboI; Homo sapiens; OTHER

GSM2334834: Hi-C U266 HindIII; Homo sapiens; OTHER

GSM2334833: Hi-C RPMI-8226 MboI; Homo sapiens; OTHER

GSM2334832: Hi-C RPMI-8226 HindIII; Homo sapiens; OTHER

查看其中一个数据:

数据量不小,想下载全部的4个hic样本来完全重复出来该文章的分析过程及结果对服务器计算资源的考验很大,

其分析结果包括:

然后再看其文章描述的数据处理步骤,作者使用了2013任兵教授的nature文章的数据分析方法:GSE43070. 简单点说,就是:

  • all Hi-C sequencing reads were mapped to the human reference genome (hg19) using Bowtie2

  • The two ends of paired-end reads were mapped independently using the first 36 bases of each read.

  • We filtered out redundant and non-uniquely mapped reads, and kept the reads within 500 bp upstream of enzyme cutting sites (HindIII or Mbol) due to the size selection.

  • We utilized the iterative correction and eigenvector decomposition (ICE) method and HiCNorm to normalize raw interaction matrices

好奇怪,里面没有用的hiclib也没有用hicpro软件,而且也没有走完我们第三讲总结好的那些流程。

看看数据处理的中间文件

我尝试下载了 HindIII_HiC_TAD_40kb.tar.gz 文件和HindIII_HiC_ice_matrix_500kb文件并且简单查看,如下:

mkdir -p ~/project/hic/data/myelom
cd ~/project/hic/data/data/myelom  
wget ftp://ftp.ncbi.nlm.nih.gov/geo/samples/GSM2334nnn/GSM2334834/suppl/GSM2334834_U266_HindIII_HiC_TAD_40kb.tar.gz
wget ftp://ftp.ncbi.nlm.nih.gov/geo/samples/GSM2334nnn/GSM2334834/suppl/GSM2334834_U266_HindIII_HiC_ice_matrix_500kb.tar.gz
tar zxvf GSM2334834_U266_HindIII_HiC_TAD_40kb.tar.gz
tar zxvf GSM2334834_U266_HindIII_HiC_ice_matrix_500kb.tar.gz

作者选择了40kb的分辨率来看这个CNVs and TADs 的关系。

使用R包HiTC来看500kb的分辨率下的compartments A/B switches and gene expression的关系。作者给出的分析结果文件是;

resolution_500k/cis/ice_normalization/
|-- [1007K]  chr10_500k_normalized_matrix.txt
|-- [1.0M]  chr11_500k_normalized_matrix.txt
|-- [1.0M]  chr12_500k_normalized_matrix.txt
|-- [621K]  chr13_500k_normalized_matrix.txt
|-- [508K]  chr14_500k_normalized_matrix.txt
|-- [3.1M]  chr1_500k_normalized_matrix.txt
|-- [469K]  chr15_500k_normalized_matrix.txt
|-- [393K]  chr16_500k_normalized_matrix.txt
|-- [373K]  chr17_500k_normalized_matrix.txt
|-- [366K]  chr18_500k_normalized_matrix.txt
|-- [198K]  chr19_500k_normalized_matrix.txt
|-- [229K]  chr20_500k_normalized_matrix.txt
|-- [ 93K]  chr21_500k_normalized_matrix.txt
|-- [ 90K]  chr22_500k_normalized_matrix.txt
|-- [1.4M]  chr23_500k_normalized_matrix.txt
|-- [ 68K]  chr24_500k_normalized_matrix.txt
|-- [3.5M]  chr2_500k_normalized_matrix.txt
|-- [2.3M]  chr3_500k_normalized_matrix.txt
|-- [1.9M]  chr4_500k_normalized_matrix.txt
|-- [1.9M]  chr5_500k_normalized_matrix.txt
|-- [1.7M]  chr6_500k_normalized_matrix.txt
|-- [1.5M]  chr7_500k_normalized_matrix.txt
|-- [1.2M]  chr8_500k_normalized_matrix.txt
`-- [940K]  chr9_500k_normalized_matrix.txt

这些txt文件总共是6206行,乘以500Kb的分辨率,也就对应着人类的3Gb的基因组大小。

其中的任何一个文件,都是可以拿出去画热图的,本身就是一个矩阵,我画21号染色体如下:

代码很简单,但是不知道图对不对以及图后面蕴含的生物学意义。

rm(list=ls())
options(stringsAsFactors = F)
a=read.table('~/GitBook/qc/chr21_500k_normalized_matrix.txt')
library(pheatmap)
pheatmap(a,cluster_rows = F,cluster_cols = F,labels_row = '',labels_col ='')

所以还需要慢慢学。

当然,作者还比较不同细胞系找到的TADs区别。

不过我们后面的实战演练,暂时不使用这个数据集。

(0)

相关推荐

  • dplyr总结篇

    欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA.GEO数据挖掘. dplyr-总结  有必要对dplyr进行一个总结 对行处理 数据处理对于 ...

  • 一文了解P-value,多重比较,FDR和Q value的差别

    首先交代一下用来说明这几个统计量的例子.这里会使用基因表达作为一个例子.假设我们有两组细胞:对照组和处理组.我们正在研究基因 A 在处理的条件下是否受到表达或没有表达.每组我们有 12 个重复.我们通 ...

  • HiC数据分析实战(一)

    首先需要明白数据分析流程,可以查看第一讲:三维基因组学习笔记,提炼流程如下: Hi-C标准分析流程(比对及过滤,原始互作图谱构建) 下载参考基因组及构建bowtie2索引 把fq测序数据比对都参考基因 ...

  • HiC数据分析实战之Hic-pro

    通过第一讲:三维基因组学习笔记,我们了解了3D基因组研究范围,然后根据我在生信技能树发布的生信工程师标准提炼出基础技能,也就是第二讲:生信基础技能 .最后提炼出了数据分析流程,并且安装好了对应的软件, ...

  • 20个python数据分析实战项目(附源码)

    20个python数据分析实战项目(附源码)

  • 基于Python获取股票分析,数据分析实战

    基于Python获取股票分析,数据分析实战

  • Python数据分析实战:降雨量统计分析报告分析

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于菜J学Python ,作者小小明 最近遇到一个有点烧脑的需求,其实也不算烧脑,主要是 ...

  • 数据分析实战

    前景提要 大二实习结束过去五个多月了. 当时入职数据分析还算是有点基础进入的公司. 如今这么久不学数据分析了,似乎都有点生疏了. 今天写个数据分析实战,为了弥补一下亏欠粉丝的承诺吧. 主要目标 使用P ...

  • Python数据分析实战:解密数据分析师的薪资和需求

    本文将以数据分析的方式对这个行业展开调研,尽可能让正在从事或有兴趣想加入这个行业的小伙伴们对于当前数据行业的就业环境有更深入的了解和认识. 项目流程 · 数据获取:访问前程无忧官网,找出需用作数据分析 ...

  • 数据分析实战案例,帮你全面认识 Power BI

    很多人学习了一段时间,可是依然不清楚如何将Power BI用于实践,或者只接触了其中的某个模块,认为她只是一个分析工具或者可视化工具,对PowerBI没有一个整体的认识. 本文利用一个实例,来梳理一下 ...

  • 数据分析实战20绝技

    十年前是一个人人都是产品经理的年代,那时候的产品经理真的可以改变世界. 十年后时代变了,产品经理多了,数据更多了,所以这变成了一个人人都是数据分析师的年代. 当下只要是做互联网和it的没有不知道要重视 ...