给初学者的忠告,不要拿一套垃圾数据入门!
圾数据对初学者的伤害真的很可怕!——jimmy
今天有一个常年潜水的粉丝突然找我聊天,说自己心态崩了,觉得自己不适合做数据处理,一年多了,感觉自己其实是一事无成。
让我又一次想起了当年自己入门的各种凄惨惨戚戚!
碱基质量值很差,GC不平衡,还有接头,PCR重复也很多,kmer值也很诡异,时间都耗在QC上面了,结果几个月下来,一个流程都没搞明白,各种查资料,还是在原地打转。
做个转录组类似的找差异基因的,实验设计者不设计重复,一个case,一个control,搞毛线呀! 即使有重复,组内相关性极差,还不如对照。而且各个样本量测序极其不一致,头大。比对效率低的惊人,让你怀疑人生,是不是参考基因组用错了?或者是垃圾物种,连个参考都找不到,入什么门,晕在外面了。好不容易比对了,发现找不到全面的参考基因注释,又累个半死。好不容易挑选了一个合适的找差异基因的方法,发现就那么几个显著差异的,或者一万多个都显著,哭晕!
做个ChIP-seq类似的找peaks的数据分析,说好20M~50M数据量的,结果还分成批次,一次10M,一次7M,你分开比对分开call吧,一个样本是几千的peaks,另一个是几万的peaks,蒙圈。合并起来call吧,peaks的个数即便是合并也不是折中,只好去看MACS2的源代码,继续蒙圈。调整一下mfold吧,加上--lambda吧,peaks数量犹如过山车。在IGV也看的傻眼。有control的,发现control和case的peaks一模一样
~~~~oh my god!杀了我吧
肿瘤外显子数据分析更有趣,即使是现在的我也仍然是经常被差劲的实验设计搞得头大!
我在博客给了很多马上可以重复出来的例子,而且附上代码的,如下:
http://www.bio-info-trainee.com/ (阅读原文直达哦)

当然,我写两个小时并不针对初学者哈,请即使是两个小时没有完成也不要沮丧,请原谅我以及很多其他人总是喜欢对初学者说某些东西很简单很简单,我在这里给你道歉!
另外,我们的旧版论坛上面也有一些实战项目介绍:http://www.biotrainee.com/forum-108-1.html

也希望可以帮助你,初学者,我也想对你友好一点!
如果大家有关于自己入门生物信息学的难忘的故事,欢迎留言区分享,或者写邮件给我上墙哦!