查看原文
其他

学习生信的系列教程

2017-10-02 陈同 生信宝典

生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下的问题。但生信学习不是一朝一夕就可以完成的事情,也许你可以很短时间学会一个交互式软件的操作,却不能看完程序教学视频后就直接写程序。也许你可以跟着一个测序分析流程完成操作,但不懂得背后的原理,不知道什么参数需要修改,结果可以出来,却把我不住对还是错。

学习生信从来就不是一个简单的事,需要做好持久战的心理准备。

在学习时,我们都希望由浅入深的逐步深入,不断地练习和实践,这就是为什么我们需要一本书,因为书很系统。但生信发展的历史短于计算机编程的历史,如果想要一门程序设计的入门数据,每种语言都可以找到几本。但想要一个囊括生信的书,就有些难了。本身生信跨领域,需要多学科的知识,而其内部又有不少分子,都囊括了太大,包括的少又有些隔靴搔痒的感觉。

我们当时都是零基础下自学Linux, 自学Python,自学R,自学高通量测序;这些学习经历,之前都零星地记录在博客里。现在回头去看几年前自己记录的东西,觉得好简单,而当时却费了很大的力气。这些零星的随手记,当时也只是为了自己看,到现在确实只有自己能看得懂,不便惠及更多的人。

因此我们创建了生信宝典,希望从不同的角度传播知识。这个不同有三点含义,一是形式上的不同,摒弃之前主编们单人作战想写啥就写啥,而是有组织有计划的内容聚合,提供一系列的教程,由入门到提高。二是内容的不同,不去用网上现有教程的通用数据做例子,而是拿实际生物数据,讲述如何解释生信中普遍碰到的问题,讲述如何处理自己的数据。三是立足点不同。在写作时,我们回到了当年,在回忆中用整个阶段的学习去指导当初的那个小白,从那些会了的人觉得微不足道而不会的人又迈不过的坎入手,直击痛点。知识点的收录依据不是是否炫酷,是否难,而是是否必要。如果必要,再简单,也要提及;如果不必要,再炫酷,也暂不纳入。

通过大量的生信例子、关键的注释和浓缩的语句形成下面的一系列学习教程。每一篇内容都不多,可以当做小说阅读,也可以跟着去练,反复几遍,每读一次都会有不同的收获和体会。

程序学习心得

Linux 学习

R统计和作图

NGS基础

NGS分析工具评估

癌症数据库

Python学习

NGS软件

Cytoscape网络图

分子对接

生信宝典之傻瓜式

生信人写程序

小技巧系列

友情链接流程

宏基因组 - 扩增子分析流程

  • 质控,实验设计,双端序列合并 查看原始数据的质量,编写合格的实验设计用于分析,双端序列合并为单端的扩增子序列;

  • 提取barcode,质控及样品拆分,切除扩增引物 将Barcode序列从序列中拆除,筛选高质量的测序结果并标记文库中每条序列中的样品来源,最后切除扩增时使用的引物;

  • 格式转换,去冗余,聚类 转换QIIME生成fasta格式为Usearch要求格式;使用Usearch对序列去冗余并筛选高丰度,极大降低下游计算量和去除噪音;最后使用用Usearch聚类生成OTU,默认会组内自动去除大量嵌合体;

  • 去嵌合体,非细菌序列,生成代表性序列和OTU表 本讲详细讲了嵌合体的概念,并使用参考数据库去除嵌合体;学习基于参数数据库筛选细菌序列,这些都是可选的操作,根据实际情况决定是否需要,最终生成高质量的OTU序列作为参考序列;

  • 物种注释,OTU表操作 这部分采于不同数据库进行细菌或真菌注释;同时根据实际情况,对OTU表进一步按样品、丰度、物种等条件筛选;

  • 进化树,Alpha,Beta多样性 将OTU多序列比对生成进化树,为依赖进化关系的计算方法提供输入文件;再进行多种Alpha和Beta多样性的计算;

  • 物种分类统计,筛选进化树和其它 对物种进行分类统计,筛选高丰度结果用于进化树展示,和其它用于R统计分析的结果生成。

生信媛 - Biostar handbook

Biobabble - ChIP-seq

招聘

联系我们

  

希望大家动动手支持我们写作,具体你懂得


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存