微生物多样性专题 | 扩增子测序分析实战(二)数据库整理之UNITE
文:小样 | 编辑:湖心
本文系原创转载需授权
微生物多样性专题
扩增子测序分析实战(二)
数据库整理之UNITE
前几期,我们讲到了16S(常选RDP或Greengene)和18S(常选SILVA或PR2)的几种常用数据库,今天呢,小编给大家带来另一个针对ITS区域测序的权威数据库——UNITE(讲的不好,勿喷ღ( ´・ᴗ・` )比心)。
ITS(全称ribosomal internal transcribed spacer,核糖体基因内转录间隔区)是最常用的真菌鉴定及多样性检测的marker基因,UNITE数据库是专门针对真菌ITS序列(包括ITS1和ITS2区)最全的数据库,不用考虑ITS注释数据库的选择,UNITE就是近乎唯一的存在!
https://unite.ut.ee/
通过主页可知,最近一次的更新是在2017-06-08,版本是V.7.2:
1,主页下方检索模块第一个参数Threshold可以选择不同的阈值对数据库中的序列进行聚类;
2,第二个参数include选择是否包含singleton序列,即没有与其碱基完全相同的物种序列;
3,第三个方框中可以直接填入一个感兴趣的物种【不填的话就默认统计数据库中所有物种】,然后点击Go,即可以查看左下角展示的物种序列统计信息及右下角对应的扇形图。
下图是以97%相似度聚类,不包含singleton序列,选取Glomeromycota门水平的物种,示例如下:
此外,UNITE数据库也内置了blast功能,可以通过首页右上角菜单栏 Run Analysis 看到,有兴趣的小伙伴可以再对该数据库进行详细了解。
我们现在重点讲解下数据下载及整理,数据下载路径https://unite.ut.ee/repository.php,官方提供了多种后续软件操作格式对应的数据,此处我们选择mothur软件对应格式,并后续对其进行处理【注:每种软件对应数据一样,只是格式不同!】
mothur release下有4个下载链接(选择最新版下载):
从上到下自定义为:Download1~4:
Download1:包含经过质量过滤但未经聚类的全部673903条UNITE+INSD序列【即为Download2中的数据】和UNITE species Hypotheses假设物种序列;
Download3:与Download4不同之处在于文件命名中是否带有s,
Download4:带s包含了singletons序列,相比较而言Download3中序列真实性更高,结果更准确,因此我们选择Download3下载:
wget https://unite.ut.ee/sh_files/sh_mothur_release_28.06.2017.zip
unzip sh_mothur_release_28.06.2017.zip
也可在windows系统下点击Download下载保存。
可以连续点击Download两次,第二次不会出现上示情况,便可以进行下载~
下载解压后得到以下6个文件:
其中包括以3种不同的相似度(97/99/dynamic)聚类得到的序列文件(.fasta)及其注释文件(.tax),dynamic是指得到的序列间的相似度是不定的,官方解释如下:
小编这里是选取99的聚类序列和注释文件进行后续处理的(共包含29909条Fungi ITS序列~)。
UNITEv6_sh_99.fasta序列文件格式为:
UNITEv6_sh_99.tax注释文件格式为:
为了多种数据库格式统一,小编自己写了个perl脚本(需要的同学记得关注生信控后联系小编吆…),注释文件整理后:
对应的下载最新版的用于UCHIME软件的嵌合体序列:
wget https://unite.ut.ee/sh_files/uchime_reference_dataset_28.06.2017.zip
unzip uchime_reference_dataset_28.06.2017.zip
uchime_reference_dataset_28.06.2017/ITS1_ITS2_datasets下的嵌合体序列分别用于ITS1和ITS2数据:
cp $pwd/UNITEv6_sh_99_new.tax ./
cp $pwd/ UNITEv6_sh_99.fasta ./
整理完成,最终目录结构如下:
到这里,UNITE数据库下载便大功告成…后续就可以使用mothur进行注释了吆…..