10文一览近期进展：菌群分析的生信工具/方法/资源 | 热心肠日报

Original 热心肠小伙伴们热心肠研究院 2023-03-03

今天是第2334期日报。

Nature子刊：使用Kraken套件进行宏基因组数据分析

Nature Protocols[IF:17.021]

① 为促进宏基因组分析的高效性和可重复性，开发了Kraken suite（含Kraken2、Bracken、Pavian等软件）用于宏基因组数据分类、量化和可视化的流程；② 本手册通过一系列易于使用的脚本，描述了Kraken suite可在两种场景下执行；③ 1) 给定的宏基因组数据中物种的定量分析，2) 人类患者临床样本中致病菌检出分析，可在1-2小时内输出结果；④ 本手册的目标对象是熟悉Unix命令行环境的从事微生物组或宏基因组学分析的生物学家和临床医生。

Metagenome analysis using the Kraken software suite
09-28, doi: 10.1038/s41596-022-00738-y

【主编评语】测序数据的生信分析对于准确和完整表征微生物群落至关重要。为促进宏基因组分析的高效性和可重复性，近日发表在Nature Protocols的研究，作者开发了Kraken suite（含Bowtie2、Kraken2、Bracken、Pavian等软件）用于宏基因组数据分类、量化和可视化的流程。该流程可很好应用于对给定的宏基因组数据中物种的定量分析，也可对人类患者临床样本进行致病菌检出分析，特别适合熟悉Unix命令行环境的相关人员，值得尝试。（@九卿臣）

用于从16S微生物组数据进行差异丰度推断的R包—Prokounter

Genome Biology[IF:17.906]

① 观察分类群数量被人为膨胀所忽略时，检测到的分类群丰度变化会与当前推断丰度差异方法混淆；② 实验证据、理论指导的数据分析和现有文献支持这样的结论，即大多数亚属的发现是聚类16S测序的虚假伪影；③ 通过16S调查亚属分类群生成系统模式，建模作为属丰度函数，可稳健控制错误分类群积累；④ 通过R包Prokounter，用于调查各级别微生物组合的高度灵活差异丰度推断，从样本到特定分类群；⑤ 该方法可克服目前推断丰度差异法所注意的混淆问题。

Differential richness inference for 16S rRNA marker gene surveys
08-01, doi: 10.1186/s13059-022-02722-x

【主编评语】目前，使用高通量16S rRNA标记基因分析微生物组数据很有吸引力，但16S测序也产生了大量虚假的微生物分类群。近日，丹娜法伯癌症研究院人员在Genome Biology发表最新研究，开发了一款R包Prokounter（https://github.com/mskb01/prokounter），用于调查各级别16S测序微生物数据的高度灵活差异丰度推断，从样本到特定分类群。总之，本研究提出了一种灵活的方法，并被证明可以克服目前丰度差异推理方法所注意到的混淆问题，值得相关人员尝试。（@九卿臣）

从复杂宏基因组数据中实现自动化分箱新工具binny

Briefings in Bioinformatics[IF:13.994]

① binny是一种半监督宏基因组自动化分箱工具（利用Snakemake搭建分析流程），使用特异性标记基因集进行后续的重叠群聚类；② 在模拟和真实数据集中，binny分箱性能优于现有的6种常用工具（如Metabat2、Maxbin2、CONCOCT、VAMB、SemiBin和MetaDecoder ），具有很强的竞争力；③ binny可从一系列微生物生态系统中连续的、高度碎片化的基因组中装配出较完整和纯净的MAGs；④ binny还可联合其他分箱工具识别出新的MAGs，提高基因组恢复率。

binny: an automated binning algorithm to recover high-quality genomes from complex metagenomic datasets
10-13, doi: 10.1093/bib/bbac431

【主编评语】近年来，研究人员开发出多种分箱工具用于从宏基因组样本中恢复宏基因组组装基因组（MAGs），极大地扩展了人类和动物肠道参考基因组。近日，卢森堡大学研究人员在Briefings in Bioinformatics发表最新研究，开发出一种半监督宏基因组自动化分箱工具binny（https://github.com/a-h-b/binny），在模拟和真实数据集中，发现binny分箱性能优于现有Metabat2、VAMB和SemiBin等6种常用工具。总之，该工具的开发为从宏基因组数据中恢复高质量基因组提供新的方法和见解，值得关注和进一步测试。（@九卿臣）

基于宏基因组组装基因组的泛基因组分析需谨慎

Briefings in Bioinformatics[IF:13.994]

① 比较完整的分离株基因组和模拟宏基因组组装基因组（MAG）的泛基因组分析结果发现，MAG的片段化和不完整性导致了核心基因（CG）显著丢失；② 不同泛基因组分析工具（Roary、BPGA、Anvi'o）均存在CG丢失情况，但Anvi'o表现更好，污染率对GC大小几乎无影响（除Roary），但对非核心基因影响重大；③ 降低CG划分阈值（流行率90%或95%）可减少CG丢失，改进基因功能富集分析；④ 将完整的分离株基因组与MAG结合用于泛基因组分析可有效减少GC丢失。

Critical assessment of pan-genomic analysis of metagenome-assembled genomes
09-17, doi: 10.1093/bib/bbac413

【主编评语】宏基因组分箱作为当下获取微生物基因组资源最火热的手段之一，其产生的宏基因组组装基因组（MAG）数量已经远远超过现有分离株基因组的数量。然而，近期发表于Briefings in Bioinformatics的一项研究发现，MAG固有的基因组不完整性、污染和碎片化严重影响了泛基因组分析，此外，不同的泛基因组分析工具也会影响基于MAG的泛基因组分析结果，但是可以通过降低核心基因分析时的阈值，尽可能多地加入完整分离株基因组，选择合适的分析工具减少核心基因分析的误差。总之，该研究提示我们需谨慎看待基于MAG的泛基因组分析结果，未来也需要开发专业工具弥补MAG在泛基因组分析时的不足。（@青城昊）

Nature子刊：消除微生物组数据分析中批次效应的新方法

Nature Communications[IF:17.694]

① 开发了条件量化回归（ConQuR）方法，可消除菌群数据分析中的批次效应，并生成校正的分类单元读数表；② ConQuR基于分位数回归和逻辑回归消除批次效应，并通过非参数建模来适应微生物读数的复杂分布；③ 将ConQuR应用于模拟和真实的16S数据集，发现其在去除批次效应的同时保留了目标信号的优势；④ ConQuR相较其它方法在可视化、校正平均值、方差和高阶批次效应方面表现出了更优异的性能；⑤ ConQuR将来可扩展至鸟枪宏基因组数据。

Batch effects removal for microbiome data via conditional quantile regression
09-15, doi: 10.1038/s41467-022-33071-9

【主编评语】许多大规模微生物组研究需要跨时间或地点收集样本，并在不同的流程下进行处理，还会汇集多项研究样本进行综合分析，这将引入批次效应导致数据的系统性变化，进而模糊微生物和元数据之间的真实联系，引起更多的假阳性，阻碍了预测建模和生物标志物的开发。近期发表于Nature Communications的一项研究开发了基于条件量化回归的R包——ConQuR，可有效消除微生物数据分析中的批次效应，并保留样本中的关键信号。随着未来微生物组研究规模的不断扩大，批次效应难以避免，ConQuR将发挥更大的作用，推荐专业人士关注。（@青城昊）

用于微生物组数据Meta分析框架—MMUPHin

Genome Biology[IF:17.906]

① 开发了一种用于微生物组数据Meta分析的框架MMUPHin，基于十项已发表的IBD队列（16S测序），确定疾病和种群结构间相关性；② 发现以前记录的和新的微生物种群（含不动杆菌属和Turicibacter）与IBD存在联系，并区分了亚型、表型严重程度和治疗效果；③ 在CD或UC中，没有明显的、可重复的基于微生物组的亚型；④ 单一菌群失调比离散型更有利于概括菌群结构特点，为IBD表征提供分析基准；⑤ MMUPHin各项性能已被验证，还可扩展应用到其他数据类型。

Population structure discovery in meta-analyzed microbial communities and inflammatory bowel disease using MMUPHin
10-03, doi: 10.1186/s13059-022-02753-4

【主编评语】随着测序技术的发展，大规模人群中分子流行病学的荟萃分析可将多组学特征与复杂的健康相关表型有效关联，但相关meta分析的工具适用性还不是很成熟。近日，哈佛大学研究人员在Genome Biology发表最新研究，开发了一种用于微生物组数据Meta分析的框架MMUPHin（一个Bioconductor包；https://huttenhower.sph.harvard.edu/mmuphin/）。基于已发表的IBD队列，识别到一些新的标志物菌属（如不动杆菌属和Turicibacter）与IBD存在联系。此外，区分了亚型、表型严重程度和治疗效果间的关联，但在乳糜泻和溃疡性结肠炎中，没有明显的微生物组驱动的离散疾病亚型。总之，该研究为未来的微生物群落meta分析提供了新的方法。（@九卿臣）

Nature子刊：基于混合测序的东南亚人高质量肠道微生物基因组集合

Nature Communications[IF:17.694]

① 对27名来自东南亚志愿者的108份粪便进行宏基因组测序，平均每份样本产生9.4Gbp二代和5.8Gbp三代数据，并对其中24份样本进行了Hi-C测序；② 重构了4497个中、高质量宏基因组组装基因组，其中1708个在短读长样本中缺失，且N50长度相较短读长基因组改进约28倍；③ 种水平聚类得到685个物种，其中包括70个潜在新种，并改进了363个物种的参考基因组质量；④ 发现了超过27000个生物合成基因簇，其中88%与当前数据库的基因簇不具有同源性。

Genome-centric analysis of short and long read metagenomes reveals uncharacterized microbiome diversity in Southeast Asians
10-13, doi: 10.1038/s41467-022-33782-z

【主编评语】新加坡基因组研究所等机构在Nature Communications发表了最新研究，借助于二三代混合测序，结合Hi-C技术，对新加坡地区东南亚人的肠道菌群进行了以基因组为中心的研究，获得了数千个肠道微生物的高质量基因组，显著提升了现有基因组的质量，发现了大量新的代谢产物合成基因簇，揭示了东南亚人群肠道菌群的多样性特征，强调了基于混合宏基因组测序的参考基因组在生物多样性和潜在代谢产物挖掘中的重要性。（@青城昊）

哈尔滨医科大学：人和小鼠肿瘤组织中微生物组的综合数据库—microbioTA

Nucleic Acids Research[IF:19.16]

① 缺乏独立、全面的开放资源对与癌症相关的微生物组数据系统分类，限制了探究微生物与癌症间的关联；② microbioTA基于NGS数据资源，使用新策略挖掘隐藏序列数据，构建了病变组织微生物组研究的在线平台；③ 利用基因表达数据库中417个数据集（来自25个人类和14个小鼠组织），开发新流程对微生物序列重排序，深入分析以揭示各种癌症组织的微生物特征；④ microbioTA允许用户浏览、搜索、可视化和下载各种组织的微生物数据及相关分析结果。

microbioTA: an atlas of the microbiome in multiple disease tissues of Homo sapiens and Mus musculus
10-03, doi: 10.1093/nar/gkac851/6746866

【主编评语】研究已经发现各种微生物在癌症组织中定植，并在癌症诊断和预后中发挥着重要作用，许多研究致力于开发更好的癌症相关微生物组数据。然而，目前还没有独立、全面的开放资源对癌症相关微生物组数据进行编目，这限制了对微生物与癌症进展间关系的探索。近日，哈尔滨医科大学研究人员Liang Cheng、Lei Shi、张学及团队在Nucleic Acids Research发表最新研究，开发了人和小鼠肿瘤组织中微生物组的综合数据库—microbioTA（http://bio-annotation.cn/microbiota），该数据库允许用户浏览、搜索、可视化和下载各种组织的微生物数据及相关分析结果，值得关注。（@九卿臣）

用于识别菌群和代谢物间关联的数据库

NPJ Biofilms and Microbiomes[IF:8.462]

① 基于14项人类成对的肠道菌群-代谢组数据构建资源库用于关联分析，为微生物-代谢组分析提供支持；② 利用随机森林回归和随机效应模型识别出97种代谢物可通过菌群组成较好预测；③ 荟萃分析识别到104个属和195个代谢物有关联，代谢物相关属主要为厚壁菌门，菌群相关代谢物具有多类别；④ 颤杆菌属及另枝菌属为高代谢物关联属，在肠道具有高代谢活性或在肠道生态系统中发挥重要作用；⑤ 丁酸盐与粪杆菌属和丁酸弧菌属等正相关，与黄曲霉属负相关。

The gut microbiome-metabolome dataset collection: a curated resource for integrative meta-analysis
10-15, doi: 10.1038/s41522-022-00345-5

【主编评语】对人类粪便样本中获得的菌群和代谢物数据进行综合分析，可更好地了解人体肠道细菌和代谢物间的关联，以及其在健康和疾病方面的作用。近日，以色列特拉维夫大学研究人员在NPJ Biofilms and Microbiomes发表最新研究，通过14项人类成对的肠道菌群-代谢组数据构建数据库，发现通过菌群组成可较好预测97种代谢物，还识别多种菌属和代谢物间的关联（尤其是颤杆菌属及另枝菌属为高代谢物关联菌属），在肠道生态系统中可能发挥重要作用。总之，该研究为未来进一步探究菌群和代谢物间的联系提供了新视角。（@九卿臣）

Nature子刊：SeqCode—基于序列数据描述的原核生物命名规则

Nature Microbiology[IF:30.964]

① 开发了一种可以根据原核生物基因组序列进行命名的规则和新网站SeqCode；② 相比国际原核生物命名法，SeqCode允许基于分离株的基因组、宏基因组组装基因组或单扩增基因组序列对原核生物命名，并简化了对微生物培养要求，名称组成和优先规则方面两者相似；③ 通过SeqCode Registry网站运行，进行注册、验证名称和命名类型并链接到元数据；④ SeqCode可用来注册和验证名称（含候选名称）的两种途径，并提供了示例及关于DNA序列最低标准的建议。

SeqCode: a nomenclatural code for prokaryotes described from sequence data
09-19, doi: 10.1038/s41564-022-01214-9

【主编评语】目前，仍然存在多数的原核生物不能通过纯培养获得，无法通过国际原核生物命名法 (ICNP) 的规则和建议命名，严重阻碍了微生物学科间的交流。近日，美国内华达大学研究人员在Nature Microbiology发表最新研究，他们开发了SeqCode，通过SeqCode Registry运行（https://seqco.de/），可以根据原核生物基因组序列进行命名的规则和新网站。SeqCode可对分离株的基因组、宏基因组组装基因组或单扩增基因组序列对原核生物命名，在名称组成和优先规则方面与ICNP相似。虽然SeqCode可满足更广泛的研究团体的利益，但作者也强调该命名法目的不是要阻碍培养、并且没有提供关于分类群划分的规则或建议。未来，仍需要进一步优化该命名法，以期改善整个微生物科学的交流。（@九卿臣）

感谢本期日报的创作者：往、昔℡，点点，九卿臣，Evan，拍了花宝贝，阿童木，青城昊，XLyasby，upupup

点击阅读过去10天的日报：

1021 | 今日Science+Nature：限时进食和IBD研究再获突破

1020 | 姜长涛等Nature重大突破：降解尼古丁以保肝的肠菌

1019 | 菌群与新冠之间有何关系？3文多角度揭示

1018 | 刘宏伟+刘双江等Nature子刊：调节肠菌保护心血管的新机制

1017 | 新思路：利用菌群优化肉牛育种，让牛肉健康又环保

1016 | 87分Nature子刊：以食为药，助力实现营养安全

1015 | 今日Cell：疼痛感受神经如何增厚黏液、保护肠道？

1014 | 张雯等Cell突破：感受疼痛的肠神经调控菌群，保护肠道

1013 | 左涛等Lancet子刊重磅综述：肠道真菌组与人体健康

1012 | 78分综述详解：病菌如何突破肠道防线影响全身？