Qiime 2用户文档. 3老司机上路指南(2018.11)

Yong-Xin_Liu · December 25, 2018, 5:47pm

[TOC]

前情提要

老司机上路指南

QIIME 2 for Experienced Microbiome Researchers

本节5365字，我们将介绍如何使用QIIME 2处理微生物数据。本节教程主要针对经验丰富的微生物研究人员，即已经对如何处理数据非常熟悉，只需要知道的QIIME 2中特殊步骤的命令。

上一节我们的QIIME 2概述教程包含微生物数据处理的更多理论，本节将使老司机轻松上手QIIME 2。新人可跳过，或当学习资料阅读(看看是否能读懂，全看懂的才是老司机)。

为什么要改用QIIME 2?

Why switch to QIIME 2?

对于习惯于使用自己的工具和脚本处理数据、并且希望对过程中的每个步骤进行精细控制的用户来说，转换到QIIME 2可能是困难的(这好像是在説我)。我们理解经验丰富的微生物研究人员令人抓狂的学习曲线，但是相信社区、开源的环境和对可重复科学的承诺，使得切换到QIIME 2时开始感觉有些沮丧是值得的。

通过为微生物组数据分析提供一个通用框架，QIIME 2汇集了一个充满活力和包容性的社区。通过加入QIIME 2社区，作为一名正式的微生物学研究人员，您将自动与该领域的其他领导者产生联系，并且能够更容易地一起工作，以推动微生物学研究的最佳方法开发和实施，以供广泛使用。QIIME 2社区包括微生物学研究的老司机以及新手：鼓励所有人参与并相互学习。QIIME 2论坛包含关于如何执行微生物数据处理和分析的大量信息，以及关于该领域最佳方法具有建设意义的讨论。

QIIME 2还鼓励使微生物学研究更加可重复。QIIME 2通过定义特定的数据类型和仅将方法限制到其适当的数据输入类型，以减少不适当的分析。它还跟踪每个QIIME 2对象相关联的数据起源和对给定数据文件所做的所有操作。

此外，通过将工具封装到一个常用框架中，形成了简化的数据处理流程。使用QIIME 2大多数数据处理工作流可以合并成一个（或几个）bash脚本，从而减少需要调用的不同程序或可执行文件的数量以及需要重新格式化数据步骤的数量。

最后，QIIME 2是开源的，有经验的研究人员可贡献个人的代码，以扩大本软件的工作范围。任何工具都可以作为插件添加到QIIME 2中，它可以为任何软件、包或其他可安装、可执行文件提供接口。为自己的开发的方法编写QIIME 2插件，使得成千上万的用户立即访问并使用它。

老司机上路前的几点建议

Pro-tips for power users

以下是我们学到的一些技巧，这些经验将有助于您将工作流程转变为QIIME 2：

提示1: QIIME 2对象只是zip文件。如果您想查看.qza对象中的文件，可以使用qiime导出工具来提取数据文件（它基本上只是用于解压缩的工具）。或者，您也可以直接解压缩对象（unzip -k file.qza）并查看数据/文件夹中的文件。

提示2：QIIME 2命令行接口工具运行速度较慢，因为它每次调用对象时都必须解压缩和重新压缩对象中包含的数据。如果需要更多交互地处理数据，您可能希望使用Python API——它更快，因为对象可以简单地存储在内存中。您可以了解更多关于不同QIIME 2界面的信息。

数据处理步骤

Data processing steps

本教程中将介绍的处理步骤包括：

将原始序列（FASTQ）数据导入QIIME 2
数据样本拆分（即，将每个序列映射到它来源的样本），去除序列中非生物部分(即引物)
执行质量控制和：
1. 使用有DADA2或deblur的去噪序列，和/或
2. 使用VSEARCH或dbOTU进行质量筛选、长度剪切和聚类
物种分类
分析数据并获得生物学意义！

教程综述和可用插件列表可以为其他可能的处理和分析步骤提供思路。

数据导入

Importing data into QIIME 2

样本拆分

Demultiplexing sequences

双端合并

Merging reads

去除非生物序列

Removing non-biological sequences

相似序列分组

Grouping similar sequences

将相似序列分组主要有两种方法：去噪和聚类。概述教程提供了对这些方法更深入的讨论。

无论如何对序列进行分组，分组方法将输出：

每个OTU和/或ASV的代表序列（QIIME 2数据格式FeatureData[Sequence]），以及
一个特征表，它指示每个样本中每个OTU/ASV的测序次数。(QIIME 2数据格式特征表[频率]FeatureTable[Frequency])

DADA2和deblur还将生成一个带有关于过滤和去噪的相关信息的统计摘要文件。

去噪

Denoising

OTU聚类

OTU Clustering

在本教程中，我们将涉及QIIME 2的无参(de novo)和有参(closed reference)两类聚类方法。QIIME OTU聚类教程部分有更多的细节。

对序列进行聚类，你需要确保：

双端序列已经合并
非生物序列已经去除(如引物)
序列截取为相同的长度
低质量序列已经去除

我们讨论了合并双端序列，和删除非生物序列（详见相关章节）。

一旦你的数据已经符合以上要求，你需要在聚类前先将序列进行去冗余。

长度修整Length trimming

如果由于某种原因，原始序列没有完全相同的长度，则需要在进行OTU聚类之前将它们修剪到相同的长度。目前还没有一个QIIME 2函数在不做其他任何事情的情况下可将序列调整至相同长度，你可以使用cutadapt插件中的函数来完成此事。（这是因为QIIME 2工作流建议首先序列去噪（这里面包括了长度修剪步骤），然后可选地通过聚类算法获得ASV。）

质量过滤Quality filtering

物种分类

Assigning taxonomy

分析特征表获得新发现

Analyze feature table and gain insight

数据导出

Export the data

新的插件

New plugins

可以多看看QIIME 2不断增长的插件列表，以找到其他适合应用于你数据的方法。

请记住，您还可以制作自己的QIIME 2插件，以向QIIME 2添加功能，并与同行共享！

附录1. 可导入的重要数据格式

qiime tools import --show-importable-formats

AlignedDNAFASTAFormat
AlignedDNASequencesDirectoryFormat
AlphaDiversityDirectoryFormat
AlphaDiversityFormat
BIOMV100DirFmt
BIOMV100Format
BIOMV210DirFmt
BIOMV210Format
BooleanSeriesDirectoryFormat
BooleanSeriesFormat
CasavaOneEightLanelessPerSampleDirFmt
CasavaOneEightSingleLanePerSampleDirFmt
DADA2StatsDirFmt
DADA2StatsFormat
DNAFASTAFormat
DNASequencesDirectoryFormat
DeblurStatsDirFmt
DeblurStatsFmt
DistanceMatrixDirectoryFormat
EMPPairedEndCasavaDirFmt
EMPPairedEndDirFmt
EMPSingleEndCasavaDirFmt
EMPSingleEndDirFmt
FastqGzFormat
FirstDifferencesDirectoryFormat
FirstDifferencesFormat
HeaderlessTSVTaxonomyDirectoryFormat
HeaderlessTSVTaxonomyFormat
ImportanceDirectoryFormat
ImportanceFormat
LSMatFormat
MultiplexedPairedEndBarcodeInSequenceDirFmt
MultiplexedSingleEndBarcodeInSequenceDirFmt
NewickDirectoryFormat
NewickFormat
OrdinationDirectoryFormat
OrdinationFormat
PairedDNASequencesDirectoryFormat
PairedEndFastqManifestPhred33
PairedEndFastqManifestPhred64
PlacementsDirFmt
PlacementsFormat
PredictionsDirectoryFormat
PredictionsFormat
QIIME1DemuxDirFmt
QIIME1DemuxFormat
QualityFilterStatsDirFmt
QualityFilterStatsFmt
SampleEstimatorDirFmt
SingleEndFastqManifestPhred33
SingleEndFastqManifestPhred64
SingleLanePerSamplePairedEndFastqDirFmt
SingleLanePerSampleSingleEndFastqDirFmt
TSVTaxonomyDirectoryFormat
TSVTaxonomyFormat
TaxonomicClassiferTemporaryPickleDirFmt
UchimeStatsDirFmt
UchimeStatsFmt

附录2. 可导入的重要数据类型

qiime tools import --show-importable-types

DeblurStats
DistanceMatrix
EMPPairedEndSequences
EMPSingleEndSequences
FeatureData[AlignedSequence]
FeatureData[Importance]
FeatureData[PairedEndSequence]
FeatureData[Sequence]
FeatureData[Taxonomy]
FeatureTable[Balance]
FeatureTable[Composition]
FeatureTable[Frequency]
FeatureTable[PercentileNormalized]
FeatureTable[PresenceAbsence]
FeatureTable[RelativeFrequency]
Hierarchy
MultiplexedPairedEndBarcodeInSequence
MultiplexedSingleEndBarcodeInSequence
PCoAResults
Phylogeny[Rooted]
Phylogeny[Unrooted]
Placements
QualityFilterStats
RawSequences
SampleData[AlphaDiversity]
SampleData[BooleanSeries]
SampleData[ClassifierPredictions]
SampleData[DADA2Stats]
SampleData[FirstDifferences]
SampleData[JoinedSequencesWithQuality]
SampleData[PairedEndSequencesWithQuality]
SampleData[RegressorPredictions]
SampleData[SequencesWithQuality]
SampleData[Sequences]
SampleEstimator[Classifier]
SampleEstimator[Regressor]
TaxonomicClassifier
UchimeStats

译者简介

刘永鑫，博士。2008年毕业于东北农大微生物学专业。2014年中科院遗传发育所获生物信息学博士学位，2016年博士后出站留所工作，任宏基因组学实验室工程师，目前主要研究方向为宏基因组学、数据分析与可重复计算和植物微生物组、QIIME 2项目参与人。发于论文12篇，SCI收录9篇。2017年7月创办“宏基因组”公众号，目前分享宏基因组、扩增子原创文章300+篇，代表博文有《扩增子图表解读、分析流程和统计绘图三部曲》，关注人数3万+，累计阅读400万+。

Reference

https://qiime2.org/
Bolyen E, Rideout JR, Dillon MR, Bokulich NA, Abnet C, Al-Ghalith GA, Alexander H, Alm EJ, Arumugam M, Asnicar F, Bai Y, Bisanz JE, Bittinger K, Brejnrod A, Brislawn CJ, Brown CT, Callahan BJ, Caraballo-Rodríguez AM, Chase J, Cope E, Da Silva R, Dorrestein PC, Douglas GM, Durall DM, Duvallet C, Edwardson CF, Ernst M, Estaki M, Fouquier J, Gauglitz JM, Gibson DL, Gonzalez A, Gorlick K, Guo J, Hillmann B, Holmes S, Holste H, Huttenhower C, Huttley G, Janssen S, Jarmusch AK, Jiang L, Kaehler B, Kang KB, Keefe CR, Keim P, Kelley ST, Knights D, Koester I, Kosciolek T, Kreps J, Langille MG, Lee J, Ley R, Liu Y, Loftfield E, Lozupone C, Maher M, Marotz C, Martin BD, McDonald D, McIver LJ, Melnik AV, Metcalf JL, Morgan SC, Morton J, Naimey AT, Navas-Molina JA, Nothias LF, Orchanian SB, Pearson T, Peoples SL, Petras D, Preuss ML, Pruesse E, Rasmussen LB, Rivers A, Robeson, II MS, Rosenthal P, Segata N, Shaffer M, Shiffer A, Sinha R, Song SJ, Spear JR, Swafford AD, Thompson LR, Torres PJ, Trinh P, Tripathi A, Turnbaugh PJ, Ul-Hasan S, van der Hooft JJ, Vargas F, Vázquez-Baeza Y, Vogtmann E, von Hippel M, Walters W, Wan Y, Wang M, Warren J, Weber KC, Williamson CH, Willis AD, Xu ZZ, Zaneveld JR, Zhang Y, Zhu Q, Knight R, Caporaso JG. 2018. QIIME 2: Reproducible, interactive, scalable, and extensible microbiome data science. PeerJ Preprints 6:e27295v2 QIIME 2: Reproducible, interactive, scalable, and extensible microbiome data science [PeerJ Preprints]

猜你喜欢

10000+: 菌群分析
 宝宝与猫狗提DNA发Nature 实验分析谁对结果影响大 Cell微生物专刊肠道指挥大脑
系列教程：微生物组入门 Biostar 微生物组宏基因组
专业技能：生信宝典学术图表高分文章不可或缺的人
一文读懂：宏基因组寄生虫益处进化树
必备技能：提问搜索 Endnote
文献阅读热心肠 SemanticScholar Geenmedical
扩增子分析：图表解读分析流程统计绘图
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
在线工具：16S预测培养基生信绘图
科研经验：云笔记云协作公众号
编程模板: Shell R Perl
生物科普: 肠道细菌人体上的生命生命大跃进细胞暗战人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外2600+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍末解决群内讨论，问题不私聊，帮助同行。

学习扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文，跳转最新文章目录阅读